INCOS - жестовое и голосовое управление устройствами
Орша
Оборудование

Выберите вознаграждение

Новость №4
22 ноября

Привет! Мы решили сделать съемки игры Legends of Eisenwald от Aterdux Entertainment. В котором покажем работу системы, от подключения к PC, запуска игры, геймплея, выхода и выключения. Для того, чтобы показать систему в работе, на данном этапе разработки.


Теперь, к делу:


В системе распознавания речи INCOSможно выделить несколько уровней:

  1.  Первоначальная обработка звука
  2.  Дискретное преобразование Фурье
  3.  Логарифмическое сжатие
  4.  Выделение лексических элементов при помощи нейронной сети с помощью многослойной нейронной сети
  5.  Сопоставление лексических элементов командам устройства.
==================================
1. Звук воспринимаемый микрофоном (разрядность 16 бит, частота дискретизации 22000 Гц), подвергается для понижения контрастности спектра сглаживанию Хэминга (что позволяет проявлять гармонический состав речи).
==================================
2. Благодаря преобразованию Фурье получаем амплитудный спектр и энергетический спектр (после отбрасывания информации о фазе сигнала). Также необходимо сказать, что на этом этапе происходит и нормирование сигнала, т.е. приведение его в данном случае к диапазону [0.0,1.0] (каждый компонент входного вектора делится на его длину).
==================================
    3. Для экономного использования входов нейронной сети (т.к. в низкочастотной области спектра содержится больше информации) происходит сжатие высокочастотной области спектра.
    ==================================
    4-5. Применяется так называемый многослойный персептрон (т.е. многослойная нейронная сеть) состоящий из трех уровней: входной слой, символьный слой и эффекторный слой.

      Приблизительная схема нейронной сети

      Входной слой представляет собой самоорганизующуюся сеть Кохонена. Основной задачей данного слоя является формирование нейронных ансамблей и передача  данных на следующие уровни обработки.

      Далее располагается символьный слой, который представляет собой слой Гроссберга, обучаемый без учителя. Нейроны этого слоя ассоциированы с символами алфавита системы, который позволяет на следующим уровне получить команды для управления системой.

      Эффекторный слой получает сигналы от символьного слоя и тоже является слоем Гроссберга. Выходом слоя является вектор эффекторов, который фактически представляет собой в некотором приближении набор команд для устройства.

      Для работы системы для начала необходимо обучить нейронную сеть. Для этого необходимо передать системе образцы звуков (что осуществляется путем записи их системой в специальном режиме), а также необходимые команды (можно выбрать в меню).


      Будем держать Вас в курсе всех событий!




      Комментарии

      Только спонсоры оставляют комментарии.