Главная » Новости » Я слышу голоса: общительный массив для дружелюбного робота

Я слышу голоса: общительный массив для дружелюбного робота

Робот не любит скромных

Несмотря на все свои преимущества, HARK во многих аспектах оставался для нас чёрным ящиком. Он хорошо вёл себя в каких-то определенных сценариях, но если начать манипулировать параметрами, поведение могло стать трудно предсказуемым.

К примеру, выяснилось, что робот не слышит тихие голоса. Как будто он не любит скромных. Для того, чтобы не перегрузить систему в целом, мы пытаемся отсечь от обработки в модуле распознавания речи,  сторонние шумы и прочий паразитный сигнал. Единственным доступным для нас методом в HARK было задание пороговой чувствительности в децибелах. Выставив определенный порог, мы защитили себя от обработки «мусора». Но за это заплатили люди с тихим голосом. Если слишком сильно снижать порог, робот начинает слышать людей в 20 метрах от себя и тратить ресурсы на обработку. С другой стороны, на тех же выставках порой царит такой шум, что вручную приходится в процессе работы корректировать настройки, повышая порог чувствительности, чтобы робот слышал только тех, кто громко говорит рядом с роботом.

Пока робот говорит, он никого не слышит. Между словами есть, конечно, небольшие паузы,  которые он может слышать, и по голосу человека в этот момент понять, что ему что-то говорят, и прерваться. Но срабатывало это крайне редко.

От аппаратного эхоподавления после множества исследований к тому времени мы отказывались уже трижды. При этом гарантированно превосходящих по характеристикам HARK систем мы так и не нашли. Выбрав свой путь, мы были вынуждены по нему идти до конца.

Сегодня разработчики «Промобота» создали собственный алгоритм определения наличия речи в звуковом сигнале (в английской литературе используется термин VAD — voice activity detection). Он работает в связке с HARK, подготавливая сигнал для обработки.

Роботы стали тактичнее, они научились лучше слушать и отвечать впопад, в чём любой желающий может убедиться на ближайшей выставке или ярмарке. Но как инженеры мы знаем, что человеческое общение и общение робота с человеком — это две, как говорится, большие разницы. Чтобы приблизить робота к уровню человеческого общения, нам ещё предстоит огромная работа. Радует, что когда мы создадим новое программное решение, даже модели прошлых лет можно будет просто обновить. Чего уже не скажешь о человеке.

Авторы: Валерий Титов и Владислав Сазонов

Опубликовано: 27 сентября 2021
↓