«Яндекс» представил мобильное приложение для перевода речи в текст и обратно
На ежегодной конференции для разработчиков Yet Another Conference в Москве «Яндекс» представил разработку, которую с нетерпением ожидали пользователи. С ее помощью можно переводить речь в текст и наоборот — озвучивать тексты.
Ранее технология по распознаванию и синтезу речи под названием Yandex SpeechKit была доступна только сторонним разработчикам, а теперь ей могут пользоваться в мобильном приложении «Яндекс.Диктовка» обычные пользователи.
С помощью программы пользователи смогут диктовать заметки, СМС-сообщения, письма и комментарии в соцсетях. При этом программа сама расставит между словами необходимые знаки препинания. Благодаря новинке вскоре журналисты смогут экономить временя, которое они тратили на снятие записи с диктофона, а водители получат возможность слушать печатные тексты с любимых интернет-площадок, не отвлекаясь на чтение.
Приложение «Яндекс.Диктовка» работает с использованием трех новых функций технологии распознавания речи, разработанной компанией. Эти функции обеспечивают голосовую активацию работы приложения, выделение смысловых объектов в тексте и синтез речи из записанного текста.
Возможности приложения просто фантастические. Голосовая активация позволяет включить приложение голосовой командой, не нажимая никаких кнопок. После этого программа начинает записывать в текстовом виде произносимую речь. Текстовую запись можно редактировать также с помощью голосовых команд, например, «Удали последнюю фразу» или «Сотри последнее предложение». После записи сохраненный текст может быть преобразован обратно в речь. Кроме того, технология умеет выделять в распознанном тексте стандартные понятия — дату, время, фамилию или адрес. Это используется, чтобы управлять устройствами простыми фразами, которые не нужно заучивать. Например, для сервиса автоматизированного заказа такси: пользователь голосом заказывает такси, технология переводит речь в текст и выделяет такие объекты, как адрес и время подачи, дальше идет оформление заказа.
Пока система распознает русский и турецкий языки, в планах — английский. При этом демо-версия не способна распознавать спонтанную речь, а только тексты произвольной тематики от одного человека. Демонстрационное приложение доступно для скачивания в интернет-магазине в «Яндекс.Store», позднее разработчики намерены выложить его в Google Play и App Store.
Подобные технологии есть и у других интернет-компаний. Так, у Apple есть программа Dragon Dictation, которая распознает текст, позволяет скопировать и вставить его в другое приложение, а также сразу отослать в электронном письме или SMS, отправить в Twitter или Facebook. Есть голосовой поиск Dragon Search. В устройствах с операционной системой Android (разработчик — Google) есть голосовой поиск, возможность перевода речи в текст. С 2013 года функция распознавания речи появилась и в браузере Google Chrome: система умеет переводить устную речь в печатный текст. Разработчики благодаря Web Speech API могут встраивать функции, связанные с распознаванием речи и выполнением голосовых команд, в свои приложения.
Технологии обеих компаний (Apple и Google) умеют распознавать русский язык. Однако в русском «Яндексе» уверяют, что их разработка в отличие от зарубежных конкурентов лучше распознает русский язык.