Всего три года назад компании DSS Lab и InfoQubes объединились в консорциуме 3i Technologies (3i — Information. Integration. Intelligence) для концентрации усилий в разработке инновационных компьютерных систем для обработки и анализа текстовой, аудио- и видеоинформации. В прошлом году в это научно-производственное объединение вошла еще одна российская компания — PROMT, известная выпускаемыми ею системами компьютерного перевода для английского, немецкого, французского, испанского, итальянского, португальского и русского языков.
И вот в конце лета консорциум выдал свою первую продукцию — облачный сервис 3i Speech Recognition, обеспечивающий «трансформацию» человеческой речи в тексты на экране компьютера. В текстах могут присутствовать не более 10% ошибок, которые в системе 3i Speech Recognition редактируются оператором на компьютере вслед за появлением фраз на его экране.
Кроме редакторского интерфейса в 3i Speech Recognition имеются личный кабинет пользователя, а также хранилище голосовых аудиозаписей и соответствующих им текстов. Сервис способен быстро преобразовать в читаемый текст аудиозаписи теле- и радиопрограмм, видеороликов, разговоров операторов контакт-центров с клиентами и т. д. Для этого пользователь сервиса может загрузить в облачное хранилище планируемую для преобразования аудиозапись (длительностью до 18 часов), а затем дать команду на ее «трансформацию» в текст, который будет получен в интервал времени, намного более короткий, чем время звучания исходной аудиозаписи. 3i Speech Recognition создает структурированный текст по всем правилам орфографии и пунктуации. А при одновременном прослушивании речи и просмотре соответствующего текста сервис выделяет на экране произносимые фразы.
В системе «трансформации» голоса в текст применены разработанные специалистами консорциума языковые и акустические модели, в которые включены технологии машинного обучения и нейронных сетей. При этом для повышения точности распознавания речи предусмотрена их быстрая адаптация к терминологиям, применяемым в узких областях знаний, например, для специализированных телепрограмм (спортивных, финансово-экономических, научно-популярных), которые прозвучали на русском, английском, китайском, немецком или испанском языках. При необходимости получаемые тексты могут быть переведены с языка оригинала на любой из указанных языков с помощью технологии компьютерного перевода.
Сервис, безусловно, станет очень полезным профессиональным инструментом для служб контроля качества обслуживания клиентов в контакт-центрах, для сотрудников предприятий телерадиовещания, обязанностью которых является расшифровка эфиров (своих, партнеров и конкурентов), для журналистов печатных и интернет-изданий, затрачивающих дорогостоящие часы рабочего времени на преобразование записей интервью на диктофонах в тексты, а также для множества компаний и организаций, в которых производство продукции базируется на использовании речевой информации.
См. также:
- Разработана самая быстрая система защиты АСУ ТП для энергетических и промышленных объектов
- Разработана технология создания неповторимого «квазидактилоскопического» ключа безопасности
- Как устроен первый сотовый телефон, который работает без аккумулятора