Новый сервис для пользователей «1С:Предприятия» – 1С:Распознавание речи

Фирма «1С» объявляет о запуске сервиса распознавания речи — поддержке нового механизма (дополнительной функциональности) платформы «1С:Предприятие 8», начиная с версии 8.3.23.

Автоматическое преобразование речи в текст помогает усовершенствовать бизнес-процессы в различных сценариях использования:

  • Распознавание речи позволит быстрее и проще надиктовать длинные тексты вместо их набора с клавиатуры. Электронные письма, текстовые блоки в документах, содержание задач и комментариев удобнее вводить голосом, особенно, если у пользователя заняты руки, а также при работе на мобильных устройствах.
  • Можно распознавать записи телефонных звонков или совещаний при хорошем качестве аудиозаписи. Для получения лучшего результата рекомендуется записывать отдельные звуковые каналы для каждого собеседника.
  • Можно разработать на 1С голосовое управление интерфейсом приложений: по команде голосом открывать нужные формы, строить отчеты, выполнять поиск, заполнять реквизиты.
  • Можно применять в голосовых системах самообслуживания, для речевой аналитики работы с клиентами, а также при создании интерфейсов для людей с ограниченными возможностями.
  • Использовать работу с дополнительной грамматикой при потоковом распознавании речи: при начале распознавания вы можете передать какие-то специфичные термины (фамилии сотрудников, названия номенклатуры или компаний-контрагентов), и сервис будет их уверенно распознавать.

В рамках сервиса доступны следующие услуги:

  1. Потоковое распознавание — пользователь отправляет аудиоданные в режиме реального времени, в ответ периодически получает распознанный текст. Это удобно для того, чтобы надиктовать письма, или реализовать управление интерфейсом программы.
    Длительность одного сеанса при потоковом распознавании речи с помощью сервиса имеет ограничение в 2 часа. Потоковое распознавание при локальном распознавании речи по длительности сеанса не ограничено.
  2. Файловое распознавание — пользователь отправляет в сервис файл с аудио, в ответ получает идентификатор задачи, по которому в дальнейшем сможет получить результат распознавания. В данном случае, пользователь может отправить готовый аудио-файл, например, запись совещания. Распознанный текст будет предоставлен пользователю с задержкой, которая зависит от длительности аудиофайла и загрузки сервиса.
    Файловое распознавание может обрабатывать многоканальные аудиозаписи, в этом случае каждый канал будет распознаваться независимо. Для распознавания принимаются форматы аудио: WAV signed 16 bit little-endian и Opus в контейнере ogg. Частота дискретизации аудио: от 8 кГц до 48кГц. Максимальный размер аудиофайла – 1 Гб длительностью до 4 часов. Результаты распознавания доступны для скачивания из сервиса в течение 7 суток после выполнения задания.

Сервис «1С:Распознавание речи» доступен из платформы «1С:Предприятие 8» версии 8.3.23 и старше средствами встроенного языка.

Распознавание речи в Платформе будет доступно как с помощью облачного сервиса 1С, так и локально. Для использования облачного сервиса распознавания речи требуется подписка на соответствующий сервис на Портале ИТС.

Для использования распознавания речи локально с помощью «1С:Предприятия 8» требуется скачать модели распознавания из облака 1С. Для скачивания моделей необходимо, чтобы программа пользователя находилась на официальной поддержке https://portal.1c.ru/support. Для дальнейшего использовании распознавания речи в Платформе локально, подписка ИТС для распознавания не потребуется.

Также предоставлено демо-приложение (библиотека), которое позволит выполнить регистрацию в сервисе для использования облачного распознавания речи, или скачать модели для работы локального распознавания. Демо-приложение можно скачать по адресу: https://speech.1c.ai/speech-demo.zip.

Распознавание речи можно использовать в приложении «1С:Документооборот», начиная с версии 3.0.9.18, например, для заполнения писем голосом.

Подробнее о возможностях сервиса можно узнать на Портале 1С:ИТС: https://portal.1c.ru/applications/1C-Speech-Recognition и в публикации на сайте сервиса https://speech.1c.ai.

Все поставщики программного обеспечения класса Средства распознавания и синтеза речи

Средства распознавания и синтеза речи как программное обеспечение

Средства распознавания и синтеза речи относят к разделу «лингвистическое программное обеспечение» в Классификаторе программ для электронных вычислительных машин и баз данных. Официальное определение Минкомсвязи – «Программы, которые должны предоставлять возможность преобразования речевого сигнала в электронные редактируемые форматы и синтез речевого сигнала на основе данных электронного редактируемого формата».

Синтез речи, также известный как преобразование текста в речь, определяется как искусственное или компьютерное создание человеческой речи. В сочетании с распознаванием голоса синтез речи представляет собой одно из основных средств, с помощью которого письменный текст может быть преобразован в речь или звуковую информацию, будь то в контексте службы с голосовой поддержкой или мобильного приложения, среди многих других. В программах распознавания и синтеза речи используется НЛП и DSP. НЛП технология используется для преобразования необработанного текста в речь. Сюда входит распознавание цифр, символов, сокращений, ритма, интонации.

Второй концепцией, которая позволяет синтезировать речь, является цифровая обработка сигналов (DSP). Проще говоря, DSP работает для преобразования фонетической расшифровки, созданной алгоритмом НЛП, в машинный язык или речь. Это может быть достигнуто двумя различными способами, включая основанный на правилах и конкатенативный синтез. Во-первых, синтезаторы на основе правил имитируют человеческую речь за счет использования таких параметров, как уровень шума, голоса и частоты. Эти параметры будут постепенно корректироваться и изменяться до тех пор, пока не будет создана искусственная форма речевого сигнала. Несмотря на все это, синтезаторы на основе правил обычно генерируют речь, которая звучит роботизированно или неестественно.

В качестве альтернативы конкатенативный синтез создается путем объединения нескольких файлов записанной человеческой речи, которые были извлечены из базы данных образцов. В итоге речь становится похожей на человеческую.

Преимущества использования средств распознавания и синтеза речи

Ряд основных преимуществ:

  • Воспроизводит естественную человеческую речь.
  • Программное обеспечение для распознавания речи помогает компаниям экономить время и деньги за счет внедрения результатов обработки в работу голосовых ботов.

Тенденции развития средств распознавания и синтеза речи

Прогнозируется, что к 2025 году мировой рынок программного обеспечения для распознавания и синтеза голоса достигнет 31,82 млрд. долларов США при годовом совокупном темпе роста в 17,2%. На этот рынок влияет быстрое внедрение искусственного интеллекта и Интернета вещей. В частности, интеллектуальные персональные помощники на смартфонах и повышение коммерческой ценности голосовых пользовательских интерфейсов в дизайне, архитектуре и производстве смартфонов.

Компании телекоммуникационной, автомобильной, банковской, медицинской и военной отраслей проявляют растущий интерес к программному обеспечению для обработки и синтеза речи и естественного языка. Голосовые системы, в том числе голосовые устройства и виртуальные помощники, легко внедряются в автомобильной промышленности и колл-центрах. Эти технологии становятся все более ценными для противодействия мошенническим действиям и повышения безопасности в банковской сфере за счет внедрения голосовой биометрии для аутентификации пользователей. Распознавание и синтез голоса также очень ценны в секторе здравоохранения, поскольку они обеспечивают эффективность и экономию средств при взаимодействии с пациентами и обработке клинической документации.

ТОП – 5 ПО «Средства распознавания и синтеза речи»

Основное ПО дано в таблице.

ТОП – 5 ПО «Средства распознавания и синтеза речи»

№ п/пНаименованиеФункционал
1SputnikVoiceПрограммное обеспечение для распознавания и синтеза речи.  Переводит речь в текст и наоборот. Применяется для работы телефонных сервисов.
2NLab Speech TTSОбучение голосовой модели для синтеза речи. Использование для голосовых роботов, озвучивания анимации и обучающих игр.
3Атом.Рита.ГолосРаспознавание речи из звуковых файлов и преобразование ее в желаемый голос.
4Программный модуль СилероРаспознавание языка и особенностей речи. Синтез речи на основе полученных данных для ботов и голосовых роботов.
5CASHEEСинтез речи на основе банка моделей и использование для голосовых роботов.

 

Бесплатное программное обеспечение и услуги для преобразования речи в текст

К счастью, существует бесплатная технология, называемая программным обеспечением для преобразования речи в текст, которая позволяет вам печатать без помощи рук и использовать свой голос для написания документов.

Это программное обеспечение восходит к началу 1990-х годов с его первым коммерческим выпуском, и в то время оно было неуклюжим, отнимало много времени и разочаровывало новичков.

Программное обеспечение для распознавания речи в текст распознает голос пользователя и преобразует его в письменные слова с помощью искусственного интеллекта. Кроме того, в большинстве программ используются голосовые команды для выполнения требований к пунктуации и форматированию.

Современные технологии находятся в световых годах от первых программ преобразования речи в текст. Теперь вы можете быстро диктовать и быть уверенными в том, что по крайней мере 90% высказывания транскрибируется правильно. Также есть несколько языков для выбора и голосовые команды для повышения производительности на рабочем месте.

Большинство программ преобразования речи в текст очень точны, и по мере использования программное обеспечение становится более эффективным, поскольку оно адаптируется к голосу. Некоторые даже просят пользователя исправить нечеткие проблемы с диктовкой, чтобы ускорить процесс обучения.

Sobolsoft

Это программное обеспечение для преобразования речи в текст позволяет быстро и без усилий расшифровывать и сохранять преобразованные текстовые файлы. Бесплатная версия позволяет ежемесячно конвертировать аудио в текст в течение 500 минут. После установки вы можете загрузить файлы и нажать «Конвертировать», чтобы начать загрузку и преобразование аудиофайлов в текст одновременно.

После расшифровки программа позволяет пользователю редактировать и сохранять текст. Тем не менее, файлы MP3 являются единственными аудиофайлами, которые может расшифровывать это программное обеспечение.

Speechnotes

Это высокоэффективный и надежный инструмент для преобразования речи в текст. Он легко доступен, так как не требует скачивания, регистрации или подписки. Открыв это программное обеспечение в своем браузере, вы можете мгновенно начать расшифровку, щелкнув микрофон. На экране отображаются различные часто используемые сочетания клавиш и команды. Кроме того, Speechnotes автоматически пишет начало предложений с заглавной буквы и автоматически сохраняет документы. После завершения текст можно сохранить непосредственно в локальные файлы или отправить на Google Диск.

Google Docs Speech Typing

Это программное обеспечение встроено в Google Docs и доступно в вашем браузере. Этот бесплатный и выдающийся инструмент позволит вам работать быстрее, ничего не печатая. Он имеет около 100 голосовых команд, помогающих редактировать и форматировать. Это программное обеспечение Google для преобразования речи в текст — отличный вариант, будь то изменение строк, набор маркеров или подчеркивание слова. Его нельзя скачать, но он доступен через Интернет. Чтобы получить доступ к этому программному обеспечению, перейдите в Документы Google, щелкните значок «Инструменты», выберите «Голосовой ввод», разрешите использование микрофона и начните говорить.

Диктовка Windows

Это программное обеспечение эффективно транскрибирует все, что вы говорите, в текст со встроенным распознаванием речи. Это очень удобно для пользователя, и есть много команд для управления текстом и набора текста без доступа к клавиатуре и с невероятной точностью.

Чтобы запустить эту диктовку Windows для преобразования речи в текст, необходимо нажать символ Windows + H, чтобы активировать онлайн-распознавание речи в настройках. Появится панель инструментов со значком микрофона. Вы должны сказать «Начать диктовку» и нажать на микрофон, чтобы транскрибировать. Если вы скажете «Остановить диктовку», вы можете завершить процесс.

Bear File Converter

Это бесплатный комплексный инструмент с различными услугами, такими как конвертер речи в текст, который можно найти в Интернете. Bear File Converter позволяет людям загружать и конвертировать аудиофайлы размером менее 3 МБ, нажав «Преобразовать». Это программное обеспечение поддерживает OGG, WAV, MP3, WMA и многие другие аудиофайлы. Кроме того, вы можете добавить URL-адреса аудиофайлов.

Распознавание речи Windows (WSR)

Пользователи Windows могут воспользоваться преимуществами этого программного обеспечения для преобразования речи в текст, встроенного в систему, и все, что вам нужно, — это быстрый и простой способ активации, чтобы начать работу. Программное обеспечение Windows Speech Recognition позволяет пользователям преобразовывать звук в текст в различных браузерах, программах или приложениях.

Позволяет открывать и закрывать программы, устанавливать календари или даже искать и запускать песни. Чтобы включить его, вам нужно перейти в строку поиска и ввести распознавание речи Windows, а затем выполнить указанные шаги, чтобы компьютер мог распознавать ваш голос, и все готово.

Программное обеспечение для распознавания голоса для доступа к онлайн-контенту — лучшие практики в доступном онлайн-дизайне

Хизер Капретт

Программное обеспечение для распознавания голоса используется главным образом для управления компьютером без помощи рук людьми с нарушениями опорно-двигательного аппарата. Он используется для диктовки, чтобы писать текст вместо набора текста. Он также используется для управления компьютером для выполнения задач, которые можно было бы выполнить с помощью мыши или клавиатуры. Эти задачи включают в себя открытие и закрытие приложений, переключение из одного приложения в другое, использование меню и параметров, доступных в приложении, нажатие кнопок, ссылок и других интерактивных элементов на веб-странице, перетаскивание, а также другие задачи.

Dragon Naturally Speaking — самая популярная программа для распознавания голоса, но есть и другие. Операционная система Windows имеет встроенный инструмент под названием Распознавание речи . Mac OS X имеет свой инструмент Enhanced Dictation , а устройства iOS имеют Siri .

Командный режим работает по принципу «увидишь и скажешь». Пользователь распознавания голоса дает команды своему компьютеру на основе того, что он видит на экране. Позже мы поговорим об альтернативном тексте, который можно разместить на изображениях или кнопках. Альтернативный текст обычно используется программами чтения с экрана, чтобы помочь слепым людям понять, какая информация передается изображением, но он также используется людьми, использующими программное обеспечение для распознавания голоса. Альтернативный текст или «альтернативный текст», который помещается на кнопку, например, должен соответствовать тексту, который находится на кнопке, чтобы команда, которую дает пользователь, совпадала.

Dragon Naturally Speaking имеет функции, которые помогут с управлением и управлением, когда элементы на веб-странице не закодированы как ссылки или кнопки или элементы не имеют надлежащего атрибута альтернативного текста, установленного для них. Одним из них является инструмент «сетка мыши», который предоставляет серию пронумерованных сеток на странице, которые постепенно сжимаются и повторно центрируются в области ранее произнесенного номера. Другой говорит мыши двигаться вверх, вниз, влево и вправо. На https://www.youtube.com/watch?v=iOSObinq7a4 есть демонстрация сетки мыши и голосовых команд для перемещения мыши.

В предыдущем примере мы видели, насколько мучительно медленно пользователи программного обеспечения для распознавания голоса могут перемещаться по веб-сайту с неправильным кодом. Однако эта технология может обеспечить большую эффективность навигации, например, когда установлен замещающий текст.