Содержание

4 приложения для перевода речи в текст на Андроиде


Технология распознавания речи реализуется во многих сферах. До 2006 года этой функцией обладали только роботы. Сегодня на голосовые команды реагируют автомобили, самолеты и  многие бытовые приборы. Предусмотрена такая опция, как перевод речи в текст Андроид  устройствах.

Содержание:
1. Голосовой поиск в Андроид-смартфоне
2. ListNote Перевод речи в текст заметки
3. SpeechNotes Перевод речи в текст
4. Voice Writer Запись с голоса
5. Dragon Anywhere Дракон

перевод речи в текст Андроид

Голосовой поиск в Андроид-смартфоне

Не все знают, что инструмент для преобразования речи в текст есть практически в каждом Андроид-смартфоне: он идет вместе с предустановленной Google-клавиатурой и работает в режиме оффлайн.

Голосовой поиск от Google имеет значок в виде микрофона прямо на главной странице смартфона (цифра 1 на рис. 1):

Голосовой поиск Google на Андроид смартфоне

Рис. 1. Голосовой поиск Google на Андроид-смартфоне

Либо можно открыть «Приложения» (цифра 2 на рис. 1) и там найти значок «Голосовой поиск» (рис. 2):

Значок Голосовой поиск в Андроиде

Рис. 2. Значок «Голосовой поиск», который предустановлен в Андроиде

Чтобы начать поиск голосом на Андроид-смартфоне, надо кликнуть на значок микрофона (1 на рис. 1 или рис. 2) и произнести внятно что-нибудь, например, «Пушкин Википедия».

Появится страница «Распознавание»:

Распознавание произнесенного текста

Рис. 3. Распознавание произнесенного текста

После распознавания произнесенной фразы сначала на экране появится текст: Пушкин Википедия, а потом автоматически появятся ссылки на страницу о А.С. Пушкине в Википедии.

Если сказать фразу «Компьютерная грамотность с Надеждой», то будет показан текст этой фразы, а потом на экране сразу появятся ссылки на сайт, где Вы сейчас читаете эти строки.

Но если Вы ищете отдельное приложение, которое делает перевод речи в текст на Андроид-устройствах, стоит рассмотреть следующие варианты.

ListNote Перевод речи в текст заметки

ListNote Речь в текст заметки

Скачать https://play.google.com/store/apps/details?id=com.khymaera.android.listnotefree

Поддерживается русский язык, но не работает распознавание речи без подключения к интернету.

Первая настройка, которую приложение предлагает выбрать – это обычная светлая или трендовая темная тема. После этого можно приступать непосредственно к работе. Вверху окна нажмите синюю кнопку «Распознавание речи» и начинайте говорить. Текст появляется после распознавания с минимальной задержкой.

В приложении распознаются знаки препинания, даже команда “двоеточие” пишется как : , а не как слово.

ListNote можно поставить на паузу и одной кнопкой стереть записанное. Текст сохраняется в форме заметки, которую можно редактировать, блокировать и отправлять своим контактам в социальных сетях.

К этому приложению в Google Play был оставлен интересный отзыв об его использовании:

«Перед сном рассказываю дочке сказки, сочиняю на ходу. Хочу издать сборник. С утра сложно вспомнить детали, а записывать аудио не удобно. Приложение ListNote выручило. Редактировать, конечно, многое приходится, это нормально. Плюс можно сразу на Яндекс диск отправлять. Хоть сейчас в печать ))»


SpeechNotes Перевод речи в текст

SpeechNotes Речь в текст

Скачать:  https://play.google.com/store/apps/details?id=co.speechnotes.speechnotes&hl=ru

SN (сокращение от SpeechNotes) – неплохая альтернатива всем перечисленным вариантам. Так же, как и Voice Writer, это приложение использует преобразователь речи в текст от компании Google. Текст распознается очень точно, сохраняется автоматически. Полученные заметки можно копировать на microSD, отправлять по Bluetooth, e-mail и другими способами.

SN примечателен тем, что заботится о конфиденциальности пользователей и не сохраняет данные на своих серверах.

За небольшую плату в приложении можно включить множество дополнительных функций – голосовое управление, автоматическое изменение регистра для первого слова в предложении, клавиатуру со знаками препинания и пр.

Voice Write Запись с голоса

Voice Write Писатель с голоса

 Скачать:  https://play.google.com/store/apps/details?id=com.voicetotext.anil&hl=en

Это приложение не такое популярное, как ListNote, его интерфейс не настолько дружелюбен, но Voice Writer хорош тем, что использует технологию распознавания речи от Google, поэтому придраться к его работе нельзя.

Помимо распространенных европейских языков Voice Write поддерживает некоторые азиатские (арабский, индонезийский, китайский, хинди), а также чешский, датский, греческий и финский. У приложения есть встроенный переводчик. Выходные данные можно отправить в WhatsApp, Facebook, Google Hangouts, Gmail и некоторые другие сервисы.

Dragon Anywhere Дракон

Dragon Anywhere Дракон

Скачать:  https://play.google.com/store/apps/details?id=com.nuance.dragonanywhere&hl=ru

Приложение имеется также в магазине App Store для яблочных смартфонов.

Платная, но мощная кроссплатформенная программа с богатым функционалом. Конечно, если вы не собираетесь на лету создавать тексты с готовым форматированием, тратиться на нее нет смысла. Она больше подойдет профессионалам – юристам, медикам, преподавателям, бизнесменам и всем, кому нужно создавать корпоративные формы документов. Голосовой движок Dragon Anywhere адаптируется к особенностям речи говорящего, это и отличает программу от всех прочих.

Единственный (и существенный) минус – отсутствие поддержки русского языка. Поэтому Dragon Anywhere пригодится только тем, кто работает с английским и немецким языками, а также подойдет в случаях, когда необходимо распознать текст из иностранного видео или лекции для последующего перевода.

Дополнительные материалы:

1. Перевод речи в текст: топ-5 программ

2. Голосовой поиск на компьютере через Гугл Хром или Яндекс Браузер

3. Как передать файлы с Андроида на компьютер и наоборот без Интернета

4. Пять возможностей сотовых телефонов, которых не хватает в наши дни

5. Как ответить на звонок или закончить вызов кнопкой в Андроиде


Получайте актуальные статьи по компьютерной грамотности прямо на ваш почтовый ящик.
Уже более 3.000 подписчиков

.

Важно: необходимо подтвердить свою подписку! В своей почте откройте письмо для активации и кликните по указанной там ссылке. Если письма нет, проверьте папку Спам.


Автор: Надежда


17 мая 2018

www.compgramotnost.ru

Перевод аудио в текст без микрофона

Этот пост относится к переводу аудио в текст в модуле транскрибирования Speechpad.

Использование микшера

23.08.2014. Неожиданно обнаружил, что могу использовать для транскрибирования скрытые возможности в windows 7 и 8. Возможно это работает не всегда, но на двух моих компьютерах — старом нотбуке и новом моноблоке сработало. Последовательность действий следующая — открываем контрольную панель, затем выбираем звук и в ней вкладку записывающие устройства. Там нажимаем правую кнопку мыши и в появившемся контекстном меня выбираем — показать скрытые устройства.
показать миксер звука

Появится скрытый миксер звука. Делаем его доступным и затем устройстом записи по умолчанию.
сделать миксер устройстом записи по умолчанию

После этого напротив миксера появится столбик, означающий, что он используется для записи.
столбик рядом с миксером

И вроде все — можно приступать к переводу аудио в текст в модуле транскрибирования, при этом мы слышим звук из колонок и не нужно никаких повторителей.

Пользователь Виктор поделился опытом установки стерео микшера в случае если его нет в системе.

Использование виртуального кабеля

Нашел сегодня бесплатную замену программе Virtual audio cabel (VAC). Альтернатива почти свободно распространяется (там странная лицензия donationware) на сайте http://www.VB-CABLE.com.

Правда, предлагаемый там программа для повтора аудио у меня не заработала, но создать виртуальный кабель получилось и я смог распознать аудио без микрофона.

При переводе аудио с помощью программ, создающих виртуальный аудио кабель происходит неприятное явление — текст накапливается в поле предварительного просмотра и не попадает в результирующее поле. После порядка 5 минут распознавания программа отключается и высвечивается ошибка «error network». Так как ошибка находится вне кода блокнота, то просто исправить ее нельзя (правда можно обойти, например, выключением записи через некоторые промежутки времени).

От 07.11.13. Сделал принудительный перенос из предварительных результатов в результирующее поле при превышении длины текста 300 символов. Теперь проблема практически решена (17.12.2014 Теперь уже есть специальное Поле задания длины буфера фраз).

15.12.2013 Для сравнения привожу результаты транскрибирования mp3 2.5 минутного отрывка записи сказки Пушкина, скаченной с популярного сайта bibe.ru. Bite rate записи равнялся 128 kbps, колонки и микрофон самые обычные.

Результат перевода аудио с помощью колонок и микрофона
текст транскрибирования с помощью колонок

Результат перевода аудио с помощью программы VB-CABLE
текст транскрибирования с помощью виртуального кабеля

Настройка виртуального кабеля

1. Скачиваете виртуальный кабель, распаковываете его в папку и запускаете либо VBCABLE_Setup.exe, либо VBCABLE_Setup_x64.exe (в зависимости от разрядности вашей Windows)

2. Открываете окно управления записывающими устройствами и делаете CABLE Output устройством по умолчанию.
установка VB-CABLE, запись

3. Открываете окно управления устройствами воспроизведения и делаете CABLE Input устройством по умолчанию.
установка VB-CABLE, воспроизведение

4. Теперь можно приступать к транскрибированию. После этих манипуляций звук будет идти из выхода аудио на запись, микрофон при этом перестает работать. Чтобы вернуть его для работы нужно сделанные исменения откатить (вернуть все назад).

Использование физического кабеля

2.06.2014. Пользователь Владимир Гусев предложил использовать для транскрибирования кабель 3.5 jack- 3.5 jack. Один конец кабеля при этом вставляется в выход на колонки, а другой на вход для микрофона. Качество при этом методе получается близкое к качеству, полученному на vbcable, но нет неприятного эффекта накапливания текста в буфере предварительного просмотра. Для контроля звука он также предлагает использовать кабель с размножителем.

jack3.5 папа-папа
jack3.5 папа-мама

Транскрибирование аудио в Linux

Для Linux организация виртуального кабеля делается средствами самой операционной системы. По крайней мере мне в Ubuntu ничего устанавливать не пришлось. По-моему, я не использовал терминала даже, работал только через графическую оболочку.

Стерео микшер в Mac OS

Для организации стерео микшера в Mac OS можно использовать последнюю версию soundflower.

speechpad.ru

Распознавание речи в текст в Москве — YouDo

В условиях технологического прогресса многие компании проводят различные тренинги и публичные выступления, используя при этом записывающие устройства. Наиболее удобным устройством записи разговоров, конференций или семинаров является диктофон. Однако материал, записанный с помощью диктофона, со временем необходимо конвертировать. Распознавание голоса в текст называется транскрибацией. Известно, что первое устройство, способное производить распознавание речи в текст, было разработано еще в 1952 году и могло расшифровывать произнесенные цифры. Сейчас же разработано множество подобных программ, способных распознавать разную речь на многих языках.

Где можно заказать услуги по распознаванию текста?

На сегодняшний день конвертировать речь в текст можно с помощью:

  • различных программ в режиме он-лайн, а также устанавливаемых на компьютер или на телефон;
  • специализированных компаний, занимающихся распознаванием голоса;
  • фрилансеров, предлагающих свои услуги на различных серверах.

Недостатком использования программ по расшифровке речи является то, что точность конвертации зависит от объема словаря, установленного в программе. Поэтому часто этот способ не оказывается достаточно качественным и эффективным.

Специальные компании, обычно, предоставляют лучших специалистов, способных перевести голос в текст. Однако стоимость таких услуг часто оказывается гораздо выше ожидаемой.

Поэтому наиболее выгодной оказывается возможность заказать услуги фрилансера, который может качественно и профессионально перевести голос в текст.

От чего зависит стоимость транскрибации?

Цена такой услуги, как расшифровка речи в текст, зависит от нескольких факторов:

  • объем голосового материала, который необходимо перевести в текст;
  • качество и громкость сделанной записи, наличие или отсутствие явных помех;
  • время, на протяжении которого фрилансеру необходимо перевести речь в текст.

Где найти опытных фрилансеров?

На сегодняшний день транскрибация записей производится удаленно исполнителями, услуги которых вы можете найти и заказать на сайте YouDo. Для этого достаточно пройти простую процедуру регистрации, разместить заявку «конвертация речи в текст», указать стоимость работы с учетом стандартной цены за подобные виды услуг, ожидать откликнувшихся специалистов, а затем нанять наиболее опытного из них.

Расшифровка речи исполнителями сервиса YouDo производится профессионально и  качественно с учетом всех требований заказчика. Важным преимуществом сервиса является возможность установить собственные расценки, а затем удаленно найти фрилансера для конвертации записанной речи в текстовый формат.

Оставляйте свои заявки в режиме он-лайн и уже через несколько минут вы сможете нанять специалиста, который проведет распознавание речи любой сложности в кратчайшие сроки. 

freelance.youdo.com

Транскрибирование аудио файлов | Speechpad.ru

Перевод аудио в текст в модуле транскрибирования основывается на подаче звука с колонок на микрофон. Это можно достичь либо, положив микрофон к колонкам, либо посредством аудио кабеля, как физического, так и виртуального. Можно также использовать стерео микшер.

Транскрибирование звуковых файлов длинной более 15 минут относится к расширенным возможностям блокнота. За них взимается небольшая плата. Чтобы попробовать или оплатить ее, нужно зарегистрироваться на сайте и зайти в кабинет пользователя голосового блокнота (появится оранжевая ссылка).

Панель перевода аудио в текст открывается после нажатия на кнопку +Транскрибацию на главной странице сайта.
панель транскрибирования

На приведенной картинке я обвел красным то что относится к этому модулю и перечеркнул, то что использовать вместе с ним не надо. То есть не нужно включать флажки вывод в буфер и интеграции. Поле Длина буфера фраз не дает накапливаться тексту в поле предварительного просмотра (актуально при использовании виртуальных или физических кабелей).

Переключатель Защита от шумов используется для борьбы с зависанием ввода в шумных видео. Хорошей альтернативой этому переключателю является установка переключателя Пауза в речи, например, в одну секунду. Переключатель Пауза в речи можно сделать видимым в настройках интерфейса кабинета пользователя.

Для загрузки видео с Youtube в модуль нужно ввести его ID.
загрузка ролика в панель

Транскрибирование может вестись в двух режимах, зависящих от установки флажка Запускать синхронно с записью. Когда этот флажок включен, то нажатие на кнопку включить запись одновременно включает проигрыватель, а остановить запись — останавливает его.

Весь алгоритм работы в этом случае заключается:
1) в загрузке ролика или файла в проигрыватель
2) обеспечению поступления звука с ролика на микрофон
3) Выставлению настроек, отметке флажка вставлять метки времени
3) нажатию на кнопку запуска.

Если флажок Запускать синхронно с записью не установлен то появляется панель задания времен паузы и работы.

панель пауза/работа

При таком режиме кнопка включить воспроизведение запустит проигрыватель в прерывистом режиме, то есть после 5 секунд (как задано на нашем рисунке) воспроизведения он будет останавливаться на 5 секунд паузы. Кнопка же включить запись от нее не зависит. Если время паузы и время воспроизведения не установлены, то работает просто кнопка включить/отключить воспроизведение.

Такой режим может быть использован для полуавтоматического транскрибирования. При этом режиме роль виртуального аудио кабеля играет человек — он прослушивает запись в течении времени воспроизведения и надиктовывает ее в течение времени паузы.

Обработка текста после транскрибирования

Текст получаемый методом распознавания речи содержит ошибки. Для его исправления используются метки времени, полученные при транскрибировании. В этом режиме нужно также отключить флажок запускать синхронно с записью или воспользоваться горячей клавишей запуска/останова проигрывателя для расширения блокнота.

Алгоритм исправления следующий:
1) текст с метками сначала приводится к более удобному виду последовательным нажатием кнопок метки в SRТ и SRT в метки
2) выставляется флажок запуск с меток времени
2) курсор устанавливается на нужное место текста
3) с помощью горячей клавиши или с помощью кнопки включить/выключить проигрыватель прослушивается данный кусок записи (срабатывает ближайшая слева от курсора метка времени)
4) вручную или при использовании кнопок блокнота редактируется текст
5) метки убираются нажатием на кнопку убрать метки времени, или текст приводится к формату SRT (если делаются титры для Youtube)

Пакетный режим транскрибирования аудио и видео файлов

Транскрибирование аудио и видео файлов в пакетном режиме (для более чем двух файлов) относится к премиум-функциям голосового блокнота. Как и расширенные функции они доступны после оплаты в кабинете пользователя. Чтобы попробовать этот режим нужно при загрузке аудио и видео выбрать сразу несколько аудио или видео файлов, удерживая при выборе мышью клавишу Ctrl.

Пакетный режим выбора файлов

Обращение в техническую поддержку

При обращении в техническую поддержку. Нужно прислать четыре скриншота:

1. Экран окна блокнота (можно сделать два скриншота, если не помещается)

2. Скриншоты вкладок записи и воспроизведения звука

3. Скриншот настройки микрофона в Chrome (chrome://settings/content/microphone)

Транскрибирование аудио в автоматическом режиме

Транскрибирование методом проговаривания

Ошибки и сложности при транскрибировании

speechpad.ru

Параметры в URL голосового блокнота

В голосовом блокноте есть несколько полезных параметров, которые можно использовать в строке запроса для его запуска. Вот неполный список их: vid=1 (компактный вид), autostart=1 (автостарт), chkbufer=1 (включен флаг вывод в буфер), pagelang (код языка голосового ввода), chkbeep=1 (установка флажка отключить звуки), chkinteg=1 (включение интеграции с Windows),chkcap=1 (отключение управление заглавными буквам Гугл).

Следующая ссылка запустит блокнот в компактном виде, с включенными флажком вывода в буфер обмена, а также включит сразу распознавание речи на выбранном языке (в данном случае русском). Для работы флажка вывода в буфре обмена должно быть предварительно установлено расширение Speechpad.

Для запуска в режиме интеграции можно воспользоваться URL вида https://speechpad.ru/?autostart=1&chkinteg=1&vid=1&chkcap=1. Последний параметр отключит управление заглавными буквами Гугл. Для работы интеграции должен быть активирован соответствующий модуль.

Ненулевые значения параметров, явно указанные в строке запроса, будут в данном случае иметь преимущества перед значениями по умолчанию и даже перед значениями, установленными пользователем. Для русского языка параметр pagelang можно и не указывать, так как он устанавливается по умолчанию.

После открытия в браузере любой из сконструированных ссылок, можно нажать в меню хрома пункты Дополнительные инструменты и добавить в панель задач. Ярлык добавиться в панель задач. Чтобы ярлык открывался в отдельном окне нужно изменить его свойства на вкладке сервисы или сразу указать это при создании (открыть в отдельном окне).

создание ярлыка приложения для speechpad

06.02.2016. Параметр chkauto — установка флажка возобновлять при ошибках, в настоящее время не используется, так как теперь флажок устанавливается по умолчанию.

speechpad.ru

Средство распознавания речи

Это приложение является синтезатором речи. Что это значит? Это значит, что Вы можете просто напечатать или скопировать/вставить некоторый текст – и система его произнесет.

Приложение имеет такие функциональные особенности:

  • Оно бесплатно и доступно онлайн
  • Не требует скачиваний, установок или регистрации. Поддерживает разные платформы
  • Мультиязычная поддержка. Поддержка мужских/женских голосов
  • Имеет натуральное произношение
  • Может читать очень длинный текст
  • Вы можете поставить на паузу или остановить начитку текста.
  • Вы можете регулировать настройки громкости, скорости или тона
  • Поддерживается возможность сохранять текст в формате аудиофайла (для этого необходимо включить микрофон: система произнесет текст и запишет аудио), качество – среднее.

Этот инструмент предназначен для людей, которые:

  • хотят читать, но не имеют времени и/или возможности. Просто вставьте текст и нажмите кнопку «Воспроизвести»
  • не любят читать, но хотят развивать собственные знания
  • хотят слушать текст в подкастах (интересные статьи или книги) во время работы или за рулем.
  • Приложение не воспроизводит речь. Прежде всего проверьте колонки и громкость. Голос также может быть недоступен для конкретной громкости/скорости/тона. Просто отрегулируйте Ваши настройки.
  • Браузер не поддерживает синтез речи (последние версии «Chrome» и «Safari» его поддерживают)
  • Существуют проблемы с микрофоном (при сохранении аудиофайла)
    • Аппаратные проблемы с микрофоном
    • Требуется разрешение для доступа к микрофону
    • Браузер слушает не тот микрофон

Для решения проблем с разрешением доступа к микрофону нажмите на иконку камеры в адресном рядке браузера (она появится, кода Вы нажмете на кнопку «Воспроизвести»), дальше выставьте разрешение для использования микрофона и выберите необходимый микрофон из выпадающего списка.

В случае каких-либо других проблем, попробуйте просто перезагрузить браузер несколько раз или свяжитесь с нами, детально описав суть проблемы.

www.textfromtospeech.com