Содержание

Как перевести аудио файл любого формата в текст онлайн

Не так давно мне понадобилась перевести кучу аудио записей в текст (транскрибация аудио в текст). Посидев несколько часов в поисках подходящей программы понял, что таковых нет. Есть только для голосового ввода, но мне это не подходило. Перепробовал кучу разных инструкций и сервисов, потратил столько на это времени, но все же нашел один способ как преобразовать аудиофайл текст. Решил написать подробную и понятную инструкцию так как сам не нашел подобной.

Кстати если вы не знали то на этом можно еще и заработать. Описывать данный процесс пока нет времени по этому лучше посмотрите видео.

Интересные статьи по теме:

Как обрезать видео программа

Как обрезать видео онлайн

Как обрезать аудио  файл программа

Как обрезать аудио  файл онлайн

Как склеить две аудио записи

Как преобразовать аудио файл в текст

И так начнем как я уже говорил софта я не нашел использовать будем онлайн сервис для голосового ввода с его помощью можно перевести любой аудио файл в текст например перевести mp3 в текст. Но для начала нам нужно подготовить наш компьютер. Идем на этот сайт https://www.vb-audio.com/Cable/ и скачиваем виртуальный кабель. Он позволить нам воспроизводить аудиозапись и передавать звук на виртуальный микрофон.

Скачав его нужно установить, для этого запускаем .exe файл от имени администратора.

После установки в значке громкости кликаем правой кнопкой и выбираем Устройство воспроизведения.

В открывшемся окно кликаем на Cable input правой кнопкой мыши и устанавливаем его устройством по умолчанию. После этого звук у вас пропадет, так как воспроизводиться он будет на новом виртуальном устройстве.

Теперь переходим на сайт speechpad.ru. Многие пишут что нужно зарегистрироваться после чего появиться больше функции и т.д Нам все это не нужно по этому просто кликаем включить запись.

После чего нужно настроить микрофон в браузере. Кликаем на значек камеры в браузере отмечаем разрешить и выбираем Микрофон это наше виртуальное устройство CABLE… и нажимаем готово.

Теперь осталось запустить нужный аудио файл и смотреть на результат.

Результат получается так себе, но все же лучше потом что-то исправить, чем набирать все с нуля. Из своего опыта скажу, что примерно 60% аудиозаписи блокнот распознает. Подведем итог, что мы сделали. Мы перенаправили воспроизводимый звук на виртуальный кабель, который работает как обычный микрофон. После чего воспользовались голосовым блокнотом. В принципе вы можете выбрать и другой сервис, например в гугл документах так же есть голосовой набор. Да и программы подобные есть. Я распознавал именно телефонные разговоры. По этому если вы скажем, хотите перевести в текст например музыку то результат может быть совсем другой.

www.softo-mir.ru

Как перевести речевой аудио-файл в текст с помощью Google translate / Habr

Обычно Google translate используют для перевода речи транслируемой микрофоном.

Но в один момент, автору потребовалось перевести подкаст Медузы в текст.

Идея лежала на поверхности и наверняка программы для этого должны были присутствовать. Так -же как сделано в Gogle translate.

Но, гуглением, программы не нашлось, кроме двух сайтов. Которые использовали по уверениям их авторов всю мощь искусственного интеллекта Google.

Первый нашелся русскоязычный сайт https://speechpad.ru/blog/windows-integration/

Но, как бы не было обидно, магия не сработала…

Был найден англоязычный сайт: https://speechlogger.appspot.com/ru/

Результат — тот же. Но, было в отличие от предыдущего — объяснение.

Там было показано, как реализовать, казалось бы, простую идею: пустить в качестве сигнала микрофона — аудио файл.

Для этого необходим драйвер VB-CABLE Virtual Audio Device Он OpenSourse.

Искренняя благодарность «прогнившим западным» альтруистам!

Устанавливаем (проверено под Win 10) и настраиваем микрофонный вход в системе, на этот драйвер.

Открываем Gogle translate, нажимаем кнопочку с изображением микрофона и запускаем любой плейер с аудио — файлом.

И — Вааля! Магия работает, на ваших глазах появляются строки текста.

Точность распознавания, на глаз 85-97 %. Но, есть ограничение — 5 тыс. символов, что немало. Поэтому приходиться останавливать запись, копировать текст и продолжать далее.

Заодно происходит перевод на второй выбранный язык. О боже, сколько странных переводов появится!

Дополнение: есть способ без ограничений на количество символов. — это Google Docs, он так-же работает но, только без перевода на второй язык. Спасибо dioneo

Как мне кажется, Google блокирует постоянные подключения с одних IP. Поэтому ценность этого способа — в том, что все IP не заблокируешь и соответственно, этот способ более работоспособен. Тут уже слово разработчикам и большим «гуру», чем автор.

Всем добра и удобства.

habr.com

Перевод аудио в текст – лучшие сервисы [2019]

Виталий Солодкий 30.07.2019 0 Загрузка…

Голосовой набор позволяет быстро отправить текстовое сообщение без использования клавиатуры. А благодаря распознаванию звуковых файлов, можно без проблем выполнить транскрибацию записанной на диктофон лекции или создать печатную версию видеоролика. В статье поговорим о методах перевода аудио в текст с помощью специализированных онлайн-сервисов, расширений браузера и ботов.

Speechpad.ru

Один из немногих русскоязычных ресурсов, представляющий пользователям возможность речевого ввода. С его помощью можно вводить текст, используя микрофон, аудиозапись или, вставив ссылку на YouTube-видео. Работа с микрофоном поддерживается в браузере Chrome. Пользователи мобильных телефонов могут загрузить приложение с Play Market или App Store.

Инструкция по работе с сервисом:

Расширение

С помощью браузерного расширения будет решен вопрос, как перевести голосовое сообщение в текст на любом сайте. Так пользователь сможет надиктовывать поисковые запросы, отвечать голосом на электронные письма, писать сообщения на форумах и т.д.

Чтобы установить расширение, необходимо запустить в системе браузер Google Chrome и перейти на страницу дополнения «Голосовой блокнот». Затем кликнуть по кнопке

«Установить», подтвердить действие. Когда процесс завершится, можно начинать пользоваться утилитой:

  • Нажать правой кнопкой на любом поле для ввода текста.
  • В контекстном меню выбрать строку «SpeechPad».
  • Разрешить доступ к микрофону и начать говорить.
  • В ходе диктовки нужно проговаривать знаки препинания, иначе потом придется расставлять их вручную. Потребуется некоторое время, чтобы привыкнуть выполнять подобное действие.

Уровень распознавания будет зависеть от дикции человека. Следует произносить слова четко и достаточно громко, также немаловажную роль играет качество микрофона.

Модуль интеграции с Windows, Linux, Mac

 Загрузка …

Сервис «Speechpad» дополнительно предлагает пользователям программы для транскрибации аудио в текст. После интеграции модуля в выбранную операционную систему, станет доступен голосовой ввод для любых приложений (например, в Word).

Последовательность действий в данном случае будет следующей:

Dictation.io

Сервис онлайн распознавания речи через микрофон. Посредством голоса можно расставлять параграфы, знаки пунктуации и даже смайлики. Dictation пригодится для написания электронных писем или заполнения документов в браузере.

Использование сервиса:

  • Перейти на страницу транскрибации.
  • В правой части экрана нажать на три горизонтальные полоски, чтобы выбрать язык ввода. Поддерживается большое количество языковых направлений.
  • В левом нижнем углу кликнуть по кнопке «Start».
  • Начать диктовку текста.
  • Редактирование материала осуществляется путем встроенного редактора. Непосредственно со страницы можно выполнить сохранение текста, его публикацию, печать.

Сайт не предоставляет отдельных программ для перевода аудио в текст, поэтому работа осуществляется только на его страницах.

Otter.ai

Зарубежный сервис распознавания речи, в настоящее время поддерживает работу только с английским языком. Предоставляет около 600 минут распознавания аудиофайлов на месяц. Если потребуется больше, присутствует премиум-подписка.

На сайте сохраняются все распознавания голосовых записей, обработка вновь добавленного файла выполняется достаточно быстро. В итоговых результатах

сервис выделяет ключевые слова, обозначает отдельных собеседников (если на записи присутствует несколько голосов), выставляет параграфы. Со знаками препинания ситуация не лучше, чем на других сервисах – их придется расставлять самостоятельно.

Cloud Speech-to-Text

Мощный, но в то же время платный инструмент от разработчиков Google. В его работе используются технологии машинного обучения для распознавания коротких фраз и длительных аудиозаписей.

Cloud Speech-to-Text предоставляет пользователям расшифровку аудиозаписей в текст путем применения моделей нейронной сети через простой к понимаю API. Сервис может использоваться для голосовых команд управления, транскрибации аудио и прочих задач.

На стартовой странице сервиса можно

провести распознавание с файла или микрофона без регистрации. Это позволит оценить качество его работы. Cloud Speech-to-Text умеет работать со 120 языками. Отрезок из аудиокниги на русском языке был транскрибирован практически идеально, исключение составили только несколько слов, которые было сложно разобрать даже человеческому уху.

Сервис можно смело рекомендовать, если перевод голоса в текст требуется постоянно в ходе профессиональной деятельности или по работе. Попробовать полный функционал можно на бесплатной основе, предварительно согласившись с правилами и предоставив данные кредитной карты.

Google Переводчик

На странице онлайн переводчика от Google присутствует возможность голосового ввода текста. Это может стать альтернативным и в то же время бесплатным вариантом, если требуется надиктовать запись с микрофона. Для начала ввода достаточно нажать на соответствующий значок.

Чуть более сложная задача стоит перед пользователем, если требуется выполнить перевод аудио в текст. Тем не менее зарубежные юзеры придумали решение – нужно установить специальный драйвер в систему и настроить вход микрофона на него. По итогу запущенный в плеере файл будет передаваться как голос, который поступает с микрофона. Это позволяет «обмануть» Google Переводчик и произвести транскрибацию с аудиофайла.

Качество распознавания находится на высоте. Присутствует ограничение в 5 тыс. символов. По его достижению нужно приостанавливать воспроизведение и копировать текст в Word или другую программу.

Бот во ВКонтакте

Перевести полученное ВКонтакте голосовое сообщение в текст поможет специальный бот. Им можно воспользоваться непосредственно на главной странице сообщества. Также присутствует возможность добавления в чат – тогда бот будет автоматически переводить все голосовые сообщения, присылаемые пользователями.

Стоит заметить, что система работает только с записями ВК. Загруженные извне файлы не распознаются и не переводятся в текст.

Бот в Telegram

Чуть более функциональную онлайн-расшифровку аудио в текст предоставляет бот Voicy, расположенный в мессенджере Telegram. Он работает с голосовыми сообщениями и отдельно загруженными файлами. Качество распознавания находится на среднем уровне. Поддерживается смена «движка» на Google Speach, однако для этого потребуется предварительно оформить подписку в сервисе Cloud Speech-to-Text. По умолчанию используется бесплатная система Wit.ai.

Инструкция по работе с ботом:

  • Перейти по ссылке для добавления чата в мессенджер.
  • Дать команду «/language» для выбора языка.
  • Если требует перевести файл, следует использовать команду «/files».
  • Далее остается только прикрепить аудиозапись, после чего бот сообщит о запуске процесса распознавания.

Для просмотра всех команд Voicy необходимо отправить ему сообщение с текстом «/help».

Подведем итоги. Программа для преобразования голоса в текст на Виндовс присутствует только в сервисе Speechpad. Однако даже там основная часть данных берется с серверов. Прочие предложенные инструменты работают онлайн. Лучшим по качеству распознавания является Cloud Speech-to-Text. Бесплатная альтернатива представлена Google Переводчиком, где после установки специального драйвера получится проводить транскрибацию аудиофайлов.

mobila.guru

Перевод аудио в текст: 7 способов транскрибации

При выполнении работ с мультимедиа файлами, многим пользователям может понадобится перевод аудио в текст, то есть перевод речи в текст, расшифровка сказанного в виде текста. Подобная возможность часто востребована, в случаях, когда пользователям необходимо выполнить перевод голоса в текст.

У некоторых пользователей не всегда имеется возможность для прослушивания аудио файлов или просмотра видео файлов. Часто, гораздо удобнее и быстрее прочитать голосовое сообщение или речевое сопровождение в виде текста, в печатном виде.

Поэтому необходим перевод аудио, видео в текст, для дальнейшего использования этого материала, например, в статье или еще где-либо. Эта работа выполняется следующим образом: происходит распознавание речи и перевод сказанного в текст с помощью программы или на онлайн сервисе вручную или в автоматическом режиме.

Транскрибация: что это такое

Транскрибация — преобразование речи из аудио или видео в текст, перевод голосовой информации в виде печатных данных. Выполняют транскрибацию вручную или с помощью приложений и сервисов.

В качестве исходного материала, служащего для извлечения голоса, используются следующие данные:

  • собственная речь, надиктованная на диктофон или сказанная в микрофон;
  • аудио подкаст;
  • локальный аудио или видео файл;
  • видео на YouTube или на другом хостинге;
  • аудио из интернета;
  • телепередача;
  • разговор по телефону;
  • интервью;
  • лекция;
  • выступление;
  • голосовое сообщение;
  • вебинар.

При использовании ручного способа, транскрибацию выполняют двумя способами:

  • В первом случае, это делает сам пользователь, синхронно вводя в текстовый редактор текст из прослушиваемой речи.
  • Во втором случае, расшифровку голоса в текст делает специально нанятый работник.

Существуют специализированные биржи, на которых можно разместить задание для перевода речи в текст, выполняемую за определенную плату. Ручная транскрибация — это довольно трудоемкий процесс.

При выполнении перевода аудио в текст, необходимо обратить внимание на следующие моменты, от которых зависит качество преобразования звука в текстовый вид:

  • дикция должна быть четкой;
  • темп речи нормальный;
  • правильное произношение.

В противном случае, из-за быстрого или, наоборот, слишком медленного темпа речи, акцента, невнятной дикции, внешних помех, тихого звука, возможны ошибки в работе программного обеспечения. В любом случае, набранный текст необходимо отредактировать, поставить знаки препинания, исправить ошибки.

В этом руководстве вы найдете инструкции о нескольких способах преобразования голоса в текст с помощью программ и онлайн сервисов. Это значительно облегчает выполнение транскрибации.

В зависимости от обстоятельств и используемого программного обеспечения, голосовой набор текста возможен с иностранного или на иностранный язык. Информацию об этой возможности вы найдете в этой статье, при описании некоторых полезных инструментов.

Выполнение дополнительные мероприятий

На некоторых компьютерах понадобится установить драйвер VB-CABLE Virtual Audio Device. В параметрах микшера громкости нужно включить виртуальный аудио кабель для того, чтобы на ПК работал голосовой ввод при использовании онлайн сервисов или в некоторых программах.

На ПК со звуковыми картами Realtek устанавливать драйвер не потребуется, в настройках звука, в окне «Звук», во вкладке «Запись» включите опцию «Стерео микшер».

На моем компьютере не потребовалось выполнять данные манипуляции. Поэтому, прежде чем устанавливать драйвер виртуального кабеля, проверьте работу микрофона в онлайн переводчике. Если голосовой ввод с микрофона работает, установка драйвера не потребуется.

Переводчик Google

Выполнить перевод голоса в текст онлайн нам поможет Переводчик Google. Данный способ работает в браузере Google Chrome, или в других браузерах, созданных на его основе.

Откройте в браузере сервис Google Переводчик, а затем выполните следующие действия:

  1. Сначала необходимо выбрать исходный язык, чтобы включить голосовой ввод.
  2. Нажмите на значок «Голосовой ввод (микрофон).
  3. Разрешите переводчику использовать микрофон на вашем устройстве.

  1. После того, как изображение микрофона поменяет цвет, начните говорить в микрофон. Приложение автоматически будет вводить текст в окно переводчика.

  1. Скопируйте перевод, вставьте его в любой текстовый редактор, например, в программу Блокнот, Microsoft Word или т. п.

Надиктованный текст можно сразу перевести на другой язык. Для этого, в соседней области переводчика выберите перевод на другой язык.

На сервисе имеется ограничение в 5 000 символов за выполнение одного перевода. Обойти ограничение можно следующим способом: надиктуйте текст частями, копируя перевод по очереди в текстовый редактор.

В Google Переводчик можно выполнить перевод речи в текст онлайн из аудио или видео файлов, находящихся в интернете:

  1. Нажмите на значок микрофона, находящийся в поле для ввода переводчика.
  2. Затем в другой вкладке браузера запустите воспроизведение видео или аудио онлайн.

На этом изображении Переводчик Google преобразует речь в текст из видео, размещенного на YouTube.

А как быть с локальным аудио или видео файлом на компьютере, если нам нужно извлечь оттуда текст? Не беда, снова на помощь придет Переводчик Google.

Вам потребуется сделать следующее:

  1. Откройте переводчик Google, включите голосовой ввод.
  2. Запустите воспроизведение видео или аудио файла на компьютере.
  3. В окне переводчика появится текст.

Яндекс Переводчик

Сервис Яндекс Переводчик для перевода речи в текст работает в любых браузерах, в отличие от переводчика Гугла.

Выполните следующие шаги:

  1. Откройте страницу Яндекс Переводчик в браузере.
  2. Нажмите на значок микрофона (Голосовой ввод), расположенный в поле ввода исходного текста.
  3. Разрешите Яндекс Переводчику использовать микрофон на вашем компьютере.

  1. Говорите в микрофон, текст будет отображаться в окне переводчика. Одновременно текст будет синхронно переведен на другой язык, если вам необходима такая возможность.

В Яндекс Переводчик имеется возможность для перевода видео или аудио файлов из интернета:

  1. Включите микрофон на панели для ввода исходного текста.
  2. Откройте другую вкладку в браузере, запустите воспроизведение аудио или видео из интернета.
  3. В окне Яндекс Переводчика начнет отображаться текст. Параллельно будет вводится перевод на другой язык (если это вам нужно).

На Сервисе Яндекс Переводчик имеется ограничение в 10 000 знаков для одного перевода. Обход ограничения количества переведенных знаков:

  1. При подходе к лимиту, поставьте плеер на паузу, или прекратите диктовать в микрофон.
  2. Скопируйте в любой текстовый редактор переведенный текст.
  3. Включите голосовой ввод, а затем снова запустите воспроизведение исходного видео или аудио файла, чтобы продолжить перевод аудио в текст онлайн.

Преобразование речи в текст из видео или аудио файла, хранящегося на ПК, при помощи Яндекс Переводчика:

  1. Откройте окно Яндекс Переводчик, нажмите на кнопку «Голосовой ввод» (микрофон).
  2. При помощи мультимедиа плеера запустите видео или аудио файл на компьютере.
  3. В окне переводчика для ввода исходного текста появится перевод голоса в текст.

Google Документы

В облачное хранилище Google Диск встроен сервис Google Docs, в котором можно переводить аудио данные в текст. Этот способ работает в браузере Google Chrome, и в других браузерах, основанных на Chromium.

Пройдите несколько шагов:

  1. Войдите в Google Диск (Google Drive).
  2. Нажмите на кнопку «Создать».
  3. В контекстном меню выберите сначала «Google Документы», а затем «Создать новый документ».
  4. В окне «Новый документ» откройте меню «Инструменты», нажмите на пункт «Голосовой ввод» (вызывается сочетанием клавиш «Ctrl» + «Shift» + «S»).

  1. Нажмите на кнопку с изображением микрофона, а затем начните говорить.
  2. Произносимая в микрофон речь переводится в текст, который вводится на страницу документа.

  1. Сохраните документ в облачном хранилище, или скачайте файл на компьютер в одном из поддерживаемых текстовых форматов.

В Гугл Документах нет ограничения на количество вводимых символов.

Для извлечения текста из видео или аудио файлов в интернете, потребуется включить голосовой ввод, а затем запустить воспроизведение нужного файла в другой вкладке браузера.

Если вам нужно перевести голос в текст из видео или аудио файла, находящегося на компьютере, сделайте следующее:

  1. В окне Документы Google включите голосовой ввод.
  2. Включите воспроизведение видео или аудио файла в плеере на ПК.
  3. В документе появится текст из проигрываемого локального видео или аудио файла.

Speechpad — Блокнот для речевого ввода

Онлайн сервис speechpad.ru работает в браузере Google Chrome. Для речевого перевода используются служба переводчика Google. Имеется расширение SpeechPad (голосовой ввод текста) для браузера, с помощью которого можно вводить текст с голоса на сайтах в интернете.

Для получения лучшего качества, рекомендуется использовать внешний микрофон.

На странице сайта spechpad.ru выполните следующие действия:

  1. На странице сервиса «Блокнот для речевого ввода» нажмите на кнопку «включить запись».
  2. В поле «Результирующее поле» станет отображаться текст, извлеченный из вашего голоса.

  1. Отредактируйте полученный текст, а затем скачайте его на компьютер.

Время записи в этом режиме ограничено 15 минутами.

Вам также может быть интересно:

Сервис умеет переводить в текст видео или аудио файлы из интернета или с компьютера. Для этого, можно использовать два способа.

1 способ:

  1. В другой вкладке браузера запустите воспроизведение видео или аудио в интернете, или запустите аудио или видео файл со своего компьютера в плеере.
  2. На странице речевого блокнота Spechpad нажмите на кнопку «включить запись».
  3. В результирующем поле появится текст из видео или аудио.

2 способ:

  1. На главной странице сервиса нажмите на кнопку «Транскрибацию», которая расположена под результирующем полем.
  2. На странице «Панель транскрибации» выберите файл с компьютера, или введите URL-адрес медиа файла.
  3. Запустите воспроизведение медиа во встроенном плеере. Для видео с YouTube вставьте в поле не полную ссылку, а идентификатор видео, как на примере.

Здесь имеет много настроек, которые можно изменить для получения лучшего результата.

В режиме транскрибации время записи не ограничено.

Онлайн сервис Dictation.io

Сервис dictation.io бесплатно переводит в текст звук, надиктованный в микрофон, или речь из файлов видео и аудио форматов.

Пользоваться сервисом очень просто:

  1. Выберите язык голосового ввода.
  2. Нажмите на кнопку в виде микрофона.
  3. Начните говорить в микрофон.
  4. В поле будет введен текст из вашего сообщения, или из воспроизведения речи из интернета (открытого в другой вкладке браузера) или из проигрываемого файла в мультимедиа плеере на компьютере.

Результат можно скопировать, скачать на компьютер в виде текстового файла, отправить на e-mail, воспроизвести в плеере (понадобится голосовой движок, установленный в Windows), отправить на печать.

LossPlay

Бесплатная программа LossPlay для транскрибации аудио или видео, работающая на русском языке. Это мультимедиа плеер для воспроизведения аудио или видео файлов. Программа была разработана для расшифровки (транскрибации) аудио и видео файлов вручную.

Основные возможности программы LossPlay:

  • Поддержка большого количества медиа форматов;
  • Использование горячих и мультимедийных клавиш на клавиатуре;
  • Поддержка вставки тайм-кода;
  • Изменение скорости воспроизведения;
  • Создание скриншотов воспроизводимых файлов.

Программу можно скачать с официального сайта разработчика.

LossPlay скачать

После установки, программа предложит скачать, а затем установить на компьютер необходимые кодеки из пакета K-Lite Codec Pack и QuickTime, для возможности проигрывания всех поддерживаемых медиа форматов.

Ручная транскрибация в LossPlay выполняется с помощью следующих шагов:

  1. Добавьте мультимедиа файла в окно программы.
  2. Откройте текстовый редактор.
  3. Запустите проигрывание файла в плеере.
  4. Слушайте и параллельно вручную набирайте прослушиваемый текст в окне текстового редактора.

VOCO — программа для перевода аудио в текст

Приложение VOCO предназначено для перевода голоса в текст в операционной системе Windows. Программа Voco платная, приложение работает на русском языке.

Скачать приложение можно с официальног

vellisa.ru

Расшифровка аудио в текст, конвертация аудио в текст

Здравствуйте!

Расшифровка аудио в текст, конвертация аудио в текст очень интересные и востребованные функции на сегодня. В этой статье вы узнаете самый простой и надежный вариант.

На первый взгляд, расшифровка аудио в текст кажется какой-то трудно решаемой задачей. Но, если внимательно посмотреть и изучить несколько вариантов программ, позволяющих решить эту проблему, то становится понятно, что это совершенно не сложно.

РАСШИФРОВКА АУДИО В ТЕКСТ ДЛЯ ЧЕГО НУЖНА?

Это очень полезная функция позволяющая реализовать и упростить несколько направлений вашей работы.

Если вы ведете блог или сайт, то нужно его наполнять полезной для читателей информацией. Для этого приходится все статьи печатать в текстовых редакторах.

Но скорость печатания у всех разная. Даже, если вы быстро печатаете, то наговорить свои мысли будет быстрее, чем их напечатать в разы.

Расшифровка аудио в текст значительно ускорит эту работу – проверено на собственном опыте.

Но есть еще более интересное применение этих навыков, когда расшифровка аудио в текст приносит вам деньги очень даже хорошие.

Сегодня много вариантов, когда аудио лекции нужно перевести в текст и лекторы заказывают за оплату такую конвертацию. Есть масса других вариантов, когда возникает необходимость перевода звуковых файлов в текст. Есть много сайтов, где заказчик просит выполнить такую конвертацию. При желании найдете сами.

Другое дело – качество самой конвертации аудио в текст, что очень важно для работы.

Важность заключается в том, чтобы после конвертации редактирование результата было минимальным. Программа должна правильно конвертировать самые сложные слова, ставить знаки препинания и не делать ошибок.

РАСШИФРОВКА АУДИО В ТЕКСТ С ПОМОЩЬЮ ПРОГРАММ

Есть ли такая программа для перевода аудио в текст? Есть и достаточно много. Я перепробовал все основные программы, и пришел к выводу, что самым надежным вариантом является программа «Войснот II».

Программа простая и получается очень качественная расшифровка аудио в текст.

Скачать ее можно по ссылке ЗДЕСЬ из магазина  Google Chrome.

Эта программа является расширением для браузера Google Chrome.

Зайдите по ссылке в магазин, у вас откроется окно как на картинке ниже:

Кликните по надписи «Установить» вверху справа. Расширение автоматически установится у вас на компьютере, о чем свидетельствует появившийся значок рядом с поисковой строкой браузера.

Картинка ниже:

 

Если вы кликнете по этому значку, у вас откроется окно самой программы:

Ниже на скриншоте я показал основные возможности программы, как набирать и редактировать аудио файл в текст.

Для большей ясности, как работать с приложением «Войснот II», я приложил короткое видео. Думаю этого достаточно, чтобы вы изучили приложение  расшифровка аудио в текст и эффективно его использовали и для себя и для заработка.


Удачи вам!

С уважением, Валентин Чепурной.

Лучший способ выразить благодарность автору – поделиться с друзьями!


 

chepurnoyvs.ru

Распознавание длинных аудио | Яндекс.Облако

Распознавание длинных аудио подходит для многоканальных аудиофайлов до 1 ГБ.

Распознавание длинных аудио немного дешевле других способов распознавания, однако не подходит в сценариях распознавания речи онлайн — время ответа больше. Подробнее о стоимости в разделе Правила тарификации для SpeechKit.

Примечание

Сейчас вы можете распознавать длинные аудио только на русском языке.

Перед началом

  1. Запрос на распознавание необходимо отправлять от имени сервисного аккаунта с ролью editor на каталог, в котором он создан.

    Если необходимо, воспользуйтесь инструкциями:

  2. Получите IAM-токен или API-ключ для вашего сервисного аккаунта. В примерах для аутентификации используется IAM-токен.

    Чтобы использовать API-ключ, передайте его в заголовке Authorization в следующем формате:

    Authorization: Api-Key <API-ключ>
    
  3. Загрузите аудиофайл в сервис Yandex Object Storage и получите ссылку на загруженный файл:

    1. Если у вас еще нет бакета в Object Storage, создайте его.

    2. Загрузите аудиофайл в ваш бакет. В терминах Object Storage загружаемые файлы называются объектами.

    3. Получите ссылку на загруженный файл. Используйте эту ссылку в запросе на распознавание аудио.

      Ссылка на загруженный файл имеет вид:

      https://storage.yandexcloud.net/<имя-бакета>/<путь-к-файлу>
      

      Для бакета с ограниченным доступом в ссылке будут дополнительные query-параметры (после знака ?). В SpeechKit эти параметры не надо передавать — они игнорируются.

Отправить файл на распознавание

Отправьте файл на распознавание с помощью POST-запроса:

HTTP-запрос

POST https://transcribe.api.cloud.yandex.net/speech/stt/v2/longRunningRecognize

Параметры в теле запроса

{
    "config": {
        "specification": {
            "languageCode": "string",
            "profanityFilter": "string",
            "audioEncoding": "string",
            "sampleRateHertz": "integer",
            "audioChannelCount": "integer"
        }
    },
    "audio": {
        "uri": "string"
    }
}
ПараметрОписание
configobject
Поле с настройками распознавания.
config.
specification
object
Настройки распознавания.
config.
specification.
languageCode
string
Язык, для которого будет выполнено распознавание.
Сейчас поддерживается только русский язык — ru-RU.
config.
specification.
profanityFilter
boolean
Фильтр ненормативной лексики.
Допустимые значения:
  • true — исключать ненормативную лексику из результатов распознавания.
  • false (по умолчанию) — не исключать ненормативную лексику.
config.
specification.
audioEncoding
string
Формат передаваемого аудио.
Допустимые значения:
config.
specification.
sampleRateHertz
integer (int64)
Частота дискретизации передаваемого аудио.
Этот параметр обязателен, если значение format равно LINEAR16_PCM. Допустимые значения:
  • 48000 (по умолчанию) — частота дискретизации 48 кГц;
  • 16000 — частота дискретизации 16 кГц;
  • 8000 — частота дискретизации 8 кГц.
config.
specification.
audioChannelCount
integer (int64)
Количество каналов для файлов в формате LPCM. По умолчанию используется значение 1.
Не используйте это поле для файлов в формате OggOpus.
config.
specification.
raw_results
boolean
Флаг, указывающий, как писать числа. true — писать прописью, false (по умолчанию) — писать цифрами.
audio.
uri
string
URI аудиофайла для распознавания. Поддерживаются только ссылки на файлы, которые хранятся в Yandex Object Storage.

Ответ

Если запрос был составлен правильно, сервис возвращает объект Operation, в котором содержится идентификатор операции распознавания (id):

{
 "done": false,
 "id": "e03sup6d5h7rq574ht8g",
 "createdAt": "2019-04-21T22:49:29Z",
 "createdBy": "ajes08feato88ehbbhqq",
 "modifiedAt": "2019-04-21T22:49:29Z"
}

Используйте полученный идентификатор на следующем шаге.

Получить результаты распознавания

Проверяйте результаты распознавания, используя полученный идентификатор. Количество запросов на проверку результатов ограничено, поэтому учитывайте скорость распознавания: 1 минута одноканального аудио распознается примерно за 10 секунд.

Важная информация

Результаты распознавания хранятся на сервере 3 суток. После этого вы не сможете запросить результаты распознавания используя полученный идентификатор.

HTTP-запрос

GET https://operation.api.cloud.yandex.net/operations/{operationId}

Path-параметры

ПараметрОписание
operationIdИдентификатор операции, полученный при отправке запроса на распознавание.

Ответ

Когда распознавание будет закончено, значение поля done будет true, а в поле response будет список результатов распознавания chunks[].

Каждый результат в chunks[] содержит поля:

  • alternatives[] — список вариантов распознанного текста. Каждый вариант содержит поля:
    • words[] — список распознанных слов.
      • startTime — временная отметка начала слова на аудиозаписи. Возможна погрешность в пределах 1-2 секунд.
      • endTime — временная отметка конца слова. Возможна погрешность в пределах 1-2 секунд.
      • word — распознанное слово. Распознанные числа пишутся прописью, например не 12, а двенадцать.
      • condfidence — достоверность определения. Сейчас сервис всегда возвращает значение 1, которое эквивалентно 100%.
    • text — распознанный текст целиком. По умолчанию числа пишутся цифрами. Чтобы весь текст был прописью, укажите true в поле raw_results.
    • confidence — достоверность определения. Сейчас сервис всегда возвращает значение 1, которое эквивалентно 100%.
  • channelTag — аудиоканал, для которого выполнено распознавание.
{
 "done": true,
 "response": {
  "@type": "type.googleapis.com/yandex.cloud.ai.stt.v2.LongRunningRecognitionResponse",
  "chunks": [
   {
    "alternatives": [
     {
      "words": [
       {
        "startTime": "0.879999999s",
        "endTime": "1.159999992s",
        "word": "при",
        "confidence": 1
       },
       {
        "startTime": "1.219999995s",
        "endTime": "1.539999988s",
        "word": "написании",
        "confidence": 1
       },
       ...
      ],
      "text": "при написании хоббита толкин обращался к мотивам скандинавской мифологии древней английской поэмы беовульф",
      "confidence": 1
     }
    ],
    "channelTag": "1"
   },
   ...
  ]
 },
 "id": "e03sup6d5h7rq574ht8g",
 "createdAt": "2019-04-21T22:49:29Z",
 "createdBy": "ajes08feato88ehbbhqq",
 "modifiedAt": "2019-04-21T22:49:36Z"
}

Примеры

Распознать русскую речь в формате OggOpus

Чтобы распознать речь в формате OggOpus, достаточно указать в конфигурации язык распознавания в поле languageCode.

  1. Сформируйте тело запроса и сохраните его в файл, например body.json. Ссылку на аудиофайл в Object Storage укажите в поле uri:

    {
        "config": {
            "specification": {
                "languageCode": "ru-RU"
            }
        },
        "audio": {
            "uri": "https://storage.yandexcloud.net/speechkit/speech.ogg"
        }
    }
    
  2. Отправьте запрос на распознавание:

    $ export IAM_TOKEN=CggaATEVAgA...
    $ curl -X POST \
        -H "Authorization: Bearer ${IAM_TOKEN}" \
        -d '@body.json' \
        https://transcribe.api.cloud.yandex.net/speech/stt/v2/longRunningRecognize
    
    {
        "done": false,
        "id": "e03sup6d5h2qr574ht99",
        "createdAt": "2019-04-21T22:49:29Z",
        "createdBy": "ajes08feato88ehbbhqq",
        "modifiedAt": "2019-04-21T22:49:29Z"
    }
    

    Сохраните идентификатор операции распознавания, полученный в ответе.

  3. Подождите немного, пока закончится распознавание. 1 минута одноканального аудио распознается примерно за 10 секунд.

  4. Отправьте запрос на получение информации об операции:

    $ curl -H "Authorization: Bearer ${IAM_TOKEN}" \
        https://operation.api.cloud.yandex.net/operations/e03sup6d5h2qr574ht99
    
    {
     "done": true,
     "response": {
      "@type": "type.googleapis.com/yandex.cloud.ai.stt.v2.LongRunningRecognitionResponse",
      "chunks": [
       {
        "alternatives": [
         {
          "text": "твой номер 212-85-06",
          "confidence": 1
         }
        ],
        "channelTag": "1"
       }
      ]
     },
     "id": "e03sup6d5h2qr574ht99",
     "createdAt": "2019-04-21T22:49:29Z",
     "createdBy": "ajes08feato88ehbbhqq",
     "modifiedAt": "2019-04-21T22:49:36Z"
    }
    
  1. Создайте API-ключ, используемый для аутентификации в этом примере. Чтобы использовать IAM-токен для аутентификации, исправьте заголовок в переменной header: замените Api-Key на Bearer и добавьте код для получения IAM-токена вместо API-ключа.

  2. Создайте Python-файл, например test.py, и добавьте в него следующий код:

    
    
    import requests
    import time
    import json
    
    
    key = '<API key>'
    filelink = 'https://storage.yandexcloud.net/speechkit/speech.ogg'
    
    POST = "https://transcribe.api.cloud.yandex.net/speech/stt/v2/longRunningRecognize"
    
    body ={
        "config": {
            "specification": {
                "languageCode": "ru-RU"
            }
        },
        "audio": {
            "uri": filelink
        }
    }
    
    
    header = {'Authorization': 'Api-Key {}'.format(key)}
    
    
    req = requests.post(POST, headers=header, json=body)
    data = req.json()
    print(data)
    
    id = data['id']
    
    
    while True:
    
        time.sleep(1)
    
        GET = "https://operation.api.cloud.yandex.net/operations/{id}"
        req = requests.get(GET.format(id=id), headers=header)
        req = req.json()
    
        if req['done']: break
        print("Not ready")
    
    
    print("Response:")
    print(json.dumps(req, ensure_ascii=False, indent=2))
    
    
    print("Text chunks:")
    for chunk in req['response']['chunks']:
        print(chunk['alternatives'][0]['text'])
    
  3. Выполните созданный файл:

Распознать речь в формате LPCM

Чтобы распознать речь в формате LPCM в настройках распознавания укажите частоту дискретизации файла и количество аудиоканалов. Язык распознавания укажите в поле languageCode.

  1. Сформируйте тело запроса и сохраните его в файл, например body.json:

    {
        "config": {
            "specification": {
                "languageCode": "ru-RU",
                "audioEncoding": "LINEAR16_PCM",
                "sampleRateHertz": 8000,
                "audioChannelCount": 1
            }
        },
        "audio": {
            "uri": "https://storage.yandexcloud.net/speechkit/speech.pcm"
        }
    }
    
  2. Отправьте запрос на распознавание:

    $ export IAM_TOKEN=CggaATEVAgA...
    $ curl -X POST \
        -H "Authorization: Bearer ${IAM_TOKEN}" \
        -d '@body.json' \
        https://transcribe.api.cloud.yandex.net/speech/stt/v2/longRunningRecognize
    
    {
        "done": false,
        "id": "e03sup6d5h2qr574ht99",
        "createdAt": "2019-04-21T22:49:29Z",
        "createdBy": "ajes08feato88ehbbhqq",
        "modifiedAt": "2019-04-21T22:49:29Z"
    }
    

    Сохраните идентификатор операции распознавания, полученный в ответе.

  3. Подождите немного, пока закончится распознавание. 1 минута одноканального аудио распознается примерно за 10 секунд.

  4. Отправьте запрос на получение информации об операции:

    $ curl -H "Authorization: Bearer ${IAM_TOKEN}" \
        https://operation.api.cloud.yandex.net/operations/e03sup6d5h2qr574ht99
    
    {
    "done": true, "response": {
     "@type": "type.googleapis.com/yandex.cloud.ai.stt.v2.LongRunningRecognitionResponse",
     "chunks": [
      {
       "alternatives": [
        {
         "text": "привет мир",
         "confidence": 1
        }
       ],
       "channelTag": "1"
      }
     ]
    },
    "id": "e03sup6d5h2qr574ht99",
    "createdAt": "2019-04-21T22:49:29Z",
    "createdBy": "ajes08feato88ehbbhqq",
    "modifiedAt": "2019-04-21T22:49:36Z"
    }
    

cloud.yandex.ru

Синтезатор речи онлайн

Программы-синтезаторы речи с каждым годом всё больше входят в нашу жизнь. Они позволяют нам более досконально учить иностранные языки, переводят тексты в удобный аудиоформат, используются в функционале различных служебных программ и многое другое. И когда у некоторых из нас возникает потребность воспроизвести онлайн какой-либо текст в аудиформате, тогда многие из нас обращаются к различным сервисам и программам по синтезу речи, способным помочь нам в трансформации нужного там текста. В этой статье я расскажу о сетевых версиях подобных продуктов, опишу, что такое синтезатор речи онлайн, какие сервисы синтеза речи online существуют, и как их использовать.

Используем синтезаторы речи

Лучшие онлайн синтезаторы речи

Изначально, синтезаторы речи разрабатывались для людей с дефектами зрения для воспроизведения текста с помощью компьютерного голоса. Но постепенно их преимущества оценила массовая аудитория, и ныне практически любой желающий может скачать себе синтезатор речи на ПК, или воспользоваться альтернативами, которые присутствуют в некоторых версиях операционных систем.

Так какой же синтезатор речи онлайн можно выбрать? Ниже я перечислю ряд сервисов, которые позволяют воспроизвести текст в речь онлайн.

Ivona — отличный синтезатор

Голосовые движки данного онлайн сервиса отличаются очень высоким качеством, хорошей фонетической основой, звучат достаточно естественно и «металлический» компьютерный голос здесь чувствуется гораздо реже, нежели у сервисов-конкурентов.

Сервис Ivona имеет поддержку множества языков, в русском варианте присутствуют мужской голос (Maxim) и женский (Tatyana).

Синтезатор Ивона на русском языке

  1. Чтобы использовать синтезатор речи выполните вход на данный ресурс, слева будет окно, в который необходимо будет вставить текст для прочтения.
  2. Вставьте текст, кликните на кнопочку с обозначением человека, выберите язык (Russian) и вариант произношения (женский или мужской) и нажмите на кнопку «Play».

К сожалению, бесплатный функционал сайта ограничен предложением с 250 символами, и предназначен скорее для демонстрации возможностей сервиса, нежели для серьёзной работы с текстом. Большие возможности можно получить лишь платно.

https://youtu.be/TIbx4pxX6Gk

Acapela — сервис распознавания речи

Компания, торгующая своими голосовыми движками для различных технических решений, предлагает вам использовать синтезатор речи Acapela в режиме онлайн. Хотя просодия этого сервиса не на такой высоте, как у Ivona, тем не менее, качество произношения здесь тоже весьма добротное. Ресурс Acapela поддерживает около 100 голосов на 34 языках.

Сервис Акапела

  1. Чтобы воспользоваться функционалом ресурса откройте указанный сервис,  слева в окне выберите русский язык (Select a language – Russian).
  2. Вставьте внизу нужный текст и нажмите на кнопку «Listen» (слушать).

Максимальный размер текста для аудиопрочтения  — 300 символов.

Fromtexttospeech — онлайн сервис

Чтобы перевести текст в речь онлайн можно также воспользоваться сервисом fromtexttospeech. Он работает по принципу конвертации текста в аудиофайл формата mp3, который затем можно скачать себе на компьютер.  Сервис поддерживает конвертацию текста величиной в 50 тыс. символов, что является достаточно значительным объёмом.

Конвертирование текста в спич

  1. Для работы с сервисом fromtexttospeech перейдите на него, в опции «Select Language»  выберите «Russian» (голос тут только один – Валентина).
  2. В большом окне введите (вставьте) нужный для озвучки текст, затем нажмите на кнопку «Create Audio File».
  3. Текст будет обработан, затем вы сможете послушать полученный результат, а потом и скачать его себе на ПК.
  4. Для этого нажмите правой клавишей мыши на «Download audio file» и выберите в появившемся меню «Сохранить объект как».

Google Переводчик также можно использовать

Всем нам известный Гугл переводчик онлайн имеет встроенную функцию воспроизведение текста в речь, причём количество прочитанного текста тут может быть весьма объёмным.

Гугл переводчик

  1. Для работы с ним выполните вход на данный сервис (вот здесь).
  2. Выберите в окне слева русский язык, и нажмите на кнопочку с динамиком снизу «Прослушать».

Качество воспроизведения на довольно сносном уровне, но не более.

Text-to-speech — синтезатор речи онлайн

Ещё один ресурс, осуществляющий синтез речи нормального качества. Бесплатный функционал ограничен набором текста длиной 1000 символов.

Тексттуспич

  1. Для работы с сервисом перейдите на данный сайт, в окне справа рядом с опцией «Language» (язык) выберите Russian.
  2. В окне наберите (или скопируйте с внешнего источника) требуемый текст, а затем нажмите на кнопку справа «Say It».
  3. Линк на произношение указанного текста можно также разместить в вашем е-мейле или веб-странице, кликнув на кнопку «Yes» чуть ниже.

Альтернативные программы для ПК для перевода текста в речь

Также существует программы для синтеза речи, такие как TextSpeechPro AudioBookMaker, ESpeak, Voice Reader 15, ГОЛОС и ряд других, способные конвертируют текст в речь. Их необходимо скачать и установить на свой компьютер, а функционал и возможности данных продуктов обычно чуть превышает возможности рассмотренных онлайн-сервисов. Детальная же их характеристика заслуживает отдельного обширного материала.

Заключение

Так какой же синтезатор речи онлайн выбрать? В большинстве из них бесплатные возможности существенно ограничены, а по качеству звучания сервис Ivona оставит позади своих конкурентов. Если же вас интересует возможность быстрого перевода вашего текста в аудиофайл, тогда воспользуйтесь ресурсом «fromtexttospeech» — он даёт результат хорошего качества и за достаточно короткое время.

sdelaicomp.ru