Состояние распознавания голоса в Linux

Автор Глеб Захаров На чтение 10 мин. Просмотров 837 Опубликовано

Я трачу много времени на поиск статей и довольно часто думаю о предмете статьи, когда иду на вокзал или когда выхожу на улицу вообще.

Однажды вечером, проходя 1,5 мили до станции от моей работы, я подумал: «Не было бы хорошо, если бы я мог записать то, что я хотел сказать, а затем автоматически транскрибировать это в текстовый файл, который я мог бы отредактировать и отформатировать позже» ,

Я провел много долгих часов, рассматривая различные варианты, доступные для распознавания голоса и диктовки, включая запись непосредственно через микрофон с использованием программного обеспечения для диктовки в Linux, запись файла в формат MP3 или WAV и преобразование его через командную строку, а также использование Chrome. и приложения для Android.

В этой статье освещаются мои выводы после дней тяжелой работы.

Содержание

  1. Параметры Linux
  2. Freespeech-VR
  3. PocketSphinx
  4. VoiceNote II
  5. Dictanote
  6. Диктовка и почта
  7. Talk And Talk Dictation
  8. Резюме

Параметры Linux


Попытка найти программное обеспечение для диктовки и распознавания голоса в Linux не так легка, как могла бы быть, и доступные варианты не настолько умны.

На этой странице википедии есть список возможных вариантов, включая CMU Sphinx, Julius и Simon.

Я использую SparkyLinux, который в настоящее время основан на тестировании Debian, и я могу сказать вам, что единственным пакетом распознавания голоса, доступным в репозиториях, является Sphinx.

Родные программы для Linux, которые я в итоге попробовал, были PocketSphinx, который я использовал для преобразования файлов WAV в текст, и Freespeech-VR, представляющая собой приложение на python, которое позволяет вам записывать прямо с микрофона.

Я также попробовал несколько приложений Chrome, включая VoiceNote II и Dictanote.

Наконец я попробовал приложения для Android «Диктовка и электронная почта» и «Диктовка и разговор».

Freespeech-VR


Freespeech-VR недоступен в стандартных репозиториях. Я скачал файлы отсюда.

После загрузки и распаковки содержимого zip-файла я открыл терминал и перешел в папку, в которую были извлечены файлы. Я набрал следующую команду, чтобы открыть freespeech-vr.

sudo python freespeech-vr

У меня есть пара наушников с довольно приличным микрофоном и довольно четким южно-английским акцентом.

В окне freespeech-vr появился следующий текст:

Добро пожаловать в подразделение «Собаки результатов». Сегодня необходимо обеспечить, как проводить тесты. Нужно тестировать. Когда в тексте используется системный способ. Речь I Для каждого из них был только в надежде остаться и для одного цыплята. золотой как система Ea, когда он меня зовет, следующий оф звонит на телефон. Этот файл достаточно скоро, когда дело доходит до телефона.

Пространство, сфинкс. Идет. Это не телефоны, которые будут переданы. Обученные и инструменты. Использование речи. Когда вы закончите. file Last a story A И использование by Когда это очень, как успех Этот Linux был таким, как вы избегаете,

Я просто хотел бы сейчас сказать, что это не веб-сайт Unit Of Dogs, и я ни разу не упомянул что-либо связанное с Золотыми цыплятами. Я на самом деле пытался описать процесс использования программного обеспечения для распознавания голоса.

Я пробовал программное обеспечение несколько раз, включая изменение высоты тона и скорости, но точность была низкой.

PocketSphinx


PocketSphinx может взять WAV-файл и преобразовать его в текст с помощью командной строки. PocketSphinx доступен через репозитории Debian и должен быть доступен для большинства дистрибутивов.

Основная проблема, которую я обнаружил в PocketSphinx, заключается в том, что вам практически необходимы знания в области распознавания голоса, языковых файлов, словарей и способов обучения системе.

После установки PocketSphinx вы должны зайти на сайт CMU Sphinx и прочитать как можно больше информации. Вам также необходимо скачать следующий файл модели.

  • Модель родового языка в США

(Если вы не являетесь носителем английского языка, выберите подходящую вам языковую модель).

Документация для PocketSphinx и Sphinx в целом трудна для понимания непрофессионала, но из того, что я мог разглядеть, словарные файлы используются для предоставления списка возможных слов, а языковые модели имеют список потенциальных произношений.

Чтобы протестировать PocketSphinx, я использовал запись собственного голоса, фрагмент из Аль Пачино в «The Devils Advocate» и фрагмент из «Morgan Freeman». Смысл этого состоял в том, чтобы попробовать разные голоса, и для меня нет никого, кто мог бы рассказать историю так же ясно, как Морган Фриман, и никто не выдвинул такую ​​линию, как Аль Пачино.

Чтобы PocketSphinx работал, ему нужен файл WAV, и он должен быть в определенном формате. Если файл в формате MP3, используйте команду ffmpeg, чтобы преобразовать его в формат WAV:

ffmpeg -i inputfilename.mp3 -acodec pcm_s16le -ar 16000 outputfilename.wav

Для запуска PocketSphinx используйте следующую команду:

pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile voice2.wav -lm cmusphinx-5.0-en-us.lm 2> voice2.log

pocketsphinx_continuous берет файл WAV и преобразует его в текст.

В приведенной выше команде pocketsphinx сказано использовать файл словаря с именем “/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic” с языковой моделью “cmusphinx-5.0-en-us.lm”. Файл, преобразуемый в текст, называется voice2.wav (это запись, которую я сделал своим голосом). Наконец, 2> помещает все подробные выходные данные, которые вам не обязательно нужны, в файл с именем voice2.log. Фактические результаты теста отображаются в окне терминала.

Результаты с использованием моего голоса следующие:

добро пожаловать к следующему о том, что на этой неделе нет темы о том, какое программное обеспечение для распознавания в минуту

Результаты не такие ужасные, как с freespeech-vr, но все же не очень полезны. Затем я попытался использовать PocketSphinx с Аль Пачино, но это не дало никаких результатов.

Наконец я попробовал использовать голос Моргана Фримена из фильма «Всемогущий Брюс», и вот результаты:

000000000: мы будем на ней
000000001: все ли тяжело, да, в тот день, который сейчас, да, это самое большее, что мы были живы, я расстался с жарким
000000002: в лифт, который является ключом к бейсбольному часу или знает, что делать в жизни
000000003: какие из них восстановятся
000000004: они этого не написали
000000005: у них есть право на меня
000000006: у тебя должны быть правила
000000007: я ждал тебя
000000008: и он узнал здесь, что иллюстрация была убийственным Рождеством Вечеринка
000000009: получается один из способов написать о. задница, я думал, что немногие всегда носят одну

000000010: как объединенная проблема не даст ему блага, я оценил их в тот момент, когда мы не все, что вы думаете, я в мире, будут дома, и я Я видел, что
000000011: отец, у которого это есть
000000012: что об этом такого?
000000013: делает ли это, учитывая,
000000014: все, что ты не любишь Лот
000000015: прямо осенью
000000016: хорошо, держись только за меня
000000017: это несчастье, если я тоже думаю, что у них будет все, что будет что женился на не было, мы делаем мне нравится в отличие от способа

Мой тест вряд ли можно считать научным, и разработчики PocketSphinx могут заявить, что я неправильно использую программное обеспечение.

Существует также метод, называемый голосовой тренинг, который можно использовать для создания лучших словарей и языковых файлов.

Мое главное мнение заключается в том, что это слишком сложно для стандартного повседневного использования.

VoiceNote II


VoiceNote II – это приложение Chrome, которое использует API распознавания Google Voice.

Если вы используете браузеры Chrome или Chromium, вы можете установить VoiceNote II через Интернет-магазин.

Значки на VoiceNote II расположены странным образом, так как вам нужно установить язык внизу окна, а кнопка редактирования также находится внизу, однако кнопка записи находится в верхнем правом углу.

Первое, что вам нужно сделать, это выбрать язык, и это можно сделать, нажав на значок мира.

Чтобы начать запись, нажмите на значок микрофона и начните говорить в микрофон. Для достижения наилучших результатов я обнаружил, что говорение медленно было ключевым моментом, чтобы программное обеспечение имело возможность не отставать.

Результаты не были хорошими, как можно видеть ниже:

Здравствуйте и добро пожаловать на связь. Lifewire.com публикует сегодняшние статьи о преобразовании голоса в текст dunelm farrell recession 2008 в виде конверсий, и в нем говорится, что он хорошо поддерживает лучший способ найти голосовой текстовый аддон, чтобы показать пакет 2014debian или rpm, открыть его голосовой тип в речь, чтобы открыть текст, если вы хотите выбрать Vs выбрал в Эдинбурге Французский немецкий. Вы получите время в Великобритании. Микрофон, на котором вы закончили писать текст в виде текстового файла, так что лучше всего это стандартный английский акцент с юга Англии, но я собираюсь перейти к тексту через этот торренталонг. с фактическим документом, и вы можете увидеть ошибки, которые делают вас благодарными за то, что вы слушаете

Dictanote


Dictanote – это еще одно приложение Chrome, которое можно использовать для диктовки и выглядит более интуитивно понятным, но результаты оказались не лучше, чем в VoiceNote II.

Я использовал только демонстрационную версию Dictanote, которая запрещает вам создавать новые документы, но позволяет обсуждать текст, уже находящийся в редакторе. Мне удалось проверить распознавание голоса, но результаты были не лучше, чем у VoiceNote II, и поэтому я не подписался на профессиональную версию.

Диктовка и почта


«Dictation And Mail» – это приложение для Android, которое использует собственный API распознавания голоса Google.

Результаты «Диктовки и почты» были намного лучше, чем любая другая программа, пытающаяся до этого момента.

привет, добро пожаловать в Linux lifewire.Сегодня мы говорим о преобразовании звука в текст

Хитрость с «Диктовкой и почтой» заключается в том, чтобы говорить медленно и произносить как можно лучше с равномерным акцентом.

После того, как вы закончите говорить, вы можете отправить результаты по электронной почте.

Talk And Talk Dictation


Другое приложение для Android, которое я пробовал, было «Talk And Talk Dictation».

Интерфейс для этого приложения был лучшим из всех, и распознавание голоса работало очень хорошо. После записи диктовки я смог поделиться результатами различными способами, в том числе по электронной почте.

добро пожаловать на linux lifewire.com сегодня мы говорим о преобразовании речи в текст

Как вы можете видеть, текст выше настолько ясен, насколько это возможно. Говорить медленно – это ключ.

Резюме


У Native Linux есть какой-то путь в отношении распознавания голоса и, в частности, диктовки. Есть некоторые приложения, которые используют Google Voice API, но они еще не перечислены в репозиториях.

Приложения ChromeOS немного лучше, но лучшие результаты были достигнуты с моим телефоном на Android. Возможно, у телефона лучший микрофон, и поэтому у программы распознавания голоса больше шансов на конвертацию.

Чтобы распознавание голоса стало действительно удобным, оно должно быть более интуитивно понятным с меньшими затратами на настройку. Вам не нужно возиться с языковыми моделями и словарями, чтобы сделать их понятными.

Однако я ценю то, что искусство распознавания голоса очень сложное, потому что у всех разные голоса, и в одной стране очень много диалектов от региона к региону, и не волнуйтесь о сотнях языков, используемых во всем мире.

Поэтому мой анализ заключается в том, что программное обеспечение для распознавания голоса все еще находится в стадии разработки.

‎AudioNote 2 — Диктофон в App Store

Описание

AudioNote связывает заметки, которые вы делаете, со звуком, записанным, когда вы их делаете. Результатом является связанный индекс вашей записи, который быстро предоставляет бесценный аудиоконтекст для ваших заметок.

Запись
• Запись звука с усилением, автоматически адаптирующаяся к размеру помещения и уровню громкости
• Фильтр шумоподавления, устраняющий нежелательный фоновый шум
• Запись можно приостанавливать и возобновлять по мере необходимости без ограничения времени

Создание заметок
• Заметки связаны с записанным звуком в момент их создания
• Расширенные текстовые заметки — настраиваемые шрифты, цвета, маркеры, символы с отметками времени
• Рукописные заметки и рисунки
• Фотографии, формы, выделение текста
• Слайды PDF — делайте заметки непосредственно на слайдах презентации и других документах

Воспроизведение
• Коснитесь заметок, чтобы перейти к связанному аудио
• Коснитесь и удерживайте, чтобы выполнить предварительный поиск
• Заметки следуют вместе с воспроизведением, выделением и автоматической прокруткой
• Регулируемая скорость воспроизведения с автоматической коррекцией высоты тона

Организуйте, синхронизируйте и делитесь
• Создавайте папки для упорядочения файлов по классам, проектам, клиентам и т. д.
• Автоматическая синхронизация между устройствами с помощью iCloud или Dropbox
• Делитесь через Facebook, Twitter , электронная почта, AirDrop, Wi-Fi и многое другое
• Кроссплатформенная поддержка iOS, Mac и Windows

Возможности Pro
• Запись более высокого качества
• Импорт предварительно записанного звука и добавление заметок
• Отметки времени суток для минут встречи
• 1 месяц бесплатной пробной версии

Избегайте путаницы и досадных и дорогостоящих ошибок. Благодаря мгновенному доступу и дополнительной четкости AudioNote вы будете делать более эффективные заметки, экономить время и в конечном итоге достигать лучших результатов. Загрузите AudioNote сегодня.

Информация о подписке

AudioNote 2 предлагает подписку на AudioNote 2 Pro за 9,99 долл. США в год вместе с бесплатной пробной версией на 1 месяц. Подписки автоматически продлеваются, если автоматическое продление не отключено по крайней мере за 24 часа до окончания текущего периода. С аккаунта будет взиматься плата за продление в течение 24 часов до окончания текущего периода по ставке, указанной выше. Оплата будет снята с учетной записи iTunes при подтверждении покупки. Подписками можно управлять, а автоматическое продление можно отключить, перейдя в настройки учетной записи после покупки. Отмена текущей подписки не допускается в течение активного периода подписки. Любая неиспользованная часть бесплатного пробного периода будет аннулирована.

Политика конфиденциальности
http://luminantsoftware.com/privacy_policy.html

Условия использования
https://www.apple.com/legal/internet-services/itunes/dev/stdeula/

Версия 2.3.3

Исправлена ​​ошибка, из-за которой панель инструментов списка заметок становилась полупрозрачной в новых версиях iOS.

Рейтинги и обзоры

178 оценок

Почти идеально

Я могу почти поставить AudioNote 2 5-звездочный рейтинг, и хоть убей, я не понимаю, как кто-то может поставить ему 1 или 2 звезды. Я думаю, что это больше говорит о некомпетентности пользователей, чем об этом превосходном приложении. В общем, почти идеально. На самом деле, я не решаюсь перечислить, что я считаю его недостатками, потому что он работает очень хорошо. Но есть 3 аспекта, где я вижу возможности для улучшения.

1. Улучшена интеграция iPad с приложением Apples Files. Я храню свою текущую работу в AudioNote на своем рабочем столе MacBook, и я хотел бы иметь возможность открывать ее на iPad и сразу же редактировать. Вместо этого я должен сначала загрузить весь аудиофайл.

2. Как и почти все остальные, AudioNote теперь требует подписки для использования расширенных функций. Но я считаю, что плата неоправданно высока. (И было бы неплохо предложить нам, первым пользователям оригинального продукта, скидку или какой-либо аналогичный стимул. Тем не менее, плата слишком высока.)

3. BIGGIE: Менее сложное управление скоростью воспроизведения.

Абсолютно ЛУЧШЕЕ приложение для записи/заметок!

Как адвокат я пользуюсь этим приложением уже несколько лет. Я часто использую это приложение, и оно входит в пятерку лучших приложений, которые обязательно нужно иметь! Я использую его во время показаний и других встреч, чтобы записывать и делать заметки. (* Перед записью необходимо получить разрешение.)

Это приложение позволяет мне больше слушать и меньше делать заметки. Я набираю ключевые слова при его использовании. При воспроизведении, если я хочу прослушать определенный раздел, я просто нажимаю на ключевое слово, и запись сразу же переходит к этой части. Вы также можете отредактировать свои заметки впоследствии, введя дополнительную информацию во время воспроизведения. Добавленные/отредактированные слова также можно нажимать во время воспроизведения, чтобы перейти к этому разделу воспроизведения, пока вы печатаете во время воспроизведения.

Звуковой сигнал тоже очень хороший. Сначала я размышлял о покупке внешнего микрофона, но обнаружил, что по большей части он не нужен, так как я использую его только для личных заметок.

Синхронизация с iCloud и Dropbox проста, но я бы хотел, чтобы они добавили синхронизацию для Microsoft Onedrive.

В целом, я настоятельно рекомендую это приложение любому студенту, если профессор разрешает это, или профессионалу, которому необходимо записывать и делать заметки одновременно. Один рецензент упомянул о невозможности записать телефонный разговор с того же устройства, на котором запущено это приложение. Это не проблема разработчика. Микрофон на устройстве можно использовать только для одной задачи за раз, то есть для разговора по телефону или записи.

Очень хорошее приложение для записи голоса

Я думал, что уже оставил отзыв. Но в целом это очень хорошее приложение для записи голоса, мне пришлось бы провести исследование, чтобы выяснить, есть ли приложение лучше. Они могли бы улучшить функцию обрезки, и было бы неплохо иметь одну кнопку для повторной загрузки всех моих голосовых записей, потому что, когда он сделал сброс и обновление в приложении, мне теперь нужен Wi-Fi, чтобы загрузить много мои голосовые записи, чтобы добавить к ним что-то. Я случайно удалил часы обучения на втором Сэмюэле, потому что неправильно понял функцию обрезки, и в мире не было никакого способа вернуть ее. Часы исследований и личного изучения Библии и довольно много времени впустую, потому что я неправильно понял функцию обрезки. Но в любом случае очень хорошее приложение, и я использую его каждый божий день. Я использую его, чтобы записывать свои мысли, идеи и вещи, которые я хотел бы сделать однажды…

Разработчик, Luminant Software, Inc, указал, что политика конфиденциальности приложения может включать обработку данных, как описано ниже. Для получения дополнительной информации см. политику конфиденциальности разработчика.

Данные, используемые для отслеживания вас

Следующие данные могут использоваться для отслеживания вас в приложениях и на веб-сайтах, принадлежащих другим компаниям:

  • Расположение
  • Идентификаторы
  • Данные об использовании
  • Диагностика

Данные, связанные с вами

Следующие данные могут быть собраны и связаны с вашей личностью:

  • Расположение
  • Идентификаторы
  • Данные об использовании
  • Диагностика

Данные, не связанные с вами

Могут быть собраны следующие данные, но они не связаны с вашей личностью:

Методы обеспечения конфиденциальности могут различаться, например, в зависимости от используемых вами функций или вашего возраста. Узнать больше

Информация

Продавец
Luminant Software, Inc.

Размер
19,7 МБ

Категория
Бизнес

Возрастной рейтинг
4+

Авторское право
© 2010-2022 Luminant Software, Inc.

Цена
Бесплатно

  • Сайт разработчика
  • Тех. поддержка
  • политика конфиденциальности

Еще от этого разработчика

Вам также может понравиться

Голосовые сообщения для Chrome

Забронируйте время для встречи с нами
Мы с нетерпением ждем возможности поговорить!

Вы уверены?

Как говорится:
Carpe Diem! — Лови момент!

нет, спасибо, верни меня

Если вы забронируете время с нами, мы гарантируем, что оно того стоит. .. и в худшем случае мы отлично поболтаем и, без сомнения, мы оба научимся что-то новое! Нечего терять!

Он позволяет записывать голосовые сообщения и обмениваться ими в Интернете с друзьями, клиентами, командой или кем-либо еще! И получайте голосовые ответы в ответ!

Используйте расширение в любое время, когда вы хотите укрепить доверие, сообщество или понимание — сказать спасибо, задать вопрос и собрать реальные ответы, передать важное сообщение своей команде, рассказать кому-то, что вам небезразлично, предоставить и / или оставить отзыв — и это немного! На самом деле возможности безграничны!

Просто откройте расширение, нажмите, чтобы записать, а затем получите ссылку (URL-адрес), которой вы можете поделиться где угодно… в своих электронных письмах, в социальных сетях или в любом другом месте онлайн или офлайн!

Просто щелкнув ссылку, которой вы делитесь с ними. Они попадут на веб-страницу, где смогут нажать кнопку воспроизведения и послушать, как вы говорите с ними громко и четко! Им не нужно будет регистрироваться или что-либо скачивать.

Каждый раз, когда вы записываете новое сообщение с помощью расширения Chrome, у вас будет возможность включить/отключить ответы прослушивателя. Просто переключите тумблер в положение «включено» или «выключено». Если эта функция включена, слушатели могут просто нажать кнопку ответа на странице обмена и записать голосовой ответ!

1 минута — однако слушатели могут записывать для вас ответы продолжительностью до 15 минут

В бесплатном тарифном плане мы храним сообщения в течение 1 месяца — обновитесь, чтобы выбрать собственную политику хранения данных, от 1 месяца до неограниченного.

Просто войдите в свой почтовый ящик! Вы увидите все сообщения, которые вы записали, и ответы, которые вы получили, аккуратно организованные в виде цепочек бесед. И оттуда вы можете продолжить разговор и ответить!

Да! Вы можете записывать и делиться неограниченным количеством голосовых сообщений с помощью расширения Chrome. Мы считаем, что говорить намного проще, чем печатать, и общаться гораздо лучше.