Содержание

Голос в текст — онлайн-сервис распознавания речи на базе Яндекс.Алисы — Трибуна на vc.ru

Всем привет! Меня зовут Дмитрий, я разработчик и создатель проекта golos-v-text.ru. Эта история о том как любовь правит миром и как создать продукт чтобы спасти принцессу из замка. Идея проекта: помочь страдальцам, кто транскрибирует аудиозаписи вручную, будь то запись со встречи на диктофон, телефонный разговор или субтитры для видео.

5304 просмотров

Результат расшифровки телефонного разговора для многоканальной аудиозаписи.

Наша команда

На данный момент как таковой команды нет, и задач кроме как на написание кода нет. Создать сервис таким какой он есть мне помогли мои близкие люди — моя девушка Катя и друг Рамин. Они выступают в роли тестировщиков и представителей целевой аудитории.

История создания

Моя девушка Катя работает помощником руководителя продюсерского центра. Задачи у нее бывают самые разнообразные — от поиска места для проведения мероприятий до описания продуктовых требований аналитики в BI.

Однажды ей передали 2 аудиозаписи со встречи с экспертами, в сумме на 4,5 часа. Обе записи буквально напичканы полезной и важной информацией которую необходимо перенести в текст для составления обучающего курса.

На расшифровку 10 минут записи ушло примерно 1,5 часа времени, не отвлекаясь на посторонние дела. Информации было действительно много и вся она была ценная.

Я следил за этим процессом и мне хотелось выколоть себе глаза, т.к. я терпеть не могу рутинную работу и всегда стараюсь автоматизировать ее.

Я вспомнил, что когда-то Яндекс Speech Kit помог мне с подобной задачей и решил попробовать. Правила работы сервиса сильно изменились с тех пор, пришлось изобретать велосипеды, изучать как работают аудио кодеки и сервера на Linux. В ручном режиме, отправляя запросы через Postman, за вечер я смог получить расшифровку обеих записей и мы реально афигели от ее результатов. Расшифровались даже моменты где люди перебивали друг друга или говорили на заднем плане. Пожалуй это единственное, где иногда приходилось переслушивать запись.

Если человек говорил один, то все было интуитивно понятно. И это запись с диктофона на iPhone Карл!

Первая расшифровка записи от Яндекс Speech Kit

Катя рада! Я доволен собой, ведь я спас принцессу от страшной и нудной задачи, и жили они долго и счастливо…

Конец истории. (нет)

Спрос и предложение на услуги транскрибирования

Переспав с приятными мыслями о том, что я помог любимой девушке, я решил изучить спрос и предложение на подобные услуги и это произвело на меня сильное впечатление.

Количество запросов слов «аудио в текст» в wordstat.yandex.ru

Количество запросов слов «голос в текст» в wordstat.yandex.ru

В выдаче яндекса по этим запросам выходят только сервисы которые как «клавиатура на iPhone» умеют превращать голос в текст прямо здесь и сейчас, и естественно не в таких больших объемах времени, как понадобилось нам с Катей.

В выдаче присутствуют компании, которые таким же ручным трудом, при помощи «профессионалов», транскрибируют аудио, и берут за это космические деньги.

Создание MVP

Вооружившись Vue + Laravel + Yandex Cloud я начал писать прототип сервиса, одновременно продумывая модель монетизации.

Через 2 недели я выкатил приложение на тест своим близким. В ответ я конечно же получил баги, но самое важное — крутые отзывы.

Рамин — профессиональный видеограф, сразу нашел своё применение сервису. Для создания рекламных роликов или интервью он часто делает субтитры прямо под видео, т.к. YouTube делает это не очень качественно. После прогона 2-х аудиозаписей он признался, что больше не будет делать субтитры к роликам вручную.

Это вдохновило меня по-новому, и я с большим энтузиазмом продолжил доделывать сервис. Сделал удобный, по-моему мнению UI, регистрацию, расшифровку многоканальных записей (для расшифровки звонков и отображения их в формате чата), прикрутил оплату и придумал тарифы.

Монетизация

В данный момент тарифы — это проверка гипотезы. Полагаю, что сервис будет полезен как частным лицам, так и компаниям, которые занимаются расшифровкой записей вручную, о которых я писал выше. Поэтому стоимость расшифровки для больших объемов аудио — дешевле, т.е. те кто пополняют сервис на бОльшие суммы, получают более выгодные условия.

У меня нет юр. лица, поэтому все поступления идут на Яндекс кошелек (ЮMoney). Прошу не пугаться надписи, что деньги получит человек, а не компания.

Пополнение баланса сервиса golos-v-text.ru

Сейчас сервис запущен и умеет распознавать только русский язык. Конечно расшифровка работает не идеально, и скорее всего в любой записи будут несостыковки, т.е. придется править текст результата. Но по-моему это хорошее решение для автоматизации рутинных задач за небольшие деньги.

Дальнейшее развитие

В ближайшее время планирую доделать мобильную версию приложения, сейчас для мобильных устройств доступна только основная функциональность — загрузка записей и расшифровка. Осталось дать возможность пополнять баланс.

Глобально есть несколько идей и направлений развития сервиса, но пока говорить о них не буду, т.к. хочется быть полезным и решать реальные задачи пользователей. Основная цель — получить обратную связь и понять какое из направлений наиболее востребованное.

Amazon Transcribe – Преобразование речи в текст – AWS

Примеры использования

Извлечение полезной информации из разговоров с клиентами

С Transcribe Call Analytics можно быстро извлекать полезную информацию из разговоров с клиентами. Партнеры Аналитики контакт-центра AWS и Contact Lens для Amazon Connect предлагают комплексные решения, чтобы повысить уровень вовлечения клиентов, увеличить продуктивность операторов и показывать руководителям предупреждения о контроле качества работы.

Поиск и анализ медиаконтента

Производители и распространители мультимедийного контента с помощью Amazon Transcribe могут автоматически конвертировать аудио и видео в архивы с возможностью полнотекстового поиска для выявления контента, выделения основных моментов, проверки контента и монетизации.

Создание субтитров и заметок для совещаний

Добавляйте субтитры к вашему контенту по требованию и к трансляции, чтобы повысить доступность и улучшить качество обслуживания клиентов. Используйте Amazon Transcribe для повышения производительности и точной фиксации хода важных встреч и совещаний.

Улучшение клинической информации

Лечащие и практикующие врачи могут использовать Amazon Transcribe Medical для быстрой и эффективной документации разговоров с пациентами, чтобы анализировать или вносить данные в электронную карту здоровья (EHR). Сервис соответствует требованиям HIPAA и умеет распознавать медицинскую терминологию.

Клиенты

Audioburst ежедневно создает 225 000 минут прямой речи по радио с возможностью поиска »

NASCAR удалось создать субтитры к видеоконтенту по требованию с затратами на 97 % ниже рассчитанных »

С чего начать

Зайдите в консоль

Попробуйте использовать Amazon Transcribe в консоли AWS.

Начало работы »

Вход в Консоль

Подробнее об AWS

  • Что такое AWS?
  • Что такое облачные вычисления?
  • Инклюзивность, многообразие и равенство AWS
  • Что такое DevOps?
  • Что такое контейнер?
  • Что такое озеро данных?
  • Безопасность облака AWS
  • Новые возможности
  • Блоги
  • Пресс‑релизы

Ресурсы для работы с AWS

  • Начало работы
  • Обучение и сертификация
  • Портфолио решений AWS
  • Центр архитектурных решений
  • Вопросы и ответы по продуктам и техническим темам
  • Отчеты аналитиков
  • Партнерская сеть AWS

Разработчики на AWS

  • Центр разработчика
  • Пакеты SDK и инструментарий
  • .NET на AWS
  • Python на AWS
  • Java на AWS
  • PHP на AWS
  • JavaScript на AWS

Поддержка

  • Связаться с нами
  • Работа в AWS
  • Обратиться в службу поддержки
  • Центр знаний
  • AWS re:Post
  • Обзор AWS Support
  • Юридическая информация

Amazon. com – работодатель равных возможностей. Мы предоставляем равные права представителям меньшинств, женщинам, лицам с ограниченными возможностями, ветеранам боевых действий и представителям любых гендерных групп любой сексуальной ориентации независимо от их возраста.

Поддержка AWS для Internet Explorer заканчивается 07/31/2022. Поддерживаемые браузеры: Chrome, Firefox, Edge и Safari. Подробнее »

Транскрипция голоса в текст | Транскрибировать речь в текст

Нам доверяют более 100 000 пользователей и команд всех размеров.

Поддерживаемые языки

Ниже приведен список популярных языков, которые мы поддерживаем для транскрипции.

  • Английский
  • Французский
  • испанский
  • Немецкий
  • Голландский
  • португальский
  • итальянский
  • польский

Голосовые форматы

Ниже приведен список популярных голосовых форматов, которые мы поддерживаем для транскрипции.

  • MP3
  • WAV
  • М4А

Как преобразовать голос в текст?

  1. 1. Загрузите свой голосовой файл.

    С помощью нашего загрузчика вы можете импортировать файл из любого места, будь то ваш ноутбук, Google Диск, Youtube или Dropbox. Первые 10 минут бесплатны, ограничений по количеству файлов нет.

  2. 2. Выберите язык вашего голосового файла.

    Мы поддерживаем более 120 языков, диалектов и акцентов.

  3. 3. Выберите «Создано машиной» или «Сделано человеком».

    Наше программное обеспечение для автоматической транскрипции работает молниеносно и обеспечивает точность 85%. С нашей помощью ваша стенограмма будет расшифрована и проверена экспертом и носителем языка и доставлена ​​с точностью 99%.

  4. 4. Получите стенограмму.

    Наше программное обеспечение для автоматической транскрипции преобразует ваш голос в текст всего за несколько минут (в зависимости от длины вашего файла). Если вы выберете нашу человеческую службу, ваша стенограмма будет готова в течение 24 часов.

  5. 5. Нажмите «Экспорт» и выберите нужный формат файла.

    Вы можете экспортировать в форматы TXT, DOCX, PDF, HTML и многие другие. Записать свой голос так просто!

Часто задаваемые вопросы

  • Что такое преобразование голоса в текст?

    Преобразование голоса в текст — это процесс преобразования голосового файла в текстовый файл. От журналистов, которым нужно выбрать цитату для своей статьи из недавнего интервью, до бизнесменов, которым нужен письменный отчет о встрече, до студента, которому нужны конспекты лекций, существует множество сценариев, в которых текстовый файл удобнее, чем файл. Аудио запись. Транскрипция также полезна для подкастов, телефонных звонков, диктовки и т. д. Здесь могут помочь услуги транскрипции.

  • Сколько времени нужно, чтобы преобразовать голос в текст?

    Количество времени, необходимое для преобразования голоса в текст, зависит от длины вашего аудиофайла, качества звука и от того, расшифровываете ли вы звук самостоятельно или используете программное обеспечение для преобразования голоса в текст. Если у вас хорошее качество звука и вы имеете опыт транскрипции голоса в текст, вы можете ожидать, что преобразование 1 часа аудио займет 4 часа. Если у вас плохой звук или вы новичок в преобразовании голоса в текст, это может занять больше времени. Напротив, автоматическая транскрипция голоса может преобразовать голос в текст за несколько минут. Кроме того, профессиональный расшифровщик из Happy Scribe может предоставить вам корректуру и высококачественную стенограмму в течение 24 часов.

  • Насколько точна ваша программа автоматической транскрипции?

    Постоянные технологические достижения продолжают повышать точность автоматической транскрипции. В зависимости от качества звука, акцента говорящего и технического жаргона наше программное обеспечение для автоматической транскрипции может достигать точности до 85%.

  • Как я могу повысить точность транскрипции моего голоса в текст?

    Чтобы получить максимально возможную точность транскрипции голоса в текст, вам необходимо загрузить высококачественный аудиофайл. Чтобы получить высококачественный аудиофайл, рекомендуется поддерживать постоянную среду записи, избегать фонового шума, использовать качественные микрофоны и следить за тем, чтобы говорящие говорили прямо в микрофон и не переговаривались друг с другом.

Отзывы клиентов

Оценка Отлично 4,8/5 на основе более 450 отзывов

  • Идеальная транскрипция видео в текст? Это сэкономило мне часы написания!

    Крыло Томаса — Trustpilot

  • Этот веб-сайт идеально подходит для быстрой и легкой расшифровки любого видео. Чтобы сделать его еще лучше, он ИМЕЕТ множество полезных функций, таких как перевод и т. Д. Я очень рекомендую его.

    Яхия Мостафа — Trustpilot

  • Einfache wirklich tolle Art Videos zu mit Untertiel versehen.

    Ренате Хотц — Trustpilot

  • Идеальная транскрипция видео в текст? Это сэкономило мне часы написания!

    Крыло Томаса — Trustpilot

Преобразователь речи в текст — Преобразователь видео/аудио в текст онлайн



Преобразователь речи в текст — Преобразователь видео/аудио в текст онлайн

Onilne Speech-To-Text Service

Назад

Редактировать видео до 100 МБ,Загрузить приложение для редактирования больших файлов

Отменить Продолжить

Нажмите или перетащите, чтобы загрузить видео

Редактировать видео до 100 МБ,Загрузить приложение для редактирования больших файлов

Отменить Продолжить

Вы уверены, что хотите удалить это видео/аудио?

Отмена Да

{{handle_process}}% Обработка

Готово {{fileList[0]?getShortName(fileList[0]. name,20):»}}

Процесс не выполнен, попробуйте еще раз

Отмена Да

{{Math.floor(file.upload_progress*100)}}% Загрузка

Обновите браузер, чтобы посмотреть видео

Обновите браузер, чтобы прослушать аудио

{{fileName}}

{{currentTarget == 0?startTime:endTime}} {{IsPC?’ /’:»}} {{duration?dateTransfer(duration):’00:00:00′}}

Язык: Китайский Английский

: :

: :

Минимальный диапазон времени составляет 1 секунду!

Скачать приложение {{isSubmit?’Cancel’:’Convert’}} Загрузить снова ЗАГРУЗИТЬ Простой и быстрый онлайн-сервис преобразования речи в текст

Преобразование разговорного аудио в текст прямо в браузере без каких-либо загрузок. Получите текст на китайском/английском языках всего за один клик!

03.

Поддерживается несколько файлов

Загружайте и конвертируйте в текст любые файлы, включая MP4, AVI, MOV, WEBM, MP3 и т. д. BeeCut может распознавать звук в видео и автоматически преобразовывать его в текст.

04.

Больше, чем «Преобразование речи в текст»

Одна единственная функция удовлетворяет множеству потребностей: Преобразование повествования в субтитры без ввода; Преобразование записи встречи в текстовый файл без создания заметок.

05.

Стабильный, Живой, Высококачественный

Функция преобразования речи в текст была разработана на основе распознавания речи ИИ. Транскрипция может быть такой же точной, как и профессиональное программное обеспечение для преобразования речи в текст.

06.

Вы можете наслаждаться

комфортным обслуживанием при поддержке профессиональной технической команды

07.

Обзор

Что они говорят после использования?

  • Уильям

    Потрясающе! Благодаря команде трудоемкая и кропотливая запись встречи наконец-то может быть преобразована в текст всего одним щелчком мыши, а точность транскрипции относительно высока.