Содержание

Как печатать голосом в Windows 10? | Советы/Руководства

В Microsoft Windows 10 есть собственная версия цифрового помощника по распознаванию речи в Кортане, которая даже позволяет печатать голосом. С помощью этого набора приложений и функций пользователи могут управлять своими компьютерами, создавать записи в календаре, совершать звонки и выполнять множество других функций. Однако часто упускается из виду возможность распознавания речи — это способность диктовать текст. Эта малоиспользуемая функция может быть особенно полезна в определенных бизнес-средах, где необходимо вводить текст, но клавиатура будет неудобна.

По мере повышения качества технологии преобразования речи в текст повышается и общая полезность функций и приложений распознавания речи на наших вычислительных устройствах. Независимо от того, означает ли это отдавать команды вашему любимому интеллектуальному устройству дома или вашему мобильному смартфону, «разговор» с вашим цифровым помощником стал обычным и эффективным способом взаимодействия с вашим подключенным миром.

Если вы устали печатать на клавиатуре, ввод текста может быть таким же простым, как использование голоса на клавиатуре. Windows 10. Операционная система включает встроенные функции распознавания речи и диктовки. Посмотрите, как их настроить и как печатать голосом.

резюме

Как печатать голосом в Windows 10?

Как включить распознавание голоса и диктовку в Windows 10

Программное обеспечение для диктовки Microsoft — это полезный способ набора текста голосом и быстрого ввода текста на Windows 10 с помощью сочетания клавиш Windows + H. Но он все еще может быть не включен по умолчанию в вашей системе, поэтому вам, возможно, придется быстро перейти к настройкам, чтобы включить его.

Начните с открытия настроек Windows. Для этого откройте меню «Пуск» и щелкните значок шестеренки. Вы также можете получить к нему доступ, нажав Windows + Я на клавиатуре.

Откройте настройки Windows

В настройках нажмите «Легкость доступа».

Нажмите на доступ к объектам

Купить ключ Windows 10

Получите оригинальный ключ для своей Windows 10 и избежите проблем в будущем!

Оригинальная Windows 10

На левой панели прокрутите вниз и нажмите «Речь» на боковой панели. В разделе «Настройки речи» нажмите кнопку, расположенную под «Включить распознавание речи». Он должен перейти в положение «Включено».

Активировать распознавание речи

Имейте в виду, что распознавание голоса для голосового набора доступно только на нескольких языках, включая английский, французский, немецкий, испанский, китайский и японский. Чтобы выполнить это действие быстро, нажмите Windows + Ctrl + S, чтобы мгновенно включить или выключить распознавание голоса.

При первой активации распознавания голоса вам нужно будет настроить его для распознавания вашего голоса.

Настроить распознавание голоса

Чтобы выполнить первоначальную настройку микрофона, например, голосовой набор, подключите микрофон гарнитуры, настольный микрофон или другие периферийные микрофоны. Затем следуйте подсказкам на экране, чтобы выбрать и откалибровать микрофон. Мы рекомендуем использовать микрофон гарнитуры для диктовки.

Выполните первоначальную настройку микрофона

После подключения гарнитуры произнесите экранную фразу в микрофон, чтобы система уловила ваш голос и смогла распознать вас во время использования программы.

произнесите появившуюся фразу

В заключение выберите, хотите ли вы разрешить компьютеру анализировать документы и электронную почту, чтобы помочь вам повысить точность распознавания голоса при вводе с помощью голоса.

Полный!

После завершения настройки вы готовы начать вводить текст голосом на Windows 10!

См. Также:

  • Как печатать на Windows 10 в 2021 году?
  • Windows 11: как установить быстро и официально
  • Windows 11: все, что вам нужно знать
  • Windows 10 Как сканировать документы и фотографии.
  • Как активировать Windows 10 в 2021 году (ничего не устанавливая)

Как печатать голосом в Windows 10

После того, как вы успешно настроили микрофон, вы можете начать делать такие вещи, как голосовой набор. Мастер предложит вам включить распознавание речи при каждом запуске компьютера. Отвечайте соответствующим образом в соответствии с вашими предпочтениями, и вы, наконец, готовы начать печатать своим голосом.

Если вы хотите использовать диктовку, выберите текстовое поле и откройте панель диктовки с помощью Windows + H. Мы будем использовать пустой текстовый документ в качестве примера. После нажатия Windows + H вверху экрана появится панель диктовки:

использовать поговорку

Диктовка будет автоматически активирована и предложит вам говорить, как только вы войдете в панель диктовки. В противном случае просто нажмите на значок микрофона, чтобы активировать его.

Научившись печатать голосом, начните говорить в микрофон. Говорите полными, осознанными предложениями. Вы можете сказать то, что вам нравится, и увидите, как это будет напечатано на экране по мере продвижения. Вот несколько советов, как вы диктуете:

  • оценка: чтобы добавить знаки препинания, произнесите название знака препинания, который вы хотите использовать в работе. Например, скажите «точка», чтобы поставить точку в конце предложения, или «запятая», «тире», «точка с запятой», «восклицательный знак» или «вопросительный знак», чтобы добавить знаки препинания в свой документ. .
  • Скобки: В скобках произнесите «открытые скобки», чтобы начать предложение, и «закрывающие круглые скобки», чтобы закончить предложение.
  • Числовые значения: произнесите «число», а затем число, чтобы ввести числовые значения.
  • Пункты навигации: чтобы перейти к следующему абзацу, произнесите «следующая строка» или «следующий абзац».
  • Удаление текста: чтобы исключить слова, произнесите «удалить», а затем укажите слово, которое вы хотите исключить. Вы также можете сказать «удалить предыдущее предложение», чтобы избавиться от всего предложения, которое вы больше не хотите хранить в документе.
  • Выбор: чтобы выбрать слово, произнесите «выберите» и затем слово, которое хотите выделить.
  • Перейти к началу или концу предложения: Если вы хотите перейти к началу или концу предложения, скажите «перейти к началу предложения» или «перейти к концу предложения».
    Это также работает для навигации по абзацам и в начале или в конце документа.

Не забывайте говорить четко и не говорите слишком быстро, так как это может нарушить ход вашего письма, поскольку программное обеспечение пытается не отставать от вашего темпа (когда мы говорим быстро, мы испытываем некоторую задержку в входе, пока мы немного не замедлимся).

Перестаньте диктовать, говоря «перестаньте диктовать». Чтобы снова включить его или неожиданно выключить, нажмите на микрофон на панели диктовки, чтобы снова активировать его:

перестань диктовать

Диктовка позволяет использовать свой голос, чтобы писать что-то быстрее и проще, чем печатать, и это тоже очень весело.

См. Также:

  • Что такое оперативная память? Все, что Вам нужно знать
  • Каковы лучшие карты захвата 2021 года? Для игр, потоковой передачи и многого другого
  • Лучшие инди-игры для ПК в 2021 году
  • ТВ для игр в 2021 году: все, что вам нужно знать
  • TN против IPS против VA Panel: что лучше? Знать все о

Как отключить распознавание речи и диктовку в Windows 10

Программное обеспечение для диктовки идеально подходит для многих целей, но затем вы можете решить отключить его в какой-то момент.

Если вы случайно включили диктовку или просто не хотите ее больше использовать, отключить ее довольно просто. Все, что вам нужно сделать, это нажать Windows + H еще раз, чтобы отключить его.

Если вы хотите полностью отключить распознавание речи, чтобы случайно не начать диктовку, выключите его с помощью Windows + Ctrl + S. Это полностью отключит распознавание речи.

Или вернитесь к настройкам Windows. Снова нажмите «Легкость доступа», найдите «Речь» и измените кнопку под словами «Включить распознавание речи» в положение «выключено».

Отключить распознавание голоса

Помните, что вы всегда можете включить распознавание речи и использовать функцию диктовки в любое время с Windows + H. Приятного письма!

ценаБестселлер # 1

Взлом Windows 10 с помощью DVD

ценаБестселлер # 2

Windows 10

Бестселлер # 3

Windows 10 pro 32/64 Bits Vitalicia — Доставка. ..

Альтернативы Windows

Если по какой-то причине вы не смогли адаптироваться к использованию Windows или вам нужно какое-то другое решение для набора текста голосом, в Интернете есть несколько интересных альтернатив, чтобы заставить эту работу работать. Укажем бесплатные альтернативы. Если вам нужно что-то более надежное, есть другое платное программное обеспечение, которое может выполнить эту работу.

Google Docs

  • Доступно в: Интернет
  • Preço: бесплатно

Большинство писателей доверяют Google Docs каждый день, поэтому, если вам нужен бесплатный, но мощный инструмент для диктовки, подумайте об использовании инструмента голосового набора Google. Он не только позволяет вводить голосом в Документы Google, но и использовать более 100 голосовых команд для редактирования и форматирования документа практически любым возможным способом, например, отмечать точки, выделять курсивом или жирным шрифтом текст и перемещать курсор в разные части вашего документа.

Чтобы использовать голосовой набор в Google Документах, все, что вам нужно сделать, это нажать «Инструменты», «Голосовой набор» и разрешить Google доступ к микрофону вашего ноутбука.

выступления

  • Доступно в: Google Chrome
  • Preço: бесплатно

Создан на основе систем распознавания речи Google, выступления — это простой и удобный онлайн-инструмент для диктовки, который помогает пользователям преобразовывать свою речь в текст с точностью более 90%. А поскольку вам не нужно загружать, устанавливать или регистрироваться в Speechnotes, это один из самых доступных инструментов для диктовки.

Speechnotes также невероятно прост в использовании — он автоматически использует заглавные буквы в начале ваших предложений, автоматически сохраняет ваши документы и позволяет вам диктовать и печатать одновременно. Когда вы закончите диктовать в Speechnotes, вы можете отправить документы по электронной почте или распечатать, экспортировать их на Google Диск или загрузить на свой компьютер.

Sobolsoft

  • Имеется в наличии: Интернет
  • Preço: Бесплатно (500 минут в месяц)

С Sobolsoft, вы можете легко конвертировать аудио в текстовые файлы и сохранять их. Бесплатная версия позволяет конвертировать 500 минут аудио каждый месяц. После установки вы можете загрузить аудиофайлы и нажать «конвертировать», чтобы начать процесс. Кроме того, можно одновременно загружать и преобразовывать в текст несколько аудиофайлов. После транскрипции текст можно редактировать и сохранять. Однако с помощью этого программного обеспечения для преобразования речи в текст можно преобразовать только файлы MP3.

Быстрый FAQ

Как активировать ключ продукта Windows 10?

Активируйте восстановленное устройство под управлением Windows 10
Нажмите кнопку «Пуск», а затем выберите «Настройки»> «Обновление и безопасность»> «Активация».
Выберите «Изменить ключ продукта».
Введите ключ продукта, указанный на сертификате подлинности, и следуйте инструкциям. Измените ключ продукта в настройках.

Как я могу активировать Windows 10 бесплатно?

Для активации Windows 10 вам понадобится цифровая лицензия или ключ продукта. Если вы готовы к активации, выберите «Открыть активацию» в настройках. Щелкните Изменить ключ продукта, чтобы ввести ключ продукта Windows 10. Если на вашем устройстве ранее была активирована Windows 10, ваша копия Windows 10 должна быть активирована автоматически.

Как мне найти свой ключ Windows?

Как правило, если вы приобрели физическую копию Windows, ключ продукта должен быть на наклейке или карточке внутри коробки, в которой была установлена ​​Windows. Если Windows была предустановлена ​​на вашем ПК, ваш ключ продукта должен быть указан на наклейке на вашем устройстве.

Как мне найти лицензионный ключ Windows 10?

Найдите ключ продукта Windows 10 на новом компьютере
Нажмите клавиши Windows + X.
Нажмите Командная строка (администратор)
В командной строке введите:
wmic path SoftwareLicensingService получить OA3xOriginalProductKey.
Это покажет ключ продукта. Активация ключа продукта с корпоративной лицензией.

Что произойдет, если вы не активируете Windows?

В настройках появится уведомление «Windows не активирована, активируйте Windows сейчас». Вы не сможете изменить обои, цвета акцента, темы, экран блокировки и так далее. Все, что связано с персонализацией, будет неактивным или недоступным. Некоторые приложения и функции больше не будут работать.

Как долго вы можете использовать Windows 10 без активации?

Пользователи могут использовать неактивированную Windows 10 без каких-либо ограничений в течение одного месяца после установки. Однако это означает, что ограничения для пользователей вступают в силу только через месяц. После этого пользователи увидят несколько уведомлений «Активировать Windows сейчас».

Как получить водяной знак и сообщение об активации из Windows?

Самый простой способ получить сообщение Активировать Товаров не найдено. это просто покупка нового ключа активации Windows.

Является ли Windows 10 пожизненной лицензией?

Windows 10 Домашняя в настоящее время доступна с пожизненной лицензией для одного ПК, поэтому ее можно передать при замене ПК.

Сколько стоит лицензия Windows?

Здесь вы можете найти оригинальные лицензии на Товаров не найдено. примерно на BRL 63

Теперь оставьте это в комментариях, если считаете, что печатать голосом — это круто. Это помогло вам оптимизировать ваше время? Свяжитесь с нами и воспользуйтесь возможностью, чтобы узнать больше о Microsoft Windows на нашем сайте.

Связанный

Почему киберспорт так интересен? Найдите ответ здесь

Продолжай читать Почему киберспорт так интересен?

Присматриваетесь к Everspace 2? тогда посмотрите, стоит ли покупать игру, в нашем обзоре этой космической RPG.

Продолжай читать Обзор Everspace 2: в эту RPG и космический шутер стоит поиграть

Узнайте, как зарабатывать деньги с помощью ChatGPT с помощью программы Bug Bounty.

Продолжай читать Заработайте на тестировании ChatGPT: вознаграждение до 100.000 XNUMX реалов!

Голосовой ввод текста на Андроид: подробная инструкция

Набирать сообщения вручную с телефона — не всегда удобно: например, если писать нужно много и быстро, а ситуация не позволяет это сделать. Но есть вариант получше: голосовой ввод текста. Включить и настроить его можно на любом телефоне под управлением Android с помощью абсолютно бесплатных программ.

Рассказываем в подробностях, как набирать текст голосом на Андроид.

Если вкратце: для этого используются специальные приложения, печатающие по голосу. Самое распространенное и популярное — это клавиатура Gboard от Google, поэтому инструкцию начнем именно с нее.

Как включить голосовой набор текста на Андроид

  1. Скачиваем из Play Market и устанавливаем Gboard. На многих Android-гаджетах эта клавиатура установлена по умолчанию.
  2. По умолчанию функция голосового ввода уже должна быть включена. Но на всякий случай проверьте ее: вызовите клавиатуру в любом месте, нажмите иконку шестеренки и зайдите в меню «Голосовой ввод». Внутри возле соответствующего пункта должен стоять активированный ползунок.
  3. Запускаем приложение, где нужно что-то надиктовать, и открываем клавиатуру. В правом верхнем углу расположен значок микрофона. Жмем на него, и начинаем внятно и раздельно произносить нужные слова. Если вы используете голосовой ввод в первый раз, может потребоваться разрешить Gboard записывать аудио.
  4. Надиктованные слова будут автоматически появляться в текстовом поле. Чтобы остановить запись — прекратите говорить, или нажмите еще раз на значок микрофона. Теперь остается только отшлифовать текст: поставить знаки препинания, или заменить неправильно «услышанные» слова.

Очень выручает голосовой набор текста в Ватсапе и других мессенджерах, но с GBoard он будет работать везде, где есть обычный текстовый ввод.

Лучшие приложения голосового набора на Андроид

Gboard — не единственная клавиатура с голосовым вводом текста. Среди проверенных альтернатив можно выделить следующие программы.

Fleksy

Скачать: Google Play

Существует очень давно, в 2014 году попала в Книгу рекордов Гиннеса, как самая быстрая мобильная клавиатура в мире. Из ее плюсов:

  • поддерживаются расширения: например, можно добавить панель с гифками и эмодзи;
  • есть гибкая настройка дизайна: доступно несколько десятков тем и размеров самой клавиатуры;
  • можно создавать быстрые кнопки, привязывая на них часто используемые слова.

Яндекс.Клавиатура

Скачать: Google Play

Существует давно, но голосовым набором и многими современными фишками обзавелась позже конкурентов. Как и Gboard, клавиатура от Яндекса имеет встроенный переводчик, поддерживает свапы, смайлики-гифки-эмодзи-стикеры, и ввод с помощью голоса. Может подстраиваться под вашу манеру общения, собирая свой «словарь» из необычных фраз и целых предложений.

Другие приложения

Кроме Gboard, Fleksy и Яндекса в Google Play можно найти и другие варианты клавиатур с голосовым набором. Однако нормальных среди них мало: либо распознавание работает плохо, либо нет русского языка, либо страдает другой функционал. Поэтому выбирать лучше из вариантов, которые мы перечислили.

А если вас интересует, как печатать голосом на телефоне заметки, то тут выбор будет куда обширнее. Такая функция есть у Evernote, Speechnotes, Speechpad, dSpeechtexter, T2S, и еще у кучи сервисов для ведения заметок.

Что такое голосовая печать?

Голосовой отпечаток — это цифровая модель уникальных голосовых характеристик человека, которая, как и другие биометрические данные, такие как распознавание лиц и снятие отпечатков пальцев, использует машинное обучение (ML), чтобы помочь компаниям установить личность своих клиентов.

Как именно они работают? Традиционные голосовые биометрические системы используют так называемое «извлечение признаков» из одной или нескольких выборок речи. Этот процесс извлечения признаков, распространенный при работе с алгоритмами машинного обучения, создает персонализированные расчеты вокальных характеристик человека, которые, в свою очередь, создают универсальную фоновую модель или «UBM».

UBM — это, по сути, группа различных голосовых отпечатков, которая служит хранилищем для будущих голосовых отпечатков, с которыми можно сравнивать. По сути, новый образец речи сравнивается как с личным голосовым отпечатком человека, так и с UBM. Различия в оценках рассчитываются для получения единой оценки, которую затем можно интерпретировать как «пройдено» или «неудовлетворительно», в зависимости от желаемой достоверности для сценария использования.

Более поздние формы голосовой печати включают глубокие нейронные сети (DNN), которые, как и UBM, полагаются на обработку сотен часов репрезентативных образцов речи. Чтобы проверить пользователя, образец речи оценивается по точно настроенной модели DNN, чтобы получить оценку, которую снова можно интерпретировать как «пройдено» или «не пройдено» в зависимости от желаемой достоверности для сценария использования.

Эти формы сбора данных быстро расширились за последние годы, поскольку голосовые помощники, такие как Siri от Apple и Alexa от Amazon, разработали способы лучше понимать не только то, что мы говорим, но и кто это говорит, с поразительной точностью. Здесь хорошо различать распознавание речи и печать голоса. Голосовая печать отличается от распознавания речи только в том смысле, что, хотя распознавание речи понимает произносимые слова, с помощью голосовой печати можно определить, кто их произносит. Но эта технология применяется не только в голосовых помощниках.

Сегодня колл-центры, например, используют ИИ для анализа поведения людей во время телефонных звонков, разрабатывают профили людей, изучая «тон, темп и высоту каждого отдельного слова», чтобы разрабатывать профили клиентов и увеличивать продажи.

Как мы уже подчеркивали в нашем отчете о разговорном ИИ, разговорный интеллект способен преобразовывать огромные объемы неструктурированных данных в мощные стратегические идеи в режиме реального времени.

В течение следующих нескольких лет Big Voice, как известно, будет стоить до 20 миллиардов долларов в год, и по мере роста рынка растут и требования дальнейшего регулирования этой технологии.

Основания для защиты, конечно, обоснованы. Сегодня клиенты используют свой голос для всего, от паролей до платежей, и многие из них собирают эти данные, не обращая внимания на нарушения конфиденциальности. Например, в прошлом году TikTok незаметно изменил свою политику конфиденциальности, чтобы начать собирать голосовые отпечатки.

Но тот факт, что есть люди, которые могут использовать эту технологию более неэтично, чем другие, не отменяет того факта, что голосовая печать может быть ценным инструментом для получения информации из контакт-центров, социальных сетей и других точек взаимодействия с клиентами.

Когда несколько лет назад я брал интервью у главы Google, он подчеркнул, что разговор — древнейшая форма общения, и только позже буквы и формулировки стали актуальными для человечества. Как глава голосового управления Google, он сказал бы это, но технология записи голосовых данных набирает обороты с каждым днем, поэтому печать голоса может быть самой честной формой сбора данных.

Из ваших губ на ваш принтер

Наконец, программное обеспечение для распознавания голоса, которое (почти) оправдывает свое обещание освободить тех, кто не может или не хочет печатать.

Джеймс Фаллоуз

Сохраненные истории

В ТЕЧЕНИЕ многих лет я точно знал, что должен делать компьютер, чтобы стать вдвое более полезным, чем он уже был. Он должен был показать, что может точно преобразовывать звук разговорной речи в печатный текст. Я имел в виду конкретную рутинную работу для такой машины. Я отдавал ему магнитофонные записи, которые делал во время интервью или выступлений, и он возвращал мне расшифровку того, кто что сказал. Это сэкономило бы два или три часа, необходимые для прослушивания и набора записанного материала за каждый час.

Эта машина будет полезна и другим людям. Это поможет группам, которым нужны протоколы совещаний или мозговых штурмов, юристам, которым нужны быстрые расшифровки того, что только что произошло на судебных процессах, студентам в больших лекционных залах, людям, которые хотят диктовать электронную почту, застряв в пробке, и тем, кто, из-за инвалидности или стрессовой травмы не могут печатать.

В течение многих лет я отчаялся, что такая машина когда-либо будет существовать. Демонстрации, которые я видел на компьютерных выставках, начиная с середины 19-го80-х, у меня сложилось впечатление, что речевой барьер в технологиях так же серьезен, как гематоэнцефалический барьер в медицине. На выставках создатель каждой новой системы аккуратно произносил фразу, которую компьютер точно воспроизводил на своем экране. Но если кто-нибудь из аудитории попросит показать, как компьютер обрабатывает другую фразу, или если кто-то с другим голосом попытается повторить ту же фразу, система будет поставлена ​​в тупик. Демонстратор начинал говорить о новой отличной версии, которая будет доступна в следующем году.

Закаленный этим опытом, я не решаюсь сказать то, что собираюсь сказать, но вот оно: возможно, вышла отличная новая версия — или, по крайней мере, значительно улучшенная версия. Он пока не делает то, о чем я мечтаю, но делает важные вещи хорошо.

Люди в компьютерной индустрии в основном воодушевлены бизнес-потенциалом «встроенной» технологии распознавания голоса. Это варьируется от знакомых речевых опций в системах голосовой почты («Чтобы держать их вечно, пожалуйста, нажмите или скажите «два») до портативных устройств, которые будут записывать голосовые встречи или телефонные номера. Встроенные системы имеют очень широкий спектр потенциальных применений, и их технически проще реализовать, чем полные системы «диктовки», которые стремятся позволить пользователю сказать все, что он мог бы в противном случае ввести с клавиатуры. Они проще, потому что варианты, которые система должна учитывать, ограничены: после того, как система голосовой почты попросит вас нажать или сказать «два», она не обязана различать «два» от «до» или « слишком. » Нужно только знать, что все они, а также «роса» и «до» звучат одинаково — и отличаются от «четырех», «для» и «наливных» или «трех», «дерево» и «начало». .»

То, что я нахожу захватывающим, так это дебют первой правдоподобной технологии диктовки. Он исходит от Dragon Systems из Ньютона, штат Массачусетс, и называется Dragon NaturallySpeaking. Dragon был небольшим, но вызывающим восхищение соперником в этой области уже более десяти лет; в этом году она была приобретена Lernout & Hauspie, бельгийской фирмой, которая боролась с IBM за лидерство в коммерческой технологии распознавания речи. Выпустив в августе 5-ю версию NaturallySpeaking, компания Lernout & Hauspie получила преимущество в технологии диктовки. Теперь я знаю, что если бы у меня перестали работать руки, я все равно мог бы хотя бы написать электронное письмо.

Существует три ведущих системы диктовки, и каждую из них легко опробовать самостоятельно, поскольку на каждую из них распространяется 30-дневная гарантия возврата денег. NaturallySpeaking Preferred стоит 199 долларов; ViaVoice Advanced Edition от IBM стоит 99,95 долларов США; и Voice Xpress Advanced (который я не рассматривал), также от Lernout & Hauspie, стоит 79 долларов. То, что они предлагают, и то, как они работают, очень похоже. Каждый поставляется с компакт-диском для установки, подробным руководством по эксплуатации (и учебным пособием на экране), а также гарнитурой и микрофоном в стиле телефонного оператора. Вы подключаете шнур гарнитуры к звуковой карте или аудиопорту вашего компьютера (то, что есть во всех современных системах). Гарнитура предназначена для того, чтобы держать микрофон очень близко ко рту, где он должен быть для точного распознавания.

Обе программы требуют большой скорости обработки и дискового пространства. Они работают лучше и быстрее, если могут загружать большую часть своих справочных данных на ваш жесткий диск, а не читать их с компакт-диска, поэтому для установки у вас должно быть не менее 300 мегабайт свободного места на диске. Обе программы удовлетворительно работали на моем трехлетнем компьютере Pentium II, но говорят, что они значительно быстрее работают на Pentium III, который включает расширенные функции для обработки звука. Каждая программа требует, чтобы вы начали с того, что потратили от десяти до тридцати минут на чтение образца текста на компьютере, чтобы его можно было «обучить» по образцам вашего голоса, и каждая позволяет проводить более короткие поэтапные обучающие сеансы для улучшения распознавания по мере продвижения.

Основное различие между программами, по крайней мере для меня, в том, что Dragon просто работает лучше. Чтобы быть более точным, его скорость распознавания достаточно высока, чтобы я охотно внес небольшие коррективы в свой стиль работы, необходимые для использования системы. Плата за обучение работе с системой IBM была слишком низкой. В конце первого дня, когда я попробовал программу Dragon, она распознала почти все, что я сказал, и мне не составило труда убедить ее, что некоторые инструкции — например, «перейти в конец строки» — предназначены для управления самой программы, а не быть напечатанным. Мы с ViaVoice как будто дрались друг с другом, и через неделю я его убрал. Dragon также был постоянным победителем в обзорах компьютерных журналов.

ВЫ можете подумать, что хитрость в том, чтобы заставить эти программы работать, состоит в том, чтобы говорить медленно и отделять каждое слово от соседнего. На самом деле скорость распознавания снижается, если вы говорите искусственно, потому что анализ каждого слова зависит от того, услышите ли вы его с соседями. Звук uh в английском языке, который лингвисты называют шва, мало что значит сам по себе, но в словах, произносимых как «я хочу колу» и записываемых как «я хочу колу», хорошая система распознает шва как слово «а». » Дэвид Леффелл — профессор медицинской школы Йельского университета, который начал использовать Dragon два года назад и теперь использует его в большинстве своих текстов, от электронной почты до журнальных статей. «Я говорю быстро, — сказал он мне в (продиктованном) сообщении электронной почты, — и был рад обнаружить парадокс, что Dragon NaturallySpeaking на самом деле плохо работает с людьми, которые говорят медленно. У меня есть коллега, который не смог чтобы тренировать его систему из-за его более медленного стиля речи».

Вместо того, чтобы говорить медленно, важно использовать то, что я называю «голосом по радио», то есть притвориться, что вы ведущий Национального общественного радио, и говорить как можно звучнее, сохраняя при этом свой язык танцующим во рту. правильно произносить все звуки и изо всех сил стараться не пропускать слоги или целые слова, которые люди пропускают в обычной речи. Это требует практики, и вы не хотите делать это в оживленном офисе, но в этом есть некоторые прелести пения в душе. Чем больше вы пользуетесь программой, тем лучше она работает, потому что каждый раз, когда вы исправляете ошибку или используете новое словарное слово, она корректирует свои «вероятностные» модели преобразования звуков в слова. Главная опасность программы заключается в том, что она требует исключительно тщательной корректуры, потому что она будет пропускать или вставлять слова или угадывать, но правильно произносить неправильные слова. Таким образом, проверка орфографии бесполезна.

Как системы вообще это делают? Фундаментальная наука о распознавании речи в значительной степени математическая, основанная на расчетах вероятностей и «теории информации» — исследовании обнаружения значимых закономерностей в мутных, запутанных данных. (В недавней книге Дэниела Джурафски и Джеймса Мартина из Университета Колорадо все это объясняется на 900 страницах, которые двигаются вперед.) Программное обеспечение для распознавания речи можно сравнить с системами улучшения изображения, которые делают выводы о том, как будут выглядеть размытые фотографии. если бы фокус был резким. Для распознавания речи размытое изображение представляет собой серию звуковых волн, производимых говорящим; цель состоит в том, чтобы выяснить, какое предложение, скорее всего, было источником этих звуков. «Скорее всего» — лучшее, что могут сделать программы, потому что так много разных слов и фраз произносятся одинаково («Я хочу Ford или Chevy» / «Я хочу четырехдверный Chevy»), и говорящие могут произнести одну и ту же фразу на так много разных способов. Программы становились все более удобными не в результате какого-либо резкого концептуального прорыва, а в результате медленного и неуклонного улучшения расчетов вероятностей.

Процесс угадывания наиболее вероятного предложения состоит из трех этапов. Во-первых, компьютер улавливает звуковые волны, генерируемые динамиком, пытается отфильтровать их от кашля, хмммм, и бессмысленного фонового шума и ищет наилучшее соответствие доступным фонемам. (Фонема — основная единица устной речи. Английский звук t , например, записывается как фонема /t/ и встречается по меньшей мере в полудюжине разновидностей, или «аллофонов», в зависимости от того, звук придыхательный, как в слове «игрушка», без придыхания, как в слове «печать», дентальный, как в слове «широта», или присутствует в одной из нескольких других форм.) Поскольку люди говорят не отдельными словами, а фразами, следующий этап распознавания заключается в группировании потока фонем в наиболее вероятное сочетание слов. Заключительный этап состоит в том, чтобы оценить все возможные предложения, которые могли предположительно произвести группу звуков, и вычислить наиболее вероятную возможность. Программное обеспечение оценивает то, что вероятно, используя огромные базы данных фактического письменного и разговорного языка, которые накопили разработчики программного обеспечения, проверяя, какие слова могут появиться рядом с какими другими.

Я так и не получил удовлетворительного ответа от академических и корпоративных исследователей на один вопрос о базах данных: почему, если преобладающее количество проанализированного материала находится на английском языке, считается, что распознавание речи работает более или менее одинаково хорошо на различных языках? До недавнего времени, конечно, это не очень хорошо работало ни на одном языке. Объяснение, которое я получил, заключалось в том, что постоянный рост скорости вычислений увеличил практическую ценность баз данных. Когда вероятности вычисляются пословно, они дают ограниченное руководство для систем распознавания. Люди говорят «я» чаще, чем «глаз» или «да», поэтому компьютер, интерпретирующий единственную фонему /ay/ сделает это наиболее вероятным выбором: «Я». Но компьютеры теперь достаточно быстры, чтобы выполнять «триграммный анализ» входящего потока фонем — чтобы определить, насколько вероятно каждое слово на основе двух предшествующих ему слов, каждое из которых было оценено с наибольшей вероятностью на основе двух предшествующих ему слов. и так далее. Это приводит к гораздо более точным догадкам: «Шкипер сказал «да», «Мне нужна коррекция правого глаза», «Компьютер от IBM».

ЯВЛЯЕТСЯ ЛИ СТОИМОСТЬЮ все это — усилия дизайнеров по созданию программы и пользователей по обучению ее использованию? Прежде чем я начал этот проект, я был уверен, что ответ будет отрицательным. Все, кто занимается распознаванием речи, подчеркивают, что программы не рассчитаны на людей, которые много печатают и умеют это делать очень быстро. Скорее, они предназначены в качестве добавок для людей, у которых есть физические или косвенные причины избегать набора текста, людей, которые так и не научились хорошо печатать, людей, которым необходимо диктовать во время вождения или когда их руки или глаза заняты. У меня нет таких причин отказываться от набора текста, но теперь я рассматриваю Dragon как действительно правдоподобную альтернативу.

Например (и вы, без сомнения, это предвидели), в качестве пытки я сочинил всю эту статью под диктовку Дракону. На техническом уровне опыт был на удивление безболезненным. После того, как я «обучил» систему моему голосу, я часто произносил шесть или восемь предложений, не исправляя транскрипцию. Это более длинный отрывок, чем я могу напечатать без ошибок, хотя быстрее исправлять опечатки на клавиатуре, чем голосом. Например, чтобы изменить «had» на «hat», требуется два нажатия клавиш — backspace и 9.0055 т ; с Драконом вы говорите: «Выберите «был». ‘ Шляпа. ‘» И то, и другое легко, но разговор занимает на несколько секунд больше.

Технология работала достаточно хорошо, чтобы я мог переключить свое внимание на более высокие вопросы, особенно на связь средств композиции со стилем и содержанием мысли. Когда компьютеры впервые получили широкое распространение, многие ученые утверждали, что они положат конец тщательному письму. Если бы было так легко напечатать столько копий, люди бы не думали, прежде чем писать, и мы все отправились бы в ад. Верните карандаш и пачку бумаги! (Кстати, Dragon с первого раза правильно понял «сноп дурака», но подумал, что «иди к черту» должно быть «иди на помощь».) Письменность, возможно, действительно изменилась в компьютерную эпоху, но причины не имеют большого значения. средствами композиции. Вместо этого это распространение электронной почты, которая заменила телефонные звонки, а не написание эссе гусиным пером, а также более короткие периоды внимания, поощряемые рекламой, телевизионными программами и Интернетом.

Я обнаружил, что попытка сочинять вслух дает гораздо больший сдвиг, чем переход от пишущей машинки к компьютеру. Диктовка прозы, вероятно, покажется более естественной для тех, кто привык писать ручкой или карандашом, от чего я отказался в пользу пишущей машинки после пятого класса. Что общего у написания ручкой или карандашом и распознавания речи, так это то, что вы должны продумать большую часть или все предложение, прежде чем начать его записывать, чтобы избежать неприятностей, связанных с написанием его снова или с фразой «Выберите строку — удалите это». Дракон. Когда я сочиняю на компьютере, я обычно набираю предложение двадцатью разными способами, пытаясь понять, что с ним делать.

Как и большинство людей, которые никогда не начинали сеанс письма со слов «Мисс Джонс, возьмите записку!», я смотрел на диктовку свысока, считая ее подходящей только для самых утилитарных документов. Но для некоторых людей это может быть освобождением. Дэвид Леффелл, преподающий дерматологию в Йельском университете, написал целую книгу, продиктовав Драгону большую часть черновика и исправлений. «Я привык диктовать материал для начала, так что это просто исключает этап транскрипции», — сказал он мне по электронной почте. «Голосовой диктант — это инструмент, который сокращает расстояние между моими нейронами и чернилами на странице. Таким образом, он приближает нас к научно-фантастической фантазии о мозговом чипе, который автоматически загружает наши мысли на страницу».

Вот как это у него работает. Но когда пришло время пересматривать эту статью, я обнаружил, что должен вернуться к клавиатуре.