Перенос аудиоинформации на бумажные носители
В последние время для записи встреч, совещаний или переговоров часто вместо стенографирования используют диктофон. В такой практике есть свои плюсы и минусы. К плюсам можно отнести более высокую точность записи, возможность записи высказываний нескольких одновременно говорящих участников встречи (так бывает, когда на совещании возникают противоречия или при ограниченности времени каждый торопиться высказать свое мнение), кроются в проблеме переноса аудиоинформации на бумагу.
Кстати
Для того чтобы набрать текст одного часа переговоров, понадобится от 2-х до 4-х часов – в зависимости от скорости речи говорящих, наличия последовательного или синхронного перевода, количества одновременно говорящих участников.
7 % против 93 %
Перенос текста с аудионосителя на бумагу – это своего рода перевод, только не с одного языка на другой, а из устной речи в письменную. И здесь есть свои нюансы.
Психологи утверждают, что 55 % информации передается с помощью невербальных средств (мимика, жесты, телодвижения), 38 % – с помощью интонации, тембра, скорости речи, в то время как сами слова несут в себе только 7 % информации.
В письменной речи, особенно в деловом стиле, отсекается любая экспрессия, смысловые акценты, расставленные с помощью фонетических средств. Что же остается? Собственно слова, те самые 7 %, в которые необходимо вместить все, что было на совещании.
При произношении формирование фразы происходит одновременно с высказыванием, а невербальные средства (те самые 93 %, не попавшие на бумагу) позволяют верно понять информацию. Поэтому некоторая корявость, свойственная устной речи, не мешает воспринимать информацию. Но на бумаге все по-другому. Текст, набранный на бумаге так, как он был сказан, со всеми словами-паразитами, вводными словами, «мыслями вслух», может потерять свой смысл, точно также как теряет смысл дословный перевод с одного языка на другой.
Что понадобится?
Чтобы успешно переносить информацию с аудионосителя, стоит приобрести специализированное оборудование и программное обеспечение. Например, программа Transcriber запускает на компьютере одновременно Word и аудиопроигрыватель. С Word’ом работают как обычно, а аудиопроигрывателем нужно управлять с панели, которая подключается к USB-порту и размещается под столом. На панели располагаются две или три ножные педали, с помощью которых и происходит управление аудиозаписью. Режим управления сотрудник выбирает на свое усмотрение. Можно использовать, например, перемотку вперед или назад (последнюю удобнее ставить всего на несколько секунд – две или три секунды при одном нажатии на педаль), паузу, установить регулировку уровня громкости. Диктофон редко располагается на одинаковом расстоянии по отношению ко всем участникам встречи, а значит, чей-то голос будет звучать очень громко, а чей-то слишком тихо.
Можно, конечно, не использовать специальных программ и набирать текст прямо с диктофона, но придется постоянно отрывать руки от клавиатуры, останавливать и перематывать запись, что значительно увеличивает трудозатраты.
Понадобятся также наушники. Наушники не должны пропускать посторонние звуки и давать четкий, чистый звук без помех.
Трудности идентификации
Прежде чем приступить к набору текста, необходимо уточнить количество участников встречи и их имена. Если в беседе принимали участие сотрудники других организаций, хорошо было бы получить копии их визиток, чтобы без ошибок указать имена и должности. Будет неплохо, если секретаря ознакомят с материалами, которые были представлены на встрече.
Если в мероприятии участвуют люди незнакомые или мало знакомые, запись лучше начать чуть раньше, еще на стадии представления участников переговоров. Это необходимо для того, чтобы секретарь мог услышать их голоса – в дальнейшем это поможет распознавать говорящих. Голос, воспроизводимый в записи, часто отличается от голоса в реальной жизни. если такая запись не была сделана, придется ориентироваться по ситуации. Возможно (часто так и бывает), кто-то назовет «владельца» незнакомого голоса по имени, и это даст возможность его идентифицировать. Кроме того, следует иметь в виду, что во время двухсторонних переговоров обычно говорит только руководитель одной из сторон, как правило, это человек, занимающий самую высокую должность. Если из записи непонятно, кто именно вел переговоры со стороны гостей, это можно уточнить у сотрудников компании, принимавших участие в переговорах. У них также можно узнать имя человека, которого не удалось узнать по голосу и который не был назван во время переговоров. Если вы так и не узнали кого-то из участников встречи, придется сдавать работу с таким результатом.
Очень удобно набирать текст, если переговоры шли в сопровождении последовательного перевода: одна и та же мысль высказывается дважды, и это дает достаточно времени для того, чтобы набрать запись с минимальным количеством остановок и прокруток назад. Сложнее работать, если последовательного перевода нет, и очень сложно, когда несколько человек говорят одновременно. К сожалению, человеческий мозг в этой ситуации не позволяет все хорошо расслышать и понять. В этом случае запись приходится несколько раз перематывать назад, чтобы услышать каждого участника, обнаружить новые высказывания, идеи.
Начинаем набирать
Для удобства можно заранее подготовить шаблон документа: установить расстояние между строками, поставить тире перед строками с прямой речью. Word позволяет облегчить набор информации. Например, можно вместо полных имен участников переговоров ставить только инициалы строчными буквами без точек, а длинные сложные термины печатать в сокращенном виде, а затем воспользоваться автозаменой и заменить все черновые названия и инициалы.
Во время переноса текста на бумагу можно опускать вводные слова, слова-паразиты, «мысли вслух», неверные, а затем исправленные самим автором высказывания . В напечатанном виде они затрудняют восприятие информации. Можно придавать слишком корявым фразам грамматически правильную форму – главное, чтобы все эти изменения не меняли смысл высказывания.
Набрав весь текст, проверьте, нет ли грамматических ошибок. Прослушайте запись еще раз, сверяя ее с набранным текстом.
Ценная идея
Иногда бывает так, что высказанную одним из участников идею никто не услышал. Она так и осталась бы незамеченной, если бы не было переноса информации с диктофона на бумагу. Каждая такая идея должна быть зафиксирована. Если одну и ту же идею высказали несколько человек, достаточно напечатать высказанную мысль только того, кто выше по рангу.
Стоит обратить внимание на моменты, когда не мысль следует за говорящим, а говорящий – за мыслью. Начав говорить об одном, он, не закончив высказывания, переходит на другую тему, потом – на третью, и так далее… В итоге – фраз много, а общей идеи нет. Если вы не смогли выделить ключевую мысль высказывания или несколько основных мыслей, лучше все оставить так, как есть, убрав только слова-паразиты. Помните: вы работаете с чужой мыслью и именно ее переносите на бумагу. Относитесь к ней бережно, даже если она вам непонятна.
Наши советы
■ Если во время встречи обсуждаются презентации, то эти моменты можно не вносить в запись. Как показывает практика, в таких случаях речь идет о том, что изображено в презентации. Таблицы, рисунки, схемы в запись не вставляются.
■ Иногда бывает так, что сколько ни прокручивай запись, чье-то высказывание так и не получается расслышать и понять. Не вносите его в текст. Во-первых, вам нечего писать, а во-вторых, если вы, потратив немало времени на то, чтобы понять человека, так и не смогли этого сделать, то, скорее всего, этого не смог сделать никто из участников встречи, поскольку слышали это высказывание только один раз в шуме голосов.
■ Иногда в речи говорящих проскальзывают незнакомые слова и термины. Уточнить написание и значение этих слов в словарях или Интернете.
Ю.В. Еремеева,
зав. канцелярией, член Клуба профессиональных секретарей
www.profiz.ru
Цифровые устройства для записи видео и звука. Программы для воспроизведения и записи
Для преобразования непрерывного звукового сигнала в дискретную форму (оцифровки), нужно заменить непрерывно звучащий сигнал отсчетами значений сигнала в определенные моменты времени. Количество отсчетов сигнала за единицу времени называется
Для цифровой записи аудиоинформации с последующей обработкой ее на компьютере используются микрофоны, диктофоны (Рис. 1).
Рис. 1. Микрофон и цифровой диктофон
Для записи видеоинформации используют цифровые видеокамеры, цифровые фотоаппараты, веб-камеры, мобильные телефоны (Рис. 2).
Рис. 2. Средства для записи видеоинформации
Каждое из этих устройств имеет сменную карту памяти и USB-кабель, позволяющий подключиться к компьютеру. При подключении операционная система находит данное устройство и считывает с него файлы для сохранения на жесткий диск или, при необходимости, для сохранения на внешний носитель.
Для воспроизведения видео файлов предназначены специальные программы – плееры, самые распространенные из них: проигрыватели Winamp, QuickTime, Windows Media Player, DVD-проигрыватель (Рис. 3).
Рис. 3. Проигрыватели
Кроме того, популярны DVD-проигрыватель Nero ShowTime, который входит в пакет программ для записи дисков, KM Player, RealPlayer, Adobe Media Player (Рис. 4).
Рис. 4. Проигрыватели
С их помощью можно скачивать и просматривать видеоролики, размещенные на сайтах в Интернете. Список программ для воспроизведения видео не ограничивается только теми, что мы рассмотрели, появляется много новых программ, которые, кроме функции воспроизведения, содержат и дополнительные возможности: запись на DVD, отображение текста песен, имеют графический эквалайзер для коррекции звука.
Для записи звука с микрофона в операционной системе Windows предназначена специальная программа – звукозапись.
Основные форматы звуковых файлов
1. Wav – волновой (waveform). Стандартные параметры записи в этом формате соответствуют качеству аудио-компакт-диска.
2. Midi (Musical Instruments Digital Interface) – цифровой интерфейс музыкальных инструментов.
3. MP3 – самый распространенный формат хранения и сжатия звука, разработанный для обмена звуком через Интернет.
Форматы .wav и .mp3 более известны, формат .midi встречается реже – это специальный формат, который представляет собой набор инструкций, команд специального устройства – синтезатора, имитирующего звучание музыкальных инструментов. Фактически это нотная запись, так как среди этих инструкций есть информация по высоте звука, длительности звука с указанием конкретного инструмента, звучание которого воспроизводится.
Если сравнивать объемы памяти, которую занимают файлы, записанные в разных форматах, то самый большой формат требуют файлы формата .wav, значительно меньший объем занимают файлы формата .mp3 и наименьший объем памяти требуют файлы формата .midi.
Не во все электронные документы можно вставлять звуковые файлы любых форматов, так, в презентации можно вставлять звуковые файлы формата .wav, звуковые файлы формата AUDIO CD, но при этом диск с записью музыкального фрагмента должен быть вставлен в дисковод. При вытаскивании диска из дисковода звук в презентации воспроизводиться не будет, потому что вставить звук этого формата и связать с презентацией можно, а внедрить в нее нельзя. Для этого необходимо звук из одного формата конвертировать в другой, используя программу-конвертер.
Конвертирование – преобразование из одного формата в другой. При постановке диска со звуком в дисковод и запуске программы сразу отобразятся все аудиодорожки в окне программы. Мы выбираем дорожку и конвертируем ее в выбранный формат, это произойдет практически без потери качества.
Для хранения такой информации требуются большие объемы памяти, но аудио- и видеоинформацию можно сжать, сжатие происходит за счет игнорирования незначительных несущественных деталей или устранения избыточности кадров, то есть временное и пространственное сжатие. Для сжатия аудио- и видеоинформации используются специальные программы – кодеки.
Кодек сжимает и распаковывает файлы записи песен или видео, проигрыватель Windows Media и другие приложения используют кодеки для воспроизведения или создания файлов мультимедиа.
Кодек может состоять из двух компонентов: кодировщика, который сжимает файл мультимедиа (кодировка), и декодера, распаковывающего этот файл (декодирование). Одни кодеки включают в себя оба компонента, другие – только один из них. Эти программы используются для преобразования видео- и аудиофайлов в выбранный формат.
Основные форматы видеофайлов
1. MPEG4 – алгоритм сжатия MPEG, самый распространенный.
2. AVI – аббревиатура названия Audio Video Interleave, означающего «чередование аудио и видео».
3. WMV – формат Windows Media.
4. DVD – формат Digital Versatile Disc.
5. FLV – формат flash-видео.
6. MOV – формат Apple QuickTime.
Основные кодеки
1. DivX – самый распространенный кодек стандарта MPEG4.
2. Xvid – открытый кодек, основанный на одной из версий DivX.
3. x264 – кодек для сжатия в стандарте H.264.
Среди распространенных конвертеров можно выделить AVS Video Converter, Xilisoft 3GP Video Converter, Free Video To Flash Converter (Рис. 5).
Рис. 5. Конвертеры
Если в название конвертера есть слово free, значит этот конвертер бесплатный. Функциями конвертирования обладают и видеоредакторы, конвертирование можно выполнять и онлайн, с помощью специальных интернет-сервисов, которые позволяют преобразовывать видео в более удобные для нас форматы.
Мы рассмотрели основные цифровые устройства для записи и воспроизведения звуковых файлов, программы для воспроизведения, конвертеры и кодеки, с помощью которых мы можем сжимать, записывать и прослушивать звуковые файлы.
Список литературы
1. Угринович Н.Д. Информатика -9. – М.: БИНОМ. Лаборатория знаний, 2012.
2. Гейн А.Г., Юнерман Н.А. Информатика-9. – М.: Просвещение, 2012.
3. Соловьева Л.Ф. Информатика и ИКТ. Учебник для 9 класса. – СПб.: БХВ-Петербург, 2011.
Дополнительные рекомендованные ссылки на ресурсы сети Интернет
1. Интернет-сайт dic.academic.ru (Источник)
2. Интернет-сайт teatrbaby.ru (Источник)
3. Интернет-сайт metod-kopilka.ru (Источник)
Домашнее задание
1. Назовите основные программы для воспроизведения звуковых файлов.
2. Что такое конвертирование?
3. Как хранятся и сжимаются звуковые файлы?
interneturok.ru
Представление видеоинформации в компьютере — урок. Информатика, 10 класс.
Когда говорят о видеозаписи, прежде всего имеют в виду движущееся изображение на экране телевизора или монитора.
Преобразование оптического изображения в последовательность электрических сигналов осуществляется видеокамерой. Эти сигналы несут информацию о яркости и цвете отдельных участков изображения. Они сохраняются на носителе в виде изменения намагниченности видеоленты (аналоговая форма) или в виде последовательности кодовых комбинаций электрических импульсов (цифровая форма).
Процесс превращения непрерывного сигнала в набор кодовых слов называется аналого-цифровым преобразованием.
Это сложный процесс, состоящий из:
— дискретизации, когда непрерывный сигнал заменяется последовательностью мгновенных значений через равные промежутки времени;
— квантования, когда величина каждого отсчёта заменяется округлённым значением ближайшего уровня;
— кодирования, когда каждому значению уровней квантования, полученных на предыдущем этапе, сопоставляются их порядковые номера в двоичном виде.
По своей сути видеофайл — это набор статичных изображений, меняющих друг друга с определенной частотой. Каждое статичное изображение является отдельным кадром видео. Это действительно так, если мы говорим о несжатом видео. Однако в таком формате никто не хранит фильмы.
Дело в том, что несжатое видео занимает на диске очень много места. Кадр видео формата PAL состоит из \(720\) точек по горизонтали и \(576\) по вертикали. То есть один кадр состоит из \(414720\) точек.
Для хранения цвета каждой точки в памяти отводится \(24\) бита (по \(8\) бит для каждой из составляющих RGB).
Следовательно, для хранения одного кадра понадобится \(9953280\) бит (или примерно \(1,2\) Мбайт).
То есть секунда несжатого видео в формате PAL будет занимать почти \(30\) Мбайт. А один час такого видео — более \(100 \)Гбайт.
Каким же образом полнометражный фильм (а то и несколько) умещается на одном компакт-диске или флеш-накопителе?
Дело в том, что, в основном, видео хранят в видеофайлах, в которых применены различные алгоритмы сжатия информации. Благодаря этим технологиям видеофайл можно сжимать в десятки и сотни раз практически без потери качества картинки и звука.
AVI (Audio Video Interleave) — это контейнерный формат, что означает, что в нём могут содержаться аудио/видео, сжатые различными комбинациями кодирования.
AVI файл может содержать различные виды компрессированных данных (например, DivX для видеоинформации и MP3 для аудио), в зависимости от того, какой кодек используется для кодирования/декодирования. В файле с расширением AVI может храниться несжатое видео, видео в форматах DV, MPEG-4, DivX, Xvid и даже MPEG-1 и MPEG-2. Кроме того, файл формата AVI может, например, содержать в себе только звук. То есть файлы формата AVI являются контейнером для хранения данных различного типа.
Контейнер — это файл с каким либо расширением, служащий для хранения в цифровом виде преобразованной аналоговой информации. Контейнер является файлом некоего стандарта, в котором одновременно может содержаться несколько различных типов информации.
DivX — технология видеозаписи, позволяющая создавать и просматривать медиа файлы с высокой степенью сжатия. Это технология сжатия, которая делает фильм в 8-12 раз меньшим с небольшой потерей качества.
DivX широко используется для сжатия компьютерных видеофайлов и файлов DVD, чтобы они помещались на стандартный CD.
MPEG (Moving Picture Expert Group) — формат, предназначенный для сжатия звуковых и видеофайлов для загрузки или пересылки, например, через Интернет.
Разработан Экспертной группой кинематографии, которая занимается разработкой стандартов кодирования и сжатия видео- и аудиоданных. Существуют разные стандарты MPEG: MPEG-1, MPEG-2, MPEG-3, MPEG-4, MPEG-7. Например, MPEG-4 — стандарт, благодаря которому фильмы можно кодировать в хорошем качестве при низкой скорости передачи данных. Стандарт MPEG-4 в основном используется для вещания (потоковое видео), записи фильмов на компакт-диски, видеотелефонии (видеотелефон) и широковещания, в которых активно используется сжатие цифровых видео и звука.
www.yaklass.ru
Представление звуковой информации в компьютере — урок. Информатика, 10 класс.
Звук представляет собой непрерывный сигнал — звуковую волну с меняющейся амплитудой и частотой.
Чем больше амплитуда сигнала, тем он громче для человека.
Чем больше частота сигнала, тем выше тон.
Частота звуковой волны выражается числом колебаний в секунду и измеряется в герцах (Гц, Hz).
Человеческое ухо способно воспринимать звуки в диапазоне от \(20\) Гц до \(20\) кГц, который называют звуковым.
Количество бит, отводимое на один звуковой сигнал, называют глубиной кодирования звука.
Современные звуковые карты обеспечивают \(16\)-, \(32\)- или \(64\)-битную глубину кодирования звука.
При кодировании звуковой информации непрерывный сигнал заменяется дискретным, то есть превращается в последовательность электрических импульсов (двоичных нулей и единиц).
Процесс перевода звуковых сигналов от непрерывной формы представления к дискретной, цифровой форме называют оцифровкой.
Важной характеристикой при кодировании звука является частота дискретизации — количество измерений уровней сигнала за \(1 \)секунду:— \(1\) (одно) измерение в секунду соответствует частоте \(1\) Гц;
— \(1000\) измерений в секунду соответствует частоте \(1\) кГц.
Частота дискретизации звука — это количество измерений громкости звука за одну секунду.
Количество измерений может лежать в диапазоне от \(8\) кГц до \(48\) кГц (от частоты радиотрансляции до частоты, соответствующей качеству звучания музыкальных носителей).
Чем больше частота и глубина дискретизации звука, тем более качественным будет звучание оцифрованного звука. Самое низкое качество оцифрованного звука, соответствующее качеству телефонной связи, получается при частоте дискретизации \(8000\) раз в секунду, глубине дискретизации \(8\) битов и записи одной звуковой дорожки (режим «моно»). Самое высокое качество оцифрованного звука, соответствующее качеству аудио-CD, достигается при частоте дискретизации \(48 000 \)раз в секунду, глубине дискретизации \(16\) битов и записи двух звуковых дорожек (режим «стерео»).
Необходимо помнить, что чем выше качество цифрового звука, тем больше информационный объем звукового файла.
Оценить информационный объём моноаудиофайла (\(V\)) можно следующим образом: V = N⋅f⋅k, где \(N\) — общая длительность звучания (секунд), \(f\) — частота дискретизации (Гц), \(k\) — глубина кодирования (бит).
Например, при длительности звучания \(1\) минуту и среднем качестве звука (\(16\) бит, \(24\) кГц):
V = 60⋅24000⋅16 бит = 23040000 бит = 2880000 байт = 2812,5 Кбайт = 2,75 Мбайт.
При кодировании стереозвука процесс дискретизации производится отдельно и независимо для левого и правого каналов, что, соответственно, увеличивает объём звукового файла в два раза по сравнению с монозвуком.
Например, оценим информационный объём цифрового стереозвукового файла длительностью звучания \(1 \)секунда при среднем качестве звука (\(16\) битов, \(24 000\) измерений в секунду). Для этого глубину кодирования необходимо умножить на количество измерений в \(1 \)секунду и умножить на \(2\) (стереозвук):
V=16 бит ⋅24000⋅2 = 768000 бит = 96000 байт = 93,75 Кбайт.
Существуют различные методы кодирования звуковой информации двоичным кодом, среди которых можно выделить два основных направления: метод FM и метод Wave-Table.
Метод FM (Frequency Modulation) основан на том, что теоретически любой сложный звук можно разложить на последовательность простейших гармонических сигналов разных частот, каждый из которых представляет собой правильную синусоиду, и, следовательно, может быть описан кодом. Разложение звуковых сигналов в гармонические ряды и представление в виде дискретных цифровых сигналов выполняют специальные устройства — аналогово-цифровые преобразователи (АЦП).
Преобразование звукового сигнала в дискретный сигнал: a — звуковой сигнал на входе АЦП; б — дискретный сигнал на выходе АЦП.
Обратное преобразование для воспроизведения звука, закодированного числовым кодом, выполняют цифро-аналоговые преобразователи (ЦАП). Процесс преобразования звука представлен на рис. ниже. Данный метод кодирования не даёт хорошего качества звучания, но обеспечивает компактный код.
Преобразование дискретного сигнала в звуковой сигнал: а — дискретный сигнал на входе ЦАП; б — звуковой сигнал на выходе ЦАП.
Таблично-волновой метод (Wave-Table) основан на том, что в заранее подготовленных таблицах хранятся образцы звуков окружающего мира, музыкальных инструментов и т. д. Числовые коды выражают высоту тона, продолжительность и интенсивность звука и прочие параметры, характеризующие особенности звука. Поскольку в качестве образцов используются «реальные» звуки, качество звука, полученного в результате синтеза, получается очень высоким и приближается к качеству звучания реальных музыкальных инструментов.
Звуковые файлы имеют несколько форматов. Наиболее популярные из них MIDI, WAV, МРЗ.
Формат MIDI (Musical Instrument Digital Interface) изначально был предназначен для управления музыкальными инструментами. В настоящее время используется в области электронных музыкальных инструментов и компьютерных модулей синтеза.
Формат аудиофайла WAV (waveform) представляет произвольный звук в виде цифрового представления исходного звукового колебания или звуковой волны. Все стандартные звуки Windows имеют расширение WAV.
Формат МРЗ (MPEG-1 Audio Layer 3) — один из цифровых форматов хранения звуковой информации. Он обеспечивает более высокое качество кодирования.
www.yaklass.ru
Как перевести речь в текст? Выбираем лучший сервис распознавания речи
Для того, чтобы распознать речь и перевести её из аудио или видео в текст, существуют программы и расширения (плагины) для браузеров. Однако зачем всё это, если есть онлайн сервисы? Программы надо устанавливать на компьютер, более того, большинство программ распознавания речи далеко не бесплатны.
Большое число установленных в браузере плагинов сильно тормозит его работу и скорость серфинга в интернет. А сервисы, о которых сегодня пойдет речь, полностью бесплатны и не требуют установки – зашел, попользовался и ушел!
В этой статье мы рассмотрим два сервиса перевода речи в текст онлайн. Оба они работают по схожему принципу: Вы запускаете запись (разрешаете браузеру доступ к микрофону на время пользования сервисом), говорите в микрофон (диктуете), а на выходе получаете текст, который можно скопировать в любой документ на компьютере.
Speechpad.ru
Русскоязычный онлайн сервис распознавания речи. Имеет подробную инструкцию по работе на русском языке.
Среди основных функций «Голосового блокнота» (так сам автор называет свой сервис) следует выделить:
- поддержку 7 языков (русский, украинский, английский, немецкий, французский, испанский, итальянский)
- загрузку для транскрибации аудио или видео файла (поддерживаются ролики с YouTube)
- синхронный перевод на другой язык
- поддержку голосового ввода знаков препинания и перевода строки
- панель кнопок (смена регистра, перевод на новую строку, кавычки, скобки и т.п.)
- наличие персонального кабинета с историей записей (опция доступна после регистрации)
- наличие плагина к Google Chrome для ввода текста голосом в текстовом поле сайтов (называется «Голосовой ввод текста — Speechpad.ru»)
Dictation.io
Второй онлайн сервис перевода речи в текст. Иностранный сервис, который между тем, прекрасно работает с русским языком, что крайне удивительно. По качеству распознавания речи не уступает Speechpad, но об этом чуть позже.
Основной функционал сервиса:
- поддержка 30 языков, среди которых присутствуют даже венгерский, турецкий, арабский, китайский, малайский и пр.
- автораспознавание произношения знаков препинания, перевода строки и пр.
- возможность интеграции со страницами любого сайта
- наличие плагина для Google Chrome (называется «VoiceRecognition»)
В деле распознавания речи самое важное значение имеет именно качество перевода речи в текст. Приятные «плюшки» и вохможности – не более чем хороший плюс. Так чем же могут похвастаться в этом плане оба сервиса?
Сравнительный тест сервисов
Для теста выберем два непростых для распознавания фрагмента, которые содержат нечасто употребляемые в нынешней речи слова и речевые обороты. Для начала читаем фрагмент поэмы «Крестьянские дети» Н. Некрасова.
Ниже представлен результат перевода речи в текст каждым сервисом (ошибки обозначены красным цветом):
Как видим, оба сервиса практически с одинаковыми ошибками справились с распознаванием речи. Результат весьма неплохой!
Теперь для теста возьмем отрывок из письма красноармейца Сухова (к/ф «Белое солнце пустыни»):
Отличный результат!
Как видим, оба сервиса весьма достойно справляются с распознаванием речи – выбирайте любой! Похоже что они даже используют один и тот же движок — уж слижком схожие у них оказались допущенные ошибки по результатам тестов ). Но если Вам необходимы дополнительные функции типа подгрузки аудио / видео файла и перевода его в текст (транскрибация) или синхронного перевода озвученного текста на другой язык, то Speechpad будет лучшим выбором!
Кстати вот как он выполнил синхронный перевод фрагмента поэмы Некрасова на английский язык:
Ну а это краткая видео инструкция по работе со Speechpad, записанная самим автором проекта:
Друзья, понравился ли Вам данный сервис? Знаете ли Вы более качественные аналоги? Делитесь своими впечатлениями в комментариях.
webtous.ru
Устройства и системы записи и воспроизведения информации
Жизнь современного общества трудно представить без систем записи и воспроизведения информации.
Действительно, подавляющее большинство программ радио и телевизионного вещания записываются заранее и в нужное время воспроизводятся для передачи в эфир.
Огромное количество магнитофонов и видеокамер используется для записи и воспроизведения информации бытового назначения (музыка, кинофильмы).
Устройства записи и воспроизведения информации являются неотъемлемой частью ЭВМ.
Широкое распространение получили такие средства оргтехники, как диктофоны и автоответчики.
Записью и воспроизведением информации пользуются при проведении научных исследований, в учебном процессе, при проведении различных общественных мероприятий и т.п.
Запись информации позволяет сохранить на долгие годы выступления выдающихся общественных деятелей, ученых, артистов. Обеспечивает возможность обмена наиболее интересными программами между радио- и телестудиями.
При создании новых программ можно осуществлять монтаж, т.е. вставлять в программу фрагменты из других программ кинофильмов и т.п. Это позволяет рационально использовать время исполнителей, повысить качество программы и уменьшить её стоимость
Системы записи и воспроизведения информации непрерывно совершенствуются и находят новые применения.
Разработкой, производством и эксплуатацией различных систем записи и воспроизведения информации занято огромное количество специалистов.
Сведения об окружающем мире и протекающих в нём процессах, воспринимаемые органами чувств (или измерительными приборами) называют информацией.
В рамках изучаемой дисциплины нас будет интересовать информация, воспринимаемая слухом и зрением.
Такую информацию будем называть, соответственно, аудио – и видеоинформацией. Сохранить такую информацию на длительное время без каких-либо дополнительных устройств невозможно.
Поэтому информация должна быть преобразована так, чтобы её можно было хранить и в нужное время использовать.
Совокупность технических средств, решающих такую задачу, будем называть системой записи и воспроизведения информации, а элементы этой системы – записывающим и воспроизводящим устройствами.
Под записью информации будем понимать процесс изменения какой-либо характеристики элементов носителя записи (дальше – носителя) в соответствии с поступающей информацией.
Носителем будем называть материал, характеристики которого изменяют в процессе записи.
Для воздействия на носитель в процессе записи записывающее устройство должно иметь пишущий элемент.
В процессе записи изменения информации должны отображаться в значениях характеристики элементарных участков носителя.
Для этого необходимо, чтобы пишущий элемент перемещался относительно носителя.
Следовательно, временные изменения информации в процессе записи преобразуются в пространственные изменения характеристики носителя.
Чаще всего пишущий элемент остаётся неподвижным, а перемещается носитель.
Перемещение носителя производится транспортирующим механизмом. В результате осуществления процесса записи получаем сигналограмму (фонограмму, либо видеограмму).
Процесс восстановления информации по изменениям характеристики носителя называют воспроизведением.
Для осуществления этого процесса необходим элемент, реагирующий на изменения характеристики носителя – читающий элемент.
Процесс уничтожения ранее сделанной на носителе записи называют стиранием. Для реализации процесса стирания необходим стирающий элемент, который будет воздействовать на характеристики носителя.
Теперь нетрудно представить обобщенную структурную схему системы записи и воспроизведения информации. Информация (звук, изображение), поступающая от её источника, должна быть преобразована в электрический сигнал, т.е. первым элементом системы должен быть преобразователь информации.
В случае записи звуковой информации таким преобразователем является микрофон. В случае записи изображений в качестве преобразователя информации выступает видеокамера. Устройство видеокамер рассматривается в курсах телевидения.
Электрические сигналы, поступающие с преобразователя информации, усиливаются и подаются на пишущий элемент. При воспроизведении читающий элемент преобразует изменения характеристики носителя в электричес
mirznanii.com
Преобразование звуковой информации
Содержание
1. Профессиональная обработка звука. Звук и звуковая волна
2. Программа обработки звука Audacity
3. Цифровая и аналоговая запись. Аналогово-цифровое преобразование. Микширование
4. Импульсная и частотная модуляция. Хранение оцифрованного звука
5. Теорема Котельникова — Найквиста. Алиазинг
6. Сэмплирование
7. Аппаратура
8. Программное обеспечение
10. Саундтреки
Список используемой литературы
Под обработкой звука следует понимать различные преобразования звуковой информации с целью изменения каких-то характеристик звучания. К обработке звука относятся способы создания различных звуковых эффектов, фильтрация, а также методы очистки звука от нежелательных шумов, изменения тембра и т.д. Все это огромное множество преобразований сводится, в конечном счете, к следующим основным типам:
1. Амплитудные преобразования. Выполняются над амплитудой сигнала и приводят к ее усилению/ослаблению или изменению по какому-либо закону на определенных участках сигнала.
2. Частотные преобразования. Выполняются над частотными составляющими звука: сигнал представляется в виде спектра частот через определенные промежутки времени, производится обработка необходимых частотных составляющих, например, фильтрация, и обратное «сворачивание» сигнала из спектра в волну.
3. Фазовые преобразования. Сдвиг фазы сигнала тем или иным способом; например, такие преобразования стерео сигнала, позволяют реализовать эффект вращения или «объёмности» звука.
4. Временные преобразования. Реализуются путем наложения, растягивания/сжатия сигналов; позволяют создать, например, эффекты эха или хора, а также повлиять на пространственные характеристики звука.
Echo (эхо). Реализуется с помощью временных преобразований. Фактически для получения эха необходимо на оригинальный входной сигнал наложить его задержанную во времени копию. Для того, чтобы человеческое ухо воспринимало вторую копию сигнала как повторение, а не как отзвук основного сигнала, необходимо время задержки установить равным примерно 50 мс. На основной сигнал можно наложить не одну его копию, а несколько, что позволит на выходе получить эффект многократного повторения звука (многоголосного эха). Чтобы эхо казалось затухающим, необходимо на исходный сигнал накладывать не просто задержанные копии сигнала, а приглушенные по амплитуде.
Reverberation (повторение, отражение). Эффект заключается в придании звучанию объемности, характерной для большого зала, где каждый звук порождает соответствующий, медленно угасающий отзвук. Практически, с помощью реверберации можно «оживить», например, фонограмму, сделанную в заглушенном помещении. От эффекта «эхо» реверберация отличается тем, что на входной сигнал накладывается задержанный во времени выходной сигнал, а не задержанная копия входного. Иными словами, блок реверберации упрощенно представляет собой петлю, где выход блока подключен к его входу, таким образом уже обработанный сигнал каждый цикл снова подается на вход смешиваясь с оригинальным сигналом.
Chorus (хор). В результате его применения звучание сигнала превращается как бы в звучание хора или в одновременное звучание нескольких инструментов. Схема получения такого эффекта аналогична схеме создания эффекта эха с той лишь разницей, что задержанные копии входного сигнала подвергаются слабой частотной модуляции (в среднем от 0.1 до 5 Гц) перед смешиванием со входным сигналом. Увеличение количества голосов в хоре достигается путем добавления копий сигнала с различными временами задержки.
«Обычный» аналоговый звук представляется в аналоговой аппаратуре непрерывным электрическим сигналом. Компьютер оперирует с данными в цифровом виде. Это означает, что и звук в компьютере представляется в цифровом виде.
Цифровой звук — это способ представления электрического сигнала посредством дискретных численных значений его амплитуды. Допустим, мы имеем аналоговую звуковую дорожку хорошего качества (говоря «хорошее качество» будем предполагать нешумную запись, содержащую спектральные составляющие из всего слышимого диапазона частот — приблизительно от 20 Гц до 20 КГц) и хотим «ввести» ее в компьютер (то есть оцифровать) без потери качества. Звуковая волна — это некая сложная функция, зависимость амплитуды звуковой волны от времени. Эту функцию описывают путем хранения ее дискретных значений в определенных точках. Иными словами, в каждой точке времени можно измерить значение амплитуды сигнала и записать в виде чисел. Однако и в этом методе есть свои недостатки, так как значения амплитуды сигнала мы не можем записывать с бесконечной точностью, и вынуждены их округлять. Говоря иначе, мы будем приближать эту функцию по двум координатным осям — амплитудной и временной. Таким образом, оцифровка сигнала включает в себя два процесса — процесс дискретизации (осуществление выборки) и процесс квантования. Процесс дискретизации — это процесс получения значений величин преобразуемого сигнала в определенные промежутки времени.
Квантование — процесс замены реальных значений сигнала приближенными с определенной точностью. Таким образом, оцифровка — это фиксация амплитуды сигнала через определенные промежутки времени и регистрация полученных значений амплитуды в виде округленных цифровых значений (так как значения амплитуды являются величиной непрерывной, нет возможности конечным числом записать точное значение амплитуды сигнала, именно поэтому прибегают к округлению). Записанные значения амплитуды сигнала называются отсчетами. Очевидно, что чем чаще мы будем делать замеры амплитуды (чем выше частота дискретизации) и чем меньше мы будем округлять полученные значения (чем больше уровней квантования), тем более точное представление сигнала в цифровой форме мы получим.
Оцифрованный сигнал в виде набора последовательных значений амплитуды можно сохранить.
Однако, надо иметь в виду, что память компьютера не бесконечна, так что каждый раз при оцифровке необходимо находить какой-то компромисс между качеством (напрямую зависящим от использованных при оцифровке параметров) и занимаемым оцифрованным сигналом объемом.
А также, частота дискретизации устанавливает верхнюю границу частот оцифрованного сигнала, а именно, максимальная частота спектральных составляющих равна половине частоты дискретизации сигнала. Попросту говоря, чтобы получить полную информацию о звуке в частотной полосе до 22050 Гц, необходима дискретизация с частотой не менее 44.1 КГц.
Существуют и другие проблемы и нюансы, связанные с оцифровкой звука. Не сильно углубляясь в подробности отметим, что в «цифровом звуке» из-за дискретности информации об амплитуде оригинального сигнала появляются различные шумы и искажения. Так, например, джиттер (jitter) — шум, появляющийся в результате того, что осуществление выборки сигнала при дискретизации происходит не через абсолютно равные промежутки времени, а с какими-то отклонениями. То есть, если, скажем, дискретизация проводится с частотой 44.1 КГц, то отсчеты берутся не точно каждые 1/44100 секунды, а то немного раньше, то немного позднее. А так как входной сигнал постоянно меняется, то такая ошибка приводит к «захвату» не совсем верного уровня сигнала. В результате во время проигрывания оцифрованного сигнала может ощущаться некоторое дрожание и искажения. Появление джиттера является результатом не абсолютной стабильности аналогово-цифровых преобразователей. Для борьбы с этим явлением применяют высокостабильные тактовые генераторы. Еще одной неприятностью является шум дробления. При квантовании амплитуды сигнала происходит ее округление до ближайшего уровня. Такая погрешность вызывает ощущение «грязного» звучания.
На практике, процесс оцифровки (дискретизация и квантование сигнала) остается невидимым для пользователя — всю черновую работу делают разнообразные программы, которые дают соответствующие команды драйверу (управляющая подпрограмма операционной системы) звуковой карты. Любая программа (будь то встроенный в WindowsRecorder или мощный звуковой редактор), способная осуществлять запись аналогового сигнала в компьютер, так или иначе оцифровывает сигнал с определенными параметрами, которые могут оказаться важными в последующей работе с записанным звуком, и именно по этой причине важно понять как происходит процесс оцифровки и какие факторы влияют на ее результаты.
Порой недостаточно просто записать звук, часто возникает необходимость в его редакции: от изменения громкости до сложных эффектов. Существует ряд программ, которые успешно справляются с данной задачей и кроме того имеют возможность извле
mirznanii.com