Автоматизация расшифровки (транскрибации) аудио - и видеозаписей

10 июля 2025Возрастное ограничение16+

Друзья, недавно на сайте были опубликованы статьи, посвящённые голосовому вводу данных в среде Windows. В одной из статей мы рассматривали новую функцию англоязычного ввода данных голосом, которую в Windows 10 привнёс осенний накопительный апдейт Fall Creators Update. В другой был представлен обзор сторонних средств распознавания человеческой речи на русском языке. Эта публикация продолжает цикл статей, посвящённых теме голосового ввода данных в среде Windows, и в ней рассмотрим, как автоматизировать процесс расшифровки аудио- и видеозаписей в текст.
Автоматизация расшифровки (транскрибации) аудио - и видеозаписей
Итак, в упомянутых статьях сайта мы говорили о возможности набора текста с помощью голосового ввода. Несмотря на постоянное совершенствование технологий распознавания человеческой речи, всё равно, друзья, пока что в этом деле имеем ещё далёкий от идеала инструментарий. Отчасти он обусловлен сложностью самого русского языка. Языки с более простым построением языковой модели (с меньшим количеством словоформ) - например, английский, испанский, итальянский - искусственным интеллектом понимаются более корректно. И, соответственно, распознаются с меньшим числом ошибок. Так что какой бы инструмент голосового ввода на русском (или на другом славянском языке) ни использовался, в его результирующей форме всё равно придётся что-то править – корректировать окончания или даже слова целиком, ставить знаки препинания и т.п. И при больших объёмах набора текста голосом это становится проблемой. Не каждый сможет в едином процессе и надиктовывать свои мысли, и тут же попутно вносить в распознанный текст правки. Альтернатива в таком случае – разбивка процесса на два этапа: сначала свободное изложение мыслей на диктофон, а затем дальнейшая расшифровка аудиозаписи с помощью тех же инструментов распознавания человеческой речи. Ну и, естественно, попутная правка текста в результирующей форме.
Расшифровка видео и аудио с текстовой фиксацией разговоров участников записей называется транскрибацией. Транскрибация – ручной, очень трудоёмкий процесс. Транскрибатору необходимо поэтапно запоминать отрывки записи, приостанавливать воспроизведение и пропечатывать запомненное в текстовом редакторе. Это монотонная работа, которая требует максимальной концентрации внимания. Особенно если качество видео- или аудиоисходника оставляет желать лучшего. Но это если работать с расшифровкой разговоров других людей, записанных с помехами, тресками, слабым сигналом и т.п. С транскрибацией собственных диктовок, если они будут приемлемого качества записи, и если львиную долю работы по расшифровке возложить на искусственный интеллект, дела будут обстоять проще. Из ручной работы останется только коррекция текста.
Как сделать качественную аудиозапись? И как её потом транскрибировать в текст с помощью технологий распознавания речи?
Запись диктовки
Чтобы оцифровать свои мысли, не прибегая к активной печати на клавиатуре, потребуется надиктовать их в микрофон или проговорить на видеокамеру. Для этого можно использовать свой смартфон, а затем перенести файл аудио- или видеозаписи на компьютер. Аудиозапись диктовки также можно поручить любому устройству на базе Windows со встроенным или подключённым микрофоном. В числе штатных средств Windows 7 для этих целей имеется утилита «Звукозапись».

А на борту Windows 10 – штатное универсальное приложение «Запись голоса».

В «Десятке» ещё можно записывать и прослушивать голосовые заметки внутри приложения OneNote.

В любой из версий системы можно воспользоваться сторонними программами для записи звука с микрофона, например, функциональным аудиоредактором Audacity.

Не имеет значения, какой инструмент записи голоса вы, друзья, выберете. Это даже может быть не аудиозапись, а видео, записанное на веб-камеру или захваченное с экрана монитора. Лишь бы такое видео было со звуком. Важно другое - чтобы звук на выходе был более-менее чистым, без шумов и с приемлемым уровнем сигнала. Для этого перед аудио- или видеозаписью необходимо протестировать микрофон, в частности, чтобы найти приемлемое расстояние от рта. При необходимости можно усилить чувствительность микрофона: на компьютере это делается либо в программе, с помощью которой осуществляется аудиозапись или захват экрана монитора, либо в системных настройках звука. В последнем случае в области задач Windows кликаем правой клавишей мыши на значке громкости и выбираем «Записывающие устройства».

Далее делаем двойной клик по микрофону.

В открывшемся окошке его свойств переходим на вкладку «Уровни». Перетягивая ползунок графы «Усиление микрофона», добавляем дБ, жмём «Ок» и тестируем звукозапись.

Сначала усиливаем на 10 дБ. Если сигнал по-прежнему слабый, можно довести его до 20 дБ. Больше добавлять не нужно, при усилении до 30 дБ обычно появляются шумы.Записываем диктовку и сохраняем её.
Настройка стереомикшера
Для транскрибации записанной диктовки необходимо обмануть инструмент распознавания человеческой речи и подставить ему вместо звука с микрофона звучание аудио- или видеозаписи – т.е. системный звук, тот, что мы слышим из динамиков нашего компьютера. Сделать это можно с помощью стереомикшера. Как и при настройке микрофона, вызываем контекстное меню на значке громкости в области задач Windows. И выбираем «Записывающие устройства».

Далее контекстное меню вызываем на микрофоне и отключаем его.

А стереомикшер, наоборот, включаем. Жмём «Ок» внизу окошка.

Что делать, если стереомикшера среди записывающих устройств системы нет? Необходимо переустановить аудиодрайвер. Windows при автоматической установке драйверов часто обеспечивает только базовые функции звучания. И обновление или переустановка аудиодрайвера с помощью системного диспетчера устройств обычно ничего не даёт в этом плане. Нужно сначала удалить аудиодрайвер. А затем отправиться на сайт материнской платы, ноутбука или дискретной аудиокарты, скачать инсталлятор аудиодрайвера и установить его.
В крайнем случае можно реализовать нечто стереомикшера с помощью программы вирутального микрофона Virtual Audio Cable. При установке здесь важно запускать программу от имени администратора, иначе она не установится. После установки настраиваем реализованное программой виртуальное устройство Cable Input в качестве динамиков по умолчанию и в качестве микрофона по умолчанию.

Транскрибация аудио
Итак, в системных настройках звука микрофон отключён, а стереомикшер включён. Дальше запускаем инструмент распознавания речи, например, веб-сервис Speechpad.Ru («Голосовой блокнот») и жмём кнопку «Включить запись».

Затем в любом плеере запускаем воспроизведение записанного на предыдущем этапе аудио или видео. Всё – процесс пошёл. Готовый текст будем наблюдать в результирующей форме. Воспроизведение диктовки необходимо периодически приостанавливать, чтобы корректировать отдельные блоки распознанного текста.У Speechpad.Ru, кстати, есть альтернатива с более удачной реализацией результирующей формы распознанного текста. Это расширение для Chromium-браузеров «Войснот II».

Оно реализует в среде Windows отдельное Chrome-приложение по типу текстового редактора с поддержкой голосового ввода. В этом приложении можно хранить распознанный текст в качестве заметок, формировать словари для автозамены значений, настроить форматирование текста результирующей формы и пр. Активация распознавания голоса (или, как в нашем случае, системного звучания) в этом Chrome-приложении осуществляется кнопкой со значком микрофона.

Вам будет интересно прочесть: Браузеры с функцией воспроизведения текста голосовым движком

Перейти на полную версию страницы