Автоматизация расшифровки (транскрибации) аудио - и видеозаписей
10 июля 2025Возрастное ограничение16+
Друзья, недавно на сайте были опубликованы статьи, посвящённые голосовому вводу данных в среде Windows. В одной из статей мы рассматривали новую функцию англоязычного ввода данных голосом, которую в Windows 10 привнёс осенний накопительный апдейт Fall Creators Update. В другой был представлен обзор сторонних средств распознавания человеческой речи на русском языке. Эта публикация продолжает цикл статей, посвящённых теме голосового ввода данных в среде Windows, и в ней рассмотрим, как автоматизировать процесс расшифровки аудио- и видеозаписей в текст.
Автоматизация расшифровки (транскрибации) аудио - и видеозаписей
Итак, в упомянутых статьях сайта мы говорили о возможности набора текста с помощью голосового ввода. Несмотря на постоянное совершенствование технологий распознавания человеческой речи, всё равно, друзья, пока что в этом деле имеем ещё далёкий от идеала инструментарий. Отчасти он обусловлен сложностью самого русского языка. Языки с более простым построением языковой модели (с меньшим количеством словоформ) - например, английский, испанский, итальянский - искусственным интеллектом понимаются более корректно. И, соответственно, распознаются с меньшим числом ошибок. Так что какой бы инструмент голосового ввода на русском (или на другом славянском языке) ни использовался, в его результирующей форме всё равно придётся что-то править – корректировать окончания или даже слова целиком, ставить знаки препинания и т.п. И при больших объёмах набора текста голосом это становится проблемой. Не каждый сможет в едином процессе и надиктовывать свои мысли, и тут же попутно вносить в распознанный текст правки. Альтернатива в таком случае – разбивка процесса на два этапа: сначала свободное изложение мыслей на диктофон, а затем дальнейшая расшифровка аудиозаписи с помощью тех же инструментов распознавания человеческой речи. Ну и, естественно, попутная правка текста в результирующей форме.
Расшифровка видео и аудио с текстовой фиксацией разговоров участников записей называется транскрибацией. Транскрибация – ручной, очень трудоёмкий процесс. Транскрибатору необходимо поэтапно запоминать отрывки записи, приостанавливать воспроизведение и пропечатывать запомненное в текстовом редакторе. Это монотонная работа, которая требует максимальной концентрации внимания. Особенно если качество видео- или аудиоисходника оставляет желать лучшего. Но это если работать с расшифровкой разговоров других людей, записанных с помехами, тресками, слабым сигналом и т.п. С транскрибацией собственных диктовок, если они будут приемлемого качества записи, и если львиную долю работы по расшифровке возложить на искусственный интеллект, дела будут обстоять проще. Из ручной работы останется только коррекция текста.
Как сделать качественную аудиозапись? И как её потом транскрибировать в текст с помощью технологий распознавания речи?
Запись диктовки
Чтобы оцифровать свои мысли, не прибегая к активной печати на клавиатуре, потребуется надиктовать их в микрофон или проговорить на видеокамеру. Для этого можно использовать свой смартфон, а затем перенести файл аудио- или видеозаписи на компьютер. Аудиозапись диктовки также можно поручить любому устройству на базе Windows со встроенным или подключённым микрофоном. В числе штатных средств Windows 7 для этих целей имеется утилита «Звукозапись».
В «Десятке» ещё можно записывать и прослушивать голосовые заметки внутри приложения OneNote.В любой из версий системы можно воспользоваться сторонними программами для записи звука с микрофона, например, функциональным аудиоредактором Audacity.
Не имеет значения, какой инструмент записи голоса вы, друзья, выберете. Это даже может быть не аудиозапись, а видео, записанное на веб-камеру или захваченное с экрана монитора. Лишь бы такое видео было со звуком. Важно другое - чтобы звук на выходе был более-менее чистым, без шумов и с приемлемым уровнем сигнала. Для этого перед аудио- или видеозаписью необходимо протестировать микрофон, в частности, чтобы найти приемлемое расстояние от рта. При необходимости можно усилить чувствительность микрофона: на компьютере это делается либо в программе, с помощью которой осуществляется аудиозапись или захват экрана монитора, либо в системных настройках звука. В последнем случае в области задач Windows кликаем правой клавишей мыши на значке громкости и выбираем «Записывающие устройства».Далее делаем двойной клик по микрофону.В открывшемся окошке его свойств переходим на вкладку «Уровни». Перетягивая ползунок графы «Усиление микрофона», добавляем дБ, жмём «Ок» и тестируем звукозапись.Сначала усиливаем на 10 дБ. Если сигнал по-прежнему слабый, можно довести его до 20 дБ. Больше добавлять не нужно, при усилении до 30 дБ обычно появляются шумы.Записываем диктовку и сохраняем её.
Настройка стереомикшера
Для транскрибации записанной диктовки необходимо обмануть инструмент распознавания человеческой речи и подставить ему вместо звука с микрофона звучание аудио- или видеозаписи – т.е. системный звук, тот, что мы слышим из динамиков нашего компьютера. Сделать это можно с помощью стереомикшера. Как и при настройке микрофона, вызываем контекстное меню на значке громкости в области задач Windows. И выбираем «Записывающие устройства».Далее контекстное меню вызываем на микрофоне и отключаем его.А стереомикшер, наоборот, включаем. Жмём «Ок» внизу окошка.Что делать, если стереомикшера среди записывающих устройств системы нет? Необходимо переустановить аудиодрайвер. Windows при автоматической установке драйверов часто обеспечивает только базовые функции звучания. И обновление или переустановка аудиодрайвера с помощью системного диспетчера устройств обычно ничего не даёт в этом плане. Нужно сначала удалить аудиодрайвер. А затем отправиться на сайт материнской платы, ноутбука или дискретной аудиокарты, скачать инсталлятор аудиодрайвера и установить его.
В крайнем случае можно реализовать нечто стереомикшера с помощью программы вирутального микрофона Virtual Audio Cable. При установке здесь важно запускать программу от имени администратора, иначе она не установится. После установки настраиваем реализованное программой виртуальное устройство Cable Input в качестве динамиков по умолчанию и в качестве микрофона по умолчанию.
Итак, в системных настройках звука микрофон отключён, а стереомикшер включён. Дальше запускаем инструмент распознавания речи, например, веб-сервис Speechpad.Ru («Голосовой блокнот») и жмём кнопку «Включить запись».Затем в любом плеере запускаем воспроизведение записанного на предыдущем этапе аудио или видео. Всё – процесс пошёл. Готовый текст будем наблюдать в результирующей форме. Воспроизведение диктовки необходимо периодически приостанавливать, чтобы корректировать отдельные блоки распознанного текста.У Speechpad.Ru, кстати, есть альтернатива с более удачной реализацией результирующей формы распознанного текста. Это расширение для Chromium-браузеров «Войснот II».Оно реализует в среде Windows отдельное Chrome-приложение по типу текстового редактора с поддержкой голосового ввода. В этом приложении можно хранить распознанный текст в качестве заметок, формировать словари для автозамены значений, настроить форматирование текста результирующей формы и пр. Активация распознавания голоса (или, как в нашем случае, системного звучания) в этом Chrome-приложении осуществляется кнопкой со значком микрофона.
Перейти на полную версию страницыНе имеет значения, какой инструмент записи голоса вы, друзья, выберете. Это даже может быть не аудиозапись, а видео, записанное на веб-камеру или захваченное с экрана монитора. Лишь бы такое видео было со звуком. Важно другое - чтобы звук на выходе был более-менее чистым, без шумов и с приемлемым уровнем сигнала. Для этого перед аудио- или видеозаписью необходимо протестировать микрофон, в частности, чтобы найти приемлемое расстояние от рта. При необходимости можно усилить чувствительность микрофона: на компьютере это делается либо в программе, с помощью которой осуществляется аудиозапись или захват экрана монитора, либо в системных настройках звука. В последнем случае в области задач Windows кликаем правой клавишей мыши на значке громкости и выбираем «Записывающие устройства».Далее делаем двойной клик по микрофону.В открывшемся окошке его свойств переходим на вкладку «Уровни». Перетягивая ползунок графы «Усиление микрофона», добавляем дБ, жмём «Ок» и тестируем звукозапись.Сначала усиливаем на 10 дБ. Если сигнал по-прежнему слабый, можно довести его до 20 дБ. Больше добавлять не нужно, при усилении до 30 дБ обычно появляются шумы.Записываем диктовку и сохраняем её.
Настройка стереомикшера
Для транскрибации записанной диктовки необходимо обмануть инструмент распознавания человеческой речи и подставить ему вместо звука с микрофона звучание аудио- или видеозаписи – т.е. системный звук, тот, что мы слышим из динамиков нашего компьютера. Сделать это можно с помощью стереомикшера. Как и при настройке микрофона, вызываем контекстное меню на значке громкости в области задач Windows. И выбираем «Записывающие устройства».Далее контекстное меню вызываем на микрофоне и отключаем его.А стереомикшер, наоборот, включаем. Жмём «Ок» внизу окошка.Что делать, если стереомикшера среди записывающих устройств системы нет? Необходимо переустановить аудиодрайвер. Windows при автоматической установке драйверов часто обеспечивает только базовые функции звучания. И обновление или переустановка аудиодрайвера с помощью системного диспетчера устройств обычно ничего не даёт в этом плане. Нужно сначала удалить аудиодрайвер. А затем отправиться на сайт материнской платы, ноутбука или дискретной аудиокарты, скачать инсталлятор аудиодрайвера и установить его.
В крайнем случае можно реализовать нечто стереомикшера с помощью программы вирутального микрофона Virtual Audio Cable. При установке здесь важно запускать программу от имени администратора, иначе она не установится. После установки настраиваем реализованное программой виртуальное устройство Cable Input в качестве динамиков по умолчанию и в качестве микрофона по умолчанию.
Итак, в системных настройках звука микрофон отключён, а стереомикшер включён. Дальше запускаем инструмент распознавания речи, например, веб-сервис Speechpad.Ru («Голосовой блокнот») и жмём кнопку «Включить запись».Затем в любом плеере запускаем воспроизведение записанного на предыдущем этапе аудио или видео. Всё – процесс пошёл. Готовый текст будем наблюдать в результирующей форме. Воспроизведение диктовки необходимо периодически приостанавливать, чтобы корректировать отдельные блоки распознанного текста.У Speechpad.Ru, кстати, есть альтернатива с более удачной реализацией результирующей формы распознанного текста. Это расширение для Chromium-браузеров «Войснот II».Оно реализует в среде Windows отдельное Chrome-приложение по типу текстового редактора с поддержкой голосового ввода. В этом приложении можно хранить распознанный текст в качестве заметок, формировать словари для автозамены значений, настроить форматирование текста результирующей формы и пр. Активация распознавания голоса (или, как в нашем случае, системного звучания) в этом Chrome-приложении осуществляется кнопкой со значком микрофона.
Вам будет интересно прочесть: Браузеры с функцией воспроизведения текста голосовым движком