Голосовой набор текста онлайн на компьютере
Содержание:
- Добавление кода
- Сравнение Microsoft.Speech с System.Speech
- Стационарные программы для голосового ввода
- Приложения
- Усовершенствовать ручную расшифровку
- Командная строка Яндекса
- Приложение для перевода голоса в текст – требования к системе
- Преимущества программ распознавания речи офлайн
- Transcribe — Speech to Text (iOS)
- Dictation.io
- SpeechTexter (Android)
- Добавление намерений и импорт модели
- «RealSpeaker» — сверхточный распознаватель речи
- Яндекс Переводчик
- Что такое распознавание речи
- Google Переводчик
- Правила перевода аудио или видео в текст
- Что такое голосовой набор текста?
- Условия и ограничения
- Окна
- Speechpad.ru – инструмент для распознавания речи
- Создание проекта «Речь» в Visual Studio
- Особенности перевода голоса в текстовый формат
Добавление кода
Далее добавьте код в проект.
-
В Обозревателе решений откройте файл Program.cs.
-
Замените блок операторов , который находится в начале файла, следующими объявлениями.
-
Замените предоставленный метод следующим асинхронным эквивалентом:
-
Создайте пустой асинхронный метод , как показано ниже.
-
Добавьте следующий код в текст метода:
-
В методе необходимо заменить заполнители на ключ подписки LUIS, регион и идентификатор приложения следующим образом.
Заполнитель Заменить на Ключ конечной точки LUIS. Опять же, вы должны получить с панели мониторинга Azure этот элемент, а не «стартовый ключ». Его можно найти на странице приложения Keys and Endpoints (Ключи и конечные точки) в разделе Manage (Управление) на портале LUIS. Короткий идентификатор региона, в котором находится подписка LUIS, например для западной части США. См. статью Регионы и конечные точки службы «Речь». Идентификатор приложения LUIS. Его можно найти на странице Параметры приложения на портале LUIS.
После выполнения этих изменений можно создать (Control+Shift+B) и запустить (F5) приложение. При появлении запроса в микрофон компьютера следует произнести фразу «выключить свет». Приложение отображает результат в окне консоли.
В следующих разделах приводится описание кода.
Сравнение Microsoft.Speech с System.Speech
Если вы новичок в распознавании и синтезе речи для Windows-приложений, вы можете легко запутаться в документации, потому что существует несколько речевых платформ. В частности, помимо библиотеки Microsoft.Speech.dll, используемой демонстрационными программами в этой статье, есть библиотека System.Speech.dll, являющаяся частью операционной системы Windows. Эти две библиотеки похожи в том смысле, что их API почти, но не полностью идентичны. Поэтому, если вы отыскиваете примеры обработки речи в Интернете и видите фрагменты кода, а не полные программы, то совершенно не очевидно, относится данный пример к System.Speech или Microsoft.Speech.
Если вы новичок в обработке речи, используйте для добавления поддержки речи в .NET-приложение библиотеку Microsoft.Speech, а не System.Speech.
Хотя обе библиотеки имеют общую основную кодовую базу и похожие API, они определенно разные. Неокторые ключевые различия суммированы в табл. 1.
Табл. 1. Основные различия между Microsoft.Speech и System.Speech
Microsoft.Speech.dll | System.Speech.dll |
Требует отдельной установки | Часть ОС (Windows Vista+) |
Можно паковать с приложениями | Не подлежит редистрибуции |
Требует конструирования объектов Grammar | Использует объекты Grammar или свободную диктовку |
Без обучения пользователем | Обучение под конкретного пользователя |
API с управляемым кодом (C#) | API с неуправляемым кодом (C++) |
System.Speech DLL — часть ОС, поэтому она установлена в каждой системе Windows. Microsoft.Speech DLL (и связанные с ней исполняющая среда и языки) нужно скачивать и устанавливать в систему. Распознавание с применением System.Speech обычно требует обучения под конкретного пользователя, когда пользователь начитывает какой-то текст, а система учится понимать произношение, свойственное этому пользователю. Распознавание с применением Microsoft.Speech работает сразу для любого пользователя. System.Speech может распознавать практически любые слова (это называет свободной диктовкой). Microsoft.Speech будет распознавать лишь те слова и фразы, которые имеются в объекте Grammar, определенном в программе.
Стационарные программы для голосового ввода
Кроме перечисленных сервисов существуют разнообразные стационарные программы, позволяющие перевести речь в текст. Обычно они имеют в своей структуре встроенный механизм для распознавания текста, работают с множеством языков, и во многих случаях не требуют постоянного подключения к Интернету.
Среди таких программ отметим следующие:
- «Dictate» — специальная программа-надстройка для MS Word. После установки программы в системе откройте ваш Ворд, и выберите в нём вкладку «Dictation». Появится значок с микрофоном. Рядом с последним выберите русский язык и начните запись;
- «Dragon Professional Individual» (Windows, Mac) – одна из лучших платных программ в своём сегменте. Включает множество инноваций, поддерживает различные голосовые команды формата, имеют мощные возможности транскрибации;
- «Braina Pro» (Windows) – это целый виртуальный ассистент, управляемый искусственным интеллектом. Вы можете диктовать ему текст более чем на 100 языках, он отлично понимает различные компьютерные команды, устанавливает будильник, служит как словарь и тезаурус;
- «E-speaking.com» (Windows) — Используя программный интерфейс «Microsoft Speech Application» и «Net Framework», программа «e-Speaking» позволяет использовать голос для управления ПК, диктовки документов и электронных писем, прочтения текста вслух. Поддерживается множество голосовых команд для управления ПК.
Приложения
Первый международный патент был подан в 1983 году в результате проведенных в CSELT (Италия) исследований в области телекоммуникаций, проведенных Микеле Кавацца и Альберто Чьярамелла, в качестве основы как для будущих телекоммуникационных услуг для конечных потребителей, так и для улучшения методов снижения шума в сети.
В период с 1996 по 1998 год на пограничном переходе Скоби-Коронак использовалась технология распознавания говорящих, чтобы зарегистрированные местные жители, которым нечего заявлять, пересекали границу между Канадой и США, когда пункты досмотра были закрыты на ночь. Система была разработана для Службы иммиграции и натурализации США компанией Voice Strategies из Уоррена, штат Мичиган.
В мае 2013 года было объявлено, что Barclays Wealth будет использовать пассивное распознавание говорящего для проверки личности телефонных клиентов в течение 30 секунд после обычного разговора. Используемая система была разработана компанией Nuance, занимающейся распознаванием голоса (которая в 2011 году приобрела компанию Loquendo , дочернюю компанию CSELT для речевых технологий), компании, стоящей за технологией Apple Siri . Подтвержденный голосовой отпечаток должен был использоваться для идентификации вызывающих абонентов в систему, и в будущем система будет развернута по всей компании.
Подразделение частного банковского обслуживания Barclays было первой фирмой, предоставляющей финансовые услуги, которая применила голосовую биометрию в качестве основного средства аутентификации клиентов в их центрах обработки вызовов . 93% пользователей оценили систему на «9 из 10» за скорость, простоту использования и безопасность.
Распознавание говорящего также может использоваться в уголовных расследованиях, таких как казни в 2014 году, в частности, Джеймса Фоули и Стивена Сотлоффа .
В феврале 2016 года крупный британский банк HSBC и его розничный интернет-банк First Direct объявили, что предложат 15 миллионам клиентов свое биометрическое банковское программное обеспечение для доступа к онлайн-счетам и телефонным счетам с помощью отпечатков пальцев или голоса.
Усовершенствовать ручную расшифровку
Можно пойти другим путем — не автоматизировать, но упростить работу и транскрибировать без кошмара, описанного в самом начале статьи. Вам все равно придется слушать и записывать, но это будет удобно делать внутри хорошо обустроенного сервиса.
oTranscribe
Бесплатный веб-сервис для ручной транскрибации текста. Работает как с аудио, так и с видео, в том числе YouTube-роликами. Открывает десятки форматов: wav, mp3, mpeg, webm и др.
Можно назначить горячие клавиши для управления воспроизведением. Есть автосохранение, простой текстовый редактор, интерактивные метки, упрощающие навигацию.
Интерфейс oTranscribeИнтерфейс oTranscribe
Express Scribe
Условно-бесплатное десктопное ПО для Windows/Mac. Позволяет загружать аудио и видеофайлы с самых разных источников: дисков, FTP-серверов, электронных писем и др. Поддержка форматов зависит от версии: например, mp3 и wav открываются в любом случае, а wmv, mp4 или 3gp — только в Pro.
Гибкие настройки воспроизведения: управляйте горячими клавишами, меняйте скорость, переключайтесь на определенный таймкод. Можно добавлять заметки к файлам, подключать к работе ножную педаль — специальное устройство, USB-переключатель для геймеров и транскрибаторов.
Удобно, что все записи добавляются в список и между ними легко переключаться — не нужно каждый раз заново их загружать. Неудобно, что нет текстового редактора (зато есть интеграция с MS Word, Corel Wordperfect, Lotus Wordpro и другими текстовыми процессорами под Windows).
Неограниченная лицензия PRO стоит от 25 $, но для личного использования вполне хватит бесплатной версии.
Так выглядит окно Express Scribe
Transcriber Pro
Тоже десктопный инструмент для ускорения ручной расшифровки (правда, только аудио в текст и только для Windows). Функциональность похожа на аналогичные решения: есть управление горячими клавишами, создание заметок (тегов), автозамена текста, настройка «прыжка» после паузы и др.
В числе преимуществ Transcriber Pro также указали командную работу — возможность разбивать проект на подзадачи, выгружать их и пересылать, потом объединять результаты в один файл. Участники команды будут работать в офлайне, но результат потом соберется в одно целое.
Платная лицензия стоит 640 руб. в год, но ее нет смысла покупать ради такой функции, как экспорт в интерактивные стенограммы. Этот формат похож на обычные субтитры, которые, например, выгружаются с YouTube.
Видеообзор программы.
LossPlay
Это десктопный плеер для Windows в помощь расшифровщикам аудио/видео. Открывает mp3, wav, mp4 и др. (разработчики отмечают, что есть также «интеллектуальная поддержка недокументированных форматов», что бы это ни значило). Парит поверх всех окон, поэтому позволяет работать в любом текстовом редакторе.
Hot keys настраиваются не только для управления воспроизведением, но и для вставки шаблонных текстовых фрагментов. Если не нравится стандартный дизайн, в настройках можно задать элементам другие цвета.
Придется по душе тем, кто ностальгирует или до сих пор пользуется Winamp.
Такой вот внешний вид у LossPlay
Универсальное решение: wreally.com
Альтернатива всем вышеперечисленным инструментам — Transcribe (wreally.com). Этот онлайн-сервис позволяет транскрибировать текст обоими способами: вручную (как в oTranscribe) и автоматически (создатели указывают точность 90%). Открывает десятки видов файлов: webm, mp3, mp4, 3gp, wmv и др. Есть автосохранение, работа без доступа к интернету, интеграция ножной педали, настройка горячих клавиш, экспорт видеосубтитров. В отличие от RealSpeaker, гарантируется безопасность и приватность.
Бесплатно можно получить только 1 минуту автоматической расшифровки. Далее — 6$ в час. Ручная транскрибация тоже стоит денег, но совсем небольших — 20$ в год.
Так выглядит инструмент для ручной транскрибации
Пример работы авторасшифровщика
Командная строка Яндекса
С её помощью мы сможем получать нужные ключи доступа, чтобы отправлять файлы с записями на сервер для обработки.
Весь процесс установки мы опишем для Windows. Если у вас Mac OS или Linux, то всё будет то же самое, но с поправкой на операционную систему. Поэтому если что — .
Для установки и дальнейшей работы нам понадобится PowerShell — это программа для работы с командной строкой, но с расширенными возможностями. Запускаем PowerShell и пишем там такую команду:
iex (New-Object System.Net.WebClient).DownloadString(‘https://storage.yandexcloud.net/yandexcloud-yc/install.ps1’)
Она скачает и запустит установщик командной строки Яндекса. В середине скрипт спросит нас, добавить ли путь в системную переменную PATH, — в ответ пишем Y и нажимаем Enter:
Командная строка Яндекса установлена в системе, закрываем PowerShell и запускаем его заново. Теперь нам нужно получить токен авторизации — это такая последовательность символов, которая покажет «Облаку», что мы — это мы, а не кто-то другой.
Переходим по специальной ссылке, которая даст нам нужный токен. Сервис спросит у нас, разрешаем ли мы доступ «Облака» к нашим данным на Яндексе — нажимаем «Разрешить». В итоге видим страницу с токеном:
Теперь нужно закончить настройку командной строки Яндекса, чтобы можно было с ней полноценно работать. Для этого в PowerShell пишем команду:
yc init
Когда скрипт попросит — вводим токен, который мы только что получили:
Сначала отвечаем «1», затем «Y» и «4».
Приложение для перевода голоса в текст – требования к системе
Большинство ныне существующих программ для перевода голоса в текст имеют платный характер, предъявляя ряд требований к микрофону (в случае, когда программа предназначена для компьютера). Крайне не рекомендуется работать с микрофоном, встроенным в веб-камеру, а также размещённым в корпусе стандартного ноутбука (качество распознавания речи с таких устройств находится на довольно низком уровне)
Кроме того, довольно важно иметь тихую окружающую обстановку, без лишних шумов, способных напрямую повлиять на уровень распознавания вашей речи
При этом большинство таких программ способны не только трансформировать речь в текст на экране компьютера, но и использовать голосовые команды для управления вашим компьютером (запуск программ и их закрытие, приём и отправление электронной почты, открытие и закрытие сайтов и так далее).
Преимущества программ распознавания речи офлайн
Многие пользователи неоднократно сравнивали распознавание речи офлайн- и онлайн-программами. В основном оценивали именно на работу с голосом и выводимым текстом. Обобщив мнения пользователей, можно получить следующие преимущества программ распознавания голоса офлайн:
- Скорость обработки голосового запроса выше.
- Уровень качества распознавания речи выше, потому что есть возможность использовать конкретный словарь для работы.
- Стоимость использования таких программ ниже.
- Удобство и простота использования.
- Поддерживается распознавание аудиофайлов.
- Функциональная самообучаемость.
Но нужно понимать, что все равно есть моменты, когда онлайн распознавание голоса не может быть заменено просто софтом. К примеру, когда вы не знаете, на каком языке будет произнесена речь, которую нужно трансформировать в текст.
Transcribe — Speech to Text (iOS)
Transcribe – iOS / iPad-ассистент для перевода голоса в текст в реальном времени. Приложение также умеет расшифровывать аудио из видео источника. Это полезно, в частности, если нужно извлечь субтитры из youtube ролика.
Ключевые особенности и функции Transcribe:
- Автоматический перевод голосовых заметок (voice memo) в простой текст;
- Полноценная поддержка около 100 языков;
- Импорт / экспорт расшифровки в текстовый редактор или облако Dropbox;
- Экспорт субтитров в формате SRT.
3 часа расшифровки доступны бесплатно каждый месяц, после чего вступают в силу тарифы: $4.99 за 1 час перевода в текст, $29.99 за 10 часов и так далее, по нарастающей. Приложение доступно только для iOS, Android-версии у “голосового блокнота” нет.
Dictation.io
Сервис онлайн распознавания речи через микрофон. Посредством голоса можно расставлять параграфы, знаки пунктуации и даже смайлики. Dictation пригодится для написания электронных писем или заполнения документов в браузере.
Использование сервиса:
- Перейти на страницу транскрибации.
- В правой части экрана нажать на три горизонтальные полоски, чтобы выбрать язык ввода. Поддерживается большое количество языковых направлений.
В левом нижнем углу кликнуть по кнопке «Start».
Начать диктовку текста.
Редактирование материала осуществляется путем встроенного редактора. Непосредственно со страницы можно выполнить сохранение текста, его публикацию, печать.
SpeechTexter (Android)
Еще один эффективный способ диктовки текста на мобильном устройстве. SpeechTexter распознает речь, используя словарь. Он содержит знаки препинания, номера телефонов, фразы. Вы можете составить не только простое сообщение, но и написать эссе, отчет.
Чтобы начать работу со SpeechTexter, нужно:
- Скачать приложение с Play Market: https://play.google.com/store/apps/details?id=com.speechtexter.speechtexter.
- Выбрать нужный языковой пакет. Программа позволяет загрузить большое число языков от африкаанс до корейского.
- Нажмите кнопку микрофона и начните говорить.
Важный момент. SpeechTexter не работает без подключения к Сети. Качество распознавания влияет скорость подключения. Приложение чувствительно к фоновому шуму.
Добавление намерений и импорт модели
Теперь импортируйте модель из приложения LUIS с помощью идентификатора и добавьте те намерения LUIS, которые требуется распознать, с помощью метода . С помощью двух приведенных шагов улучшается точность распознавания речи путем указания слов, которые пользователь может использовать в запросах. Если в программе не планируется распознавать все намерения приложений, их добавление не нужно.
Для добавления намерений нужно обеспечить три аргумента. Модель LUIS (которая была создана с именем ), имя намерения и его идентификатор. Разница между идентификатором и именем приведена в следующей таблице.
аргумент | Цель |
---|---|
Имя намерения, определенного в приложении LUIS. Это значение должно совпадать с именем намерения LUIS. | |
Идентификатор, присвоенный намерению, распознанному пакетом SDK для службы «Речь». Это значение может быть любым. Оно не обязательно должно соответствовать имени намерения, определенному в приложении LUIS. Для обработки нескольких намерений может использоваться один код, как и один идентификатор используется для всех намерений. |
Приложение LUIS для системы домашней автоматики содержит два намерения. Первое — включение устройства, второе — выключение. С помощью приведенных ниже строк намерения будут добавлены в распознаватель. Замените приведенным ниже кодом три строки в методе .
Вместо добавления отдельных намерения можно также использовать метод , чтобы добавить в распознаватель все намерения из модели.
«RealSpeaker» — сверхточный распознаватель речи
Программа для трансформации голоса в текст «RealSpeaker.net» кроме стандартных для программ такого рода функций, позволяет задействовать возможности веб-камеры вашего ПК. Теперь программа не только считывает аудио составляющую звука, но и фиксирует движение уголков губ говорящего, тем самым более корректно распознавая выговариваемые им слова.
«RealSpeaker» считывает не только аудио, но и визуальную составляющую процесса речи
Приложение поддерживает более десяти языков (в том числе и русский), позволяет распознавать речь с учётом акцентов и диалектов, позволяет транскрибировать аудио и видео, даёт доступ к облаку и многое другое. Программа условно бесплатна, за платную версию придётся заплатить вполне реальные деньги.
Яндекс Переводчик
Приложение Яндекс Переводчик имеет функцию преобразования речи в текст. Пользователь может надиктовать голосом, а программа переведет сказанное в текст. Заодно можно получить перевод на иностранный язык, если это нужно.
Распознавание голоса в текст в Яндекс Переводчике:
- Откройте Яндекс Переводчик, выберите направление перевода.
- Нажмите на значок голосового ввода (микрофон).
- Говорите, приложение будет вводить текст параллельно на русском (исходный текст) и иностранном языке (перевод).
Для того, чтобы у вас появилась возможность поделится получившимся текстом или сохранить его в удобном месте, измените направление перевода, в нашем случае с английского на русский. После этого, у вас появятся два одинаковых текста на русском языке. В поле для перевода станут доступными кнопки «Отправить с помощью» и «Сохранить».
Что такое распознавание речи
Распознавание речи или Speech-to-Text (STT) — технология преобразования речи в текст. Это многоуровневый процесс анализа акустических сигналов, их структурирования в слова, фразы, предложения и преобразования в текстовый формат. Технологию распознавания речи можно также называть технологией распознавания голоса.
Технология распознавания голоса существует уже около 70 лет. Раньше это все сводилось к распознаванию простых слов и построению акустической модели. Речь представлялась статично и сравнивалась с готовыми шаблонами в словарях, что часто вело к ошибкам. Сейчас уровень точности и использование Speech-to-Text в повседневной жизни вышли на новый уровень. Благодаря машинному обучению системы распознавания постоянно совершенствуются. Каждое новое распознавание определяет точность следующего.
Google Переводчик
В операционной системе Android распознавание речи в текст могут выполнить переводчики. Используйте соответствующее приложение или онлайн версию переводчика на веб-сайте в браузере, установленном на телефоне. Во втором случае, можно не использовать приложение, сохранив некоторую часть места и ресурсов на своем устройстве.
Перевести речь в текст можно следующим образом:
- Откройте Переводчик Google, выберите язык перевода, в нашем случае — русский язык.
- Нажмите на значок микрофона (Голосовой ввод).
- Предоставьте доступ к микрофону.
- Говорите, в окне переводчика отобразится ваш текст и перевод на английский язык.
Для того, чтобы воспользоваться переводом на русском языке, нажмите справа на переводимый язык «английский», а потом выберите русский язык. После этого, окно перевода станет на русском языке. Теперь вы можете скопировать перевод в нужное место.
Правила перевода аудио или видео в текст
Хорошо в расшифровке видео и аудио в текст зарабатывают только те, кто готов учиться. Выйти на профессиональный уровень сразу невозможно, но нужно действовать, как настоящий специалист.
Усвойте полезные рекомендации:
- ищите самые выгодные заказы, не беритесь за работу с низкой оплатой;
- старайтесь красиво оформлять текст, появится шанс получить постоянного клиента;
- правильно оформляйте диалоги в записях, указывая имена людей;
- при отправке заявки, придумывайте что-нибудь интересное;
- если заказ крупный, отписывайтесь по этапам его выполнения;
- чаще задавайте вопросы для уточнения мелочей, тогда вряд ли придется дорабатывать текст;
- если не укладываетесь в сроки, обязательно сообщите об этом заказчику;
- совершенствуйте навыки, учитесь быстро печатать и грамотно форматировать текст;
- учите иностранные языки, заказы на английском приносят в разы больше прибыли;
- принимайте все заказы, а если не успеваете, передавайте их другим фрилансерам.
Преобразование аудио в текст способен выполнить только реальный человек. При использовании программ и приложений, результат получается не качественный. Помните об этом, не делайте результат такой же, как при использовании ботов. Старайтесь грамотно оформлять тексты для клиентов и они обязательно к вам вернутся.
Инструменты для перевода аудио в текст
Теперь хотелось бы рассмотреть, что вам потребуется для того чтобы грамотно и быстро выполнять такую работу. Первое о чем необходимо задуматься – это выбрать подходящий плеер для воспроизведения аудио.
- .
Конечно, вы можете использовать стандартный аудиоплеер, но в нем нет функции замедленного воспроизведения, поэтому мы советуем вам использовать Express Scribe:
Помимо удобного и простого интерфейса, в этой программе можно печатать текст (нижнее поле).
- .
Второй удобный инструмент для фрилансеров занимающихся переводами аудио в текст является блокнот для речевого ввода. Функционалом этого сервиса можно пользоваться онлайн на сайте speechpad.ru:
Воспользоваться им не сложно, нажимаем на «включить запись» и в микрофон произносим слова, которые должны быть переведены в текст. Программа автоматически переведет текст, и вы сможете скопировать его. К сожалению, работать с этой программой не так просто и довольно часто она выдает ошибки.
Заработок на переводе аудио в текст – это ещё одна возможность делать деньги не выходя из дома. Попробуйте перевести не большой видеоролик или не продолжительную аудиозапись, если вам понравится, и вы с легкостью выполните эти действия, можете отправляться за заказами и браться за работу.
Читайте другие статьи:
- Обзор лучших бирж фриланса Profi ru и Weblancer
- Интересная схема для поиска и получения заказов на фрилансе без бирж
- Как фрилансеру найти работу — ТОП 20 лучших бирж фриланса
Что такое голосовой набор текста?
Мы привыкли к тому, что если нужно что-то напечатать на компьютере, то без клавиатуры не обойтись. А если нужно напечатать быстро? Тогда можно просто этому научиться. Сейчас есть масса платных и бесплатных тренажеров слепой быстрой печати. Да и курсы всякие имеются на эту тему. Было бы желание и время… И время… Если с желанием обычно нормально, то со временем часто не очень. Нужно около месяца на реальное убыстрение печати. А времени обычно нет. Как всегда, нужно уметь быстро печатать “всегда”. И еще.. Для быстрой печати очень часто нужно покупать специальную клавиатуру. Далеко не каждая “штатная” подходит для этого дела. Ну это так, к слову.
Ладно. Если учиться быстро печатать долго, то нет ли других технических способов убыстрить этот процесс? Ведь на дворе XXI век! Конечно же есть. Если Вы умеете быстро писать обычной ручкой, то есть смысл рассмотреть покупку “умной” ручки. Что это такое? Это ручка с умной электронной начинкой. Вы можете писать или на специальном блокноте, или даже на обычной бумаге, а умная ручка сразу же запоминает Ваши каракули к себе в память. И переводит их в электронный текст. И потом можно выгрузить готовую статью в любой текстовый редактор. Немного “подрихтовать” ее… И готово! Кстати, стоят такие “чудо-девайсы” не очень дорого. В районе 10 000 – 15 000 рублей (на момент написания данной статьи).
Что такое голосовой набор текста? Вкратце это выглядит так. Вы просто говорите текст в микрофон. При этом не забыв запустить специальную программу, открыв сайт или приложение на смартфоне. Ваши слова тут же отображаются в виде текста в окне программы. Потом можно отредактировать этот текст и сразу же копировать в текстовые редакторы. Кстати, в некоторых сервисах можно не только говорить самому, а подключить например Ютуб. Или загрузить аудиофайл. И сервис перевода голоса в текст тоже все прочитает и расшифрует.
Условия и ограничения
Распознавание речи — платная услуга, но Яндекс даёт 60 дней и 3000 ₽ для тестирования. За эти деньги можно распознать 83 часа аудио — больше трёх суток непрерывного разговора. Это очень много: за время подготовки этой статьи и тестирования технологии мы потратили 4 рубля за 3 дня.
Если отправлять файлы с записью больше минуты, то одна секунда аудио стоит одну копейку. Чтобы распознать запись длиной в час, нужно 36 рублей. Это примерно в 20 раз дешевле, чем берут транскрибаторы — люди, которые сами набирают текст на слух, прослушивая запись.
Нейросеть часто понимает, когда текст нужно разбить на абзацы, но делает это не всегда правильно. Ещё она не ставит запятые, тире и двоеточия. Максимум, что она делает — ставит точку в конце предложения и начинает новое с большой буквы. Но при этом почти все слова распознаются правильно, и отредактировать такой текст намного проще, чем набирать его с нуля.
Последнее — из-за особенностей нашей речи и произношения SpeechKit может путать слова, которые звучат одинаково (код — кот) или ставить неправильное окончание («слава обрушилось на него неожиданно»). Решение простое: прогоняем такой текст через орфонейрокорректор и всё в порядке. Одна нейронка исправляет другую — реальность XXI века
Всё, приступаем.
Иногда результат получается вот таким, но на понимание текста это не сильно влияет.
Окна
Встроенное распознавание речи Windows
Распознавание речи Windows версии 8.0 от Microsoft поставляется встроенная в Windows Vista , Windows 7 , Windows 8 и Windows 10 . Распознавание речи доступно только на английском, французском, испанском, немецком, японском, упрощенном китайском и традиционном китайском языках и только в соответствующей версии Windows; Это означает, что вы не можете использовать механизм распознавания речи на одном языке, если вы используете версию Windows на другом языке. Windows 7 Ultimate и Windows 8 Pro позволяют изменить язык системы и, следовательно, изменить доступный речевой движок. Распознавание речи Windows превратилось в Cortana (программное обеспечение) , персонального помощника, включенного в Windows 10 .
Надстройки для распознавания речи Windows 7
Voice Finger — программное обеспечение для Windows Vista и Windows 7, которое улучшает систему распознавания речи Windows , добавляя несколько расширений для ускорения и улучшения управления мышью и клавиатурой.
Распознавание речи сторонних производителей в Windows 7, 8, 10
- Braina — Диктуйте в стороннем программном обеспечении и на веб-сайтах, заполняйте веб-формы и выполняйте голосовые команды.
- Dragon NaturallySpeaking от Nuance Communications — преемник более старого продукта DragonDictate . Сосредоточьтесь на диктовке . Поддержка 64-битной Windows начиная с версии 10.1.
- SpeechMagic — Nuance Communications приобрела принадлежащую Philips . Ориентация на медицинскую промышленность по мнению Frost & Sullivan . Автономный или встроенный.
- Tazti — Создавайте профили речевых команд, чтобы играть в компьютерные игры и управлять приложениями — программами. Создавайте голосовые команды для открытия файлов, папок, веб-страниц, приложений. Версии Windows 7, Windows 8 и Windows 8.1.
Только Windows XP или 2000
Microsoft Speech API — функция распознавания речи, входящая в состав Microsoft Office и на планшетных ПК под управлением Microsoft Windows XP Tablet PC Edition. Его также можно загрузить как часть Speech SDK 5.1 для приложений Windows, но поскольку он предназначен для разработчиков, создающих речевые приложения, в чистой форме SDK отсутствует какой-либо пользовательский интерфейс, и поэтому он не подходит для конечных пользователей.
Speechpad.ru – инструмент для распознавания речи
Сервис speechpad.ru – один из наиболее популярных в Рунете сервисов для перевода голоса в текст. Сервис позиционирует себя как блокнот для речевого ввода, позволяющий надиктовывать предложения, а также транскрибировать текст из аудио и видео файлов.
Для работы с сервисом выполните следующее:
- Перейдите на speechpad.ru;
- Выберите внизу язык распознавания (например, «Русский»);
- Нажмите внизу на кнопку «Включить запись»;
- Разрешите сайту доступ к вашему микрофону, и начните диктовку текста. Учтите, что все знаки препинания в тексте проговориваются голосом («запятая», «точка», «тире» и др.). То же самое и с абзацами.
- Для скачивания результата в формате .txt нажмите на «Скачать»;
- Для проведения считки текста с аудио или видеофайла нажмите на кнопку «+Транскрибацию».
Создание проекта «Речь» в Visual Studio
Чтобы создать проект Visual Studio для разработки Windows, необходимо создать проект, настроить Visual Studio для разработки рабочего стола .NET, установить пакет SDK для службы «Речь» и выбрать целевую архитектуру.
Создание проекта и добавление рабочей нагрузки
Для начала создайте проект в Visual Studio и убедитесь, что Visual Studio настроена на разработку рабочего стола.NET :
-
Запустите Visual Studio 2019.
-
В окне Начало работы выберите Создать проект.
-
В окне Создание проекта выберите Консольное приложение (.NET Framework) и нажмите кнопку Далее.
-
В окне Настройка нового проекта введите helloworld в Имя проекта, выберите или создайте путь каталога в Расположение, а затем выберите Создать.
-
В строке меню Visual Studio выберите Инструменты > Get Tools and Features (Получить инструменты и компоненты), открывающие Visual Studio Installer и показывающие диалоговое окно Идет изменение.
-
Проверьте, доступна ли рабочая нагрузка разработки классического приложения .NET. Если рабочая нагрузка не была установлена, установите флажок возле нее, а затем выберите Изменить, чтобы начать установку. Скачивание и установка может занять несколько минут.
Если флажок рядом с Разработка классических приложений .NET уже установлен, выберите Закрыть, чтобы выйти из диалогового окна.
-
Закройте Visual Studio Installer.
Установка пакета SDK службы «Речь»
Следующим шагом является установка Speech SDK NuGet package (Речевой пакет SDK NuGet), чтобы вы могли ссылаться на него в коде.
-
В Обозревателе решений щелкните правой кнопкой мыши на проект helloworld и выберите Управление пакетами NuGet, чтобы отобразить Диспетчер пакетов NuGet.
-
В правом верхнем углу найдите раскрывающийся список Источник пакета и убедитесь, что выбран параметр NuGet.org.
-
В левом верхнем углу нажмите кнопку Просмотреть.
-
В поле поиска введите Microsoft.CognitiveServices.Speech и выберите Ввести.
-
В результатах поиска выберите пакет Microsoft.CognitiveServices.Speech, а затем выберите Установить для установки последней стабильной версии.
-
Примите все соглашения и лицензии для запуска установки.
После установки пакета на Консоли диспетчера пакетов появится подтверждение.
Выбор целевой архитектуры
Теперь, чтобы создать и запустить консольное приложение, создайте конфигурацию платформы, соответствующую архитектуре компьютера.
-
В строке меню выберите Сборка > Configuration Manager (Диспетчер конфигураций). Откроется диалоговое окно ConfigurationManager (Диспетчер конфигураций).
-
В раскрывающемся списке Активная платформа решения выберите команду Новый. Откроется диалоговое окно Создание платформы решения.
-
В раскрывающемся списке Введите или выберите новую платформу.
- Если вы используете 64-разрядную версию Windows, выберите x64.
- Если вы используете 32-разрядную версию Windows, выберите x86.
-
Нажмите ОК, а затем Закрыть.
Особенности перевода голоса в текстовый формат
Как известно, попытки создать программы для распознавания голоса берут своё начало ещё в середине 20 века. Поначалу распознавание было довольно слабым, но использование более совершенных методов и технологий (скрытые марковские модели, нейронные сети etc.) подняло распознавание голоса на довольно высокий уровень.
Ныне мы можем встретить достаточное количество сетевых сервисов и программ, выполняющих перевод речи в текст. Практически все они хорошо распознают человеческий голос на многих языках (включая русский), и способны переводить его в текстовый формат. При этом 100% понимания речи достичь пока не удаётся, Это связано с шумами при звучании, невнятной дикцией или акцентом говорящего, помехами в работе микрофона, эмоциональным состоянием человека и другими схожими факторами.
При этом использование таких сервисов и программ позволяет существенно сэкономить время при наборе различных текстов. Вы можете быстро надиктовать нужный фрагмент после чего сохранить его в удобном текстовом формате на ваш компьютер или телефон.
Давайте разберёмся, какие сервисы и программы помогут быстро перевести речь в текст.