Речка. Озвучивание текста и создание аудиокниг. Яндекс SpeechKit TTS

Скачать программу "Речка"

Описание программы "РЕЧКА"

УДАРЕНИЯ
ПАУЗЫ
МАРКЕРЫ
РЕЖИМ АВТОЧТЕНИЯ
БИБЛИОТЕКА
РЕЧЬ В ТЕКСТ
ГОРЯЧИЕ КЛАВИШИ
РАБОТА В ПРОГРАММЕ
СОЗДАНИЕ АУДИОКНИГ
ОЗВУЧИВАНИЕ СУБТИТРОВ
ОЗВУЧИВАНИЕ PDF, DjVu и картинок
Встроенный эквалайзер

"РЕЧКА" - программа для синтеза речи и создания аудиокниг будет читать любой текст вместо вас. Вы можете прослушивать аудио многократно, сохранять целые аудиокниги, которые удобно сохраняются в mp3 файлы по главам или в один файл. Любой текст, например новости с новостного сайта, можно скопировать в окно программы и не напрягая зрение просто прослушать.

В программе используется облачная технология синтеза речи (text-to-speech - tts) SpeechKit Cloud (облачные технологии Yandex), обладающая отличным качеством синтеза речи. Требование работы программы - подключенный интернет. Ссылка на источник: https://tech.yandex.ru/speechkit/cloud/

Имеются женские и мужские голоса. В наше время большого количества информации программа поможет прочитать больше книг с меньшими усилиями. Так же, будет полезна лицам с ослабленным зрением.

Текст, который нужно озвучить, копируется и вставляется в программу. Далее нажимается кнопка "Создать аудио", при этом текст делится на блоки размером указанным в настройках. Блоки передаются в облако. Обратно возвращаются звуковые файлы, которые нумеруются 0000, 0001, 0002, ..., 9999 и складываются в папку "Audio". По умолчанию, в следующий раз нумерация продолжается. Поэтому, если нужно запись начать с начала нужно сбросить счетчик файлов, нажав кнопку "Начало" в рамке "Озвучивание текста".

Так же есть счетчик чтения в рамке "Прослушивание", которым можно выбирать нужный файл для прослушивания.

Кнопка "Настройки" открывает окно с настройками синтеза речи, внешнего вида, обновления и т.д.

Главное окно программы:

УДАРЕНИЯ:

Обычно сервис Яндекс TTS (Text To Speech) произносит слова правильно, но в некоторых словах ударение может ставиться не там. Для указания ударения в тексте в слове перед ударной гласной ставится знак + например: "Р+ечка"

Если ударение произносится часто неправильно, то стоит записать фразу в словарь ударений. Добавлять лучше фразу из нескольких слов, используя слова, расположенные рядом. Т.к. ударение в одном слове не всегда однозначно, например: "ст+оит этого" или "сто+ит здесь". Для этого нужно выделить фразу и нажать клавишу F2 или мышкой кнопку "Словарь ударений", откроется окно словаря.

Имеется два словаря:
Первый - встроен в программу и периодически обновляется;
Второй - лично ваш, который вы можете сами пополнять.

Сначала фраза ищется в личном словаре, имеющим приоритет. Затем поиск продолжается во встроенном словаре.

Первая строка - это строка шаблона поиска фразы.
Вторая - это шаблон произношения.

В словаре эти строки разделены знаком =

Примеры из словаря:

Строка в словаре Пояснение

кто за ним стоит=кто за ним сто+ит знак + означает ударение на гласную

стоит задержаться=ст+оит задержаться

*го слова=*го сл+ова знак * означает любое кол-во букв и цифр

~сунул в замок=~сунул в зам+ок знак ~ означает любое кол-во букв и цифр или отсутствие таковых

$VI=Римская 6 знак $ в начале строки учитываются маленькие и большие буквы;

Обратите внимание, знаки * и ~ ставятся по обе стороны знака = т.е в шаблоне поиска и в шаблоне замены.

Фразу можно прослушать и если все устраивает, добавить ее в свой словарь. Позже, словарь можно просматривать и редактировать.

Но если, все это для вас сложно, можно просто в тексте перед ударной гласной поставить знак +

ПАУЗЫ:

Короткие паузы можно ставить косыми чертами ////// или последовательностями .-.-.-.-
Длинные удобнее точками (от 3 до 6) ... .... ..... ......
Но удобнее ставить паузы с помощью маркеров (кнопка с зеленым флажком или клавиша Insert)

В окне настроек программы есть кнопка "Паузы". Тут можно задавать дополнительные паузы после определенных знаков препинания. Можно увеличить или уменьшить все паузы сразу изменив "Общий коэффициент длительности паузы". Этот коэффициент может быть дробным, например: 1.25 или вообще 0 или -1, тогда дополнительные паузы после знаков препинания не ставятся.

МАРКЕРЫ:

В текст можно добавлять "маркеры" для обозначения особенностей произношения. Маркер представляет собой команду, обрамленную фигурными скобками. Например:

Маркер Действие

{voice=2} С этого места голос меняется на второй голос, настроенный в окне вставки маркеров, где можно задать другой голос и скорость произношения.

{pause=2} Вставляется пауза 2 сек.

{file} С этого места начинается новый файл, например новая глава

{file=Название файла} С этого места начинается новый файл с указанным именем

Вставлять маркеры удобно, нажав сверху "зеленый флажок" или кнопку "Insert" на клавиатуре. Тут, так же, можно задать параметры конкретного голоса.

Таким образом, можно озвучивать текст разными голосами, с разной скоростью и эмоциями. Делить аудиокнигу на части и делать паузы в тексте.

Пример использования маркеров в тексте для диалогов:

{voice=1 Автор}Текст автора. {voice=2 Мужчина}Текст мужчины. {voice=3 Женщина}Текст женщины.

РЕЖИМ АВТОЧТЕНИЯ:

Если нажать кнопку с открытой книжкой, то включится режим авточтения буфера системы. После этого любой текст, скопированный в буфер системы будет произнесен вслух. В этом режиме чтение начинается сразу, не дожидаясь обработки всего текста. Это может быть удобно при чтении небольших статей или веб-страничек.

БИБЛИОТЕКА:

Кнопка со стопкой книг открывает библиотеку сохраненных аудиокниг, это папка с именем Save. Готовые аудиокниги можно записывать в библиотеку. Здесь удобно слушать книги и делиться ими, например копировать их на телефон. Если слушать одну надоело, то можно переключиться на другую, при этом сохраняется позиция прослушивания. Одновременно с аудиофайлами в библиотеке сохраняется текст книги, так что слушать и читать текст можно одновременно.

РЕЧЬ В ТЕКСТ (режим секретаря):

Если нажать кнопку с белым листом и зеленой ручкой, откроется окно распознавания речи (Speech To Text или короче STT).

Google
Yandex
Sber
VK Cloud

Для использования этой возможности, нужно зарегистрироваться и получить API ключ на этих сервисах и ввести его в настройках программы. На Google регистрироваться не обязательно, но придется решит капчу. Бесплатно, сервисы имеют ограничение на размер распознанного текста.

С микрофона
Из аудиофайла
Из папки с аудиофайлами

Следует заметить, что распознавание часто происходит с ошибками ибо технологии еще несовершенны. Желательно иметь исходное аудио без шумов и посторонних звуков.

ГОРЯЧИЕ КЛАВИШИ:

Клавиша	Действие
F5	Создать аудио
F9	Запуск прослушивания, она же пауза (кстати, клик правой кнопкой мыши на кнопку "Слушать" останавливает прослушивание)
Alt+F9	Остановить прослушивание
F11, F12	Перемотка назад и вперед
F6	Вставить текст из буфера в окно программы
F2	Выделите фразу и нажмите F2, откроется окно словаря ударений
Ctrl+F3	Для поиска слова в тексте, активируется окно поиска
F3	Продолжить поиск слова в тексте
Insert	Вставить в текст маркер, определяющий параметры голоса
F1	Окно помощи
F4	Сохранить аудиокнигу в библиотеку в виде mp3 файлов
F7	Режим автоматического чтения буфера системы
F8	Окно настроек
Alt+N	Новая аудиокнига
Alt+O	Открыть файл txt, fb2, srt
Alt+U	Отмена изменений текста
Alt+R	Замена в тексте
Alt+D	Рабочая папка
Alt+B	Библиотека
Ctrl+Alt+I	Интерфейс для незрячих
F8 два раза	Сброс настроек по умолчанию

РАБОТА В ПРОГРАММЕ:

1. Сначала заполняется окно с текстом:
вставляется текст скопированный из другого окна или
открывается файл (кнопка открытия файла) или пишится самостоятельно.
ВАЖНО: иногда при копировании текста в основном окне не показывается русский шрифт.
Чтобы избежать этого, заранее переключайтесь на русскую раскладку.

2. Если создается новая книга, то в рамке "Озвучивание текста" нажимаем кнопку "Начало", при этом рабочие файлы удаляются и счетчик записи сбрасывается.
Далее нажимаем кнопку "Создать аудио" и ждем окончания процесса. При этом в рабочей папке создаются пронумерованные аудиофайлы.

3. Теперь мы можем уже слушать текст. Но если мы хотим сохранить аудиокнигу в библиотеку или на мобильный телефон для последующего прослушивания, нажимаем кнопку с изображением дискеты.
При этом из рабочей папки все аудиофайлы и текст сохраняются в отдельную папку с именем книги. Этот процесс может занять некоторое время, т.к. аудиофайлы сжимаются в mp3 формат. Преобразование нужно еще для создания монолитного mp3 файла с единой шкалой времени для корректной перемотки.

4. Открыв библиотеку (кнопка со стопкой книг), удобно слушать выбранную книгу.

Файлы в рабочей папке можно прослушивать отдельно. Для этого в рамке "Прослушивание" выбирается номер файла и нажимается кнопка "Слушать" (клавиша F9),

В программе нет кнопки "Остановить прослушивание". Чтобы остановить прослушивание нажмите ПРАВУЮ кнопку мыши на кнопку "Слушать" или клавиши Alt+F9.

В программе еще есть дополнительные подсказки. Если подержать курсор мышки на элементе окна две секунды, то всплывет контекстная подсказка об этом элементе.

СОЗДАНИЕ АУДИОКНИГ:

В интернете можно найти готовые книги в виде файлов формата FB2 или TXT. Программа может открывать эти файлы и делать на их основе аудиокниги.
Видеоролик - Как сделать аудиокнигу

ОЗВУЧИВАНИЕ СУБТИТРОВ:

Программа позволяет озвучивать субтитры к фильмам или видеороликам.

Подробнее о субтитрах можно посмотреть здесь: "Озвучивание субтитров"

Видеоролик - Озвучивание субтитров

ОЗВУЧИВАНИЕ PDF или DjVu и картинок:

Файлы формата PDF или DjVu, а так же файлы картинок JPEG, PNG, GIF, BMP, TIFF обычно не содержат текста. Но их все равно можно попытаться озвучить, предварительно распознав содержащийся в них текст. Сделать это можно специальными программами распознования текста OCR или с помощью OnLine сервисов, например: https://www.newocr.com
После скопировать текст в окно "Речки" и озвучить.

Встроенный эквалайзер:

В программе есть встроенный эквалайзер, который позволяет настраивать его для каждого голоса отдельно. По умолчанию эквалайзер уже настроен и лучше его не трогать, но по желанию настройки можно изменить.

Алгоритм настройки эквалайзера примерно такой:

Очищаем рабочую папку, можно нажать Alt+N.
Снимаем галочку с эквалайзера в настройках.
Озвучиваем небольшой текст без эквалайзера. Таким образом, получаем образец для тестирования звучания без эквалайзера, это файл 0000.wav
Включаем эквалайзер и заходим в его настройку.
Выбираем схему нужного голоса для изменения.
Желательно, на всякий случай, сохранить текст схемы со строками настроек в какой-то текстовый файл, так как настройки это просто текст.
Теперь можно пробовать в небольших пределах менять значения усиления на разных частотах. Вместо ползунков тут просто цифры.
Чтобы проверить результат, нажимаем внизу кнопку "Проверить", наш маленький файл 0000.wav будет звучать по новым настройкам эквалайзера.
Если все устраивает, то можно сохранить настройки кнопкой "Сохранить". При сохранении, также можно поменять имя схемы.

Настройки эквалайзера это просто текст, можно добавлять или убирать дополнительные строки (полосы):

Включено = 1
Общий уровень усиления(Дб) = 1.2
Частота(Гц) = 125; Ширина полосы(Гц) = 250; Усиление(Дб) = -12; Усиление полосы(Дб) = 0; Опорное усиление(Дб) = 0;
Частота(Гц) = 500; Ширина полосы(Гц) = 1000; Усиление(Дб) = -6; Усиление полосы(Дб) = 0; Опорное усиление(Дб) = 0;
Частота(Гц) = 1000; Ширина полосы(Гц) = 2000; Усиление(Дб) = 0; Усиление полосы(Дб) = 0; Опорное усиление(Дб) = 0;
Частота(Гц) = 2000; Ширина полосы(Гц) = 0; Усиление(Дб) = 3; Усиление полосы(Дб) = 0; Опорное усиление(Дб) = 0;
Частота(Гц) = 4000; Ширина полосы(Гц) = 0; Усиление(Дб) = 6; Усиление полосы(Дб) = 0; Опорное усиление(Дб) = 0;
Частота(Гц) = 8000; Ширина полосы(Гц) = 0; Усиление(Дб) = 12; Усиление полосы(Дб) = 0; Опорное усиление(Дб) = 0;
Частота(Гц) = 16000; Ширина полосы(Гц) = 8000; Усиление(Дб) = 0; Усиление полосы(Дб) = 0; Опорное усиление(Дб) = 0;

Есть системные имена настроек, вроде:

*Default           - для остальных голосов, не имеющих своих настроек
*AiMyVoice         - для определенного движка 
*AiMyVoice.Андрей  - для определенного голоса определенного движка

Следует помнить, что например в наушниках и колонках могут быть разные полосы пропускания, поэтому приходится искать золотую середину, что бы звучание было приемлемо везде.

Скачать программу "Речка"