Синтезатор речи капитан. Обзор бесплатных синтезаторов речи

Недавно передо мной встала проблема выбора голосового синтезатора речи. Основные требования — это поддержка русского языка и более-менее нормальное произношение.
Для тех, кто не в курсе того, что такое синтезатор речи, расскажу — это специальная программа, смысл работы которой заключается в преобразовании письменного текста в устную речь. Это и есть так называемый синтез.
Зачем это надо? Ну, например, когда надо записать голосовое сообщение чужим голосом. Иностранцам оно может быть полезно для того, чтобы услышать произношение того или иного слова. Синтезатор речи удобен для чтения, когда надо включить ребенку сказку, которой нет в аудиокнигах. Да и вообще, ситуации всякие бывают.
Так вот, в процессе выбора я нашел несколько очень полезных инструментов, среди которых работающих в режиме онлайн с поддержкой русского языка и сейчас я Вам о них и расскажу.

Переводчик Google

Вот поистине многоцелевой продукт, которых можно использовать совершенно по-разному. Главные преимущества:
— это совершенно бесплатный сервис;
— работа в режиме Онлайн без установки. Нужен только доступ в Интернет;
— на мой взгляд этот синтезатор речи имеет лучший голосовой модуль, самое близкое к натуральному;
— наверное самая лучшая команда разработчиков и техподдержка в мире;
— самое большое количество поддерживаемых языков.
К сожалению, вариант голоса только один — женский. Выбора я не нашел.

RHVoice

Отличный многоязычный синтезатор речи от российского разработчика — Ольги Яковлевой. Есть версии, как для операционных систем семейства Windows, так и для Linux. Разработчик синтезатора - Ольга Яковлева. Программа распространяется совершенно бесплатно и доступна на официальном сайте в двух вариантах: как SAPI5-совместимая самостоятельная версия и как модуль для бесплатной программы экранного доступа NVDA. Этот синтезатор голосовой речи умеет озвучивать русские тексты тремя голосами — Елена, Ирина и Александр.

Acapela

Acapela - это, пожалуй, один из самых популярных и распространенных голосовых синтезаторов в мире. Главная особенность — это озвучка текстов более чем на тридцати языках мира. Если рассматривать русский язык, то тут доступны два голоса - Николай и Алена. Причем последний более совершенен и естественен в плане произношения. В демонстрационном режиме на сайте доступен только голос Алена.
Программа доступна для скачивания на официальном сайте и поддерживает все популярные современные операционные системы — Windows, Linux, Mac. Есть даже версии для Android u iOS.

Vokalizer

Женских голос Milena — это ещё один очень популярный движок голосового синтезатора речи от компании Nuance — он очень высококачественный и естественно звучащий. Его Вы можете услышать в call-центрах и в различных сетевых речевых системах, а также в различных приложениях приложениях — таких как Moon+ Reader Pro, Full Screen Caller ID , Cool Reader, в навигационной программах TomTom, iGo Primo.
Среди плюсов можно отметить возможность установки различных словарей, регулировки громкости, ударения и скорости чтения.
Код программы открытый, скачать его бесплатно можно на официальном сайте, собственно как и инсталлятор самой программы.

Festival

Festival - это не просто очередной голосовой речевой синтезатор, а уже целая система распознавания и синтеза речи с различными API. Разработчик — Исследовательский Центр Речевых Технологий университета Эдинбурга.
Festival предназначен для поддержки нескольких языков. По умолчанию поддерживает английский, валлийский и испанский языки. Но есть возможность подключить голосовые пакеты других языков: чешский, финский, хинди, итальянский, маратхи, польский, русский и телугу.
Код программы открытый, сам голосовой синтезатор распространяется по лицензии open source и доступна только для операционных систем Linux. Правда есть портированная версия по Макинтош.

ESpeak

Последняя в моём обзоре система синтеза речи — программа ESpeak — разрабатывается уже около 8 лет. Последняя версия — 1.48.04 от 6 апреля 2014. Данный голосовой синтезатор речи кроссплатформенный — есть версии под Windows, Linux, Mac OS X, и даже под RISC OS, хотя последние две уже давно не поддерживаются.
Отдельно отмечу, что eSpeak используется в мобильных операционных системах Android, правда имеет при этом ряд существенных ошибок.
Программа поддерживает пятидесяти различных языков, поддержка которых указывается при установке программы.
Один из главных минусов это голосового синтезатора — генерирование голоса только в файл формата WAV. Скачать программу бесплатно можно на официальном сайте.

От себя добавлю лишь, что мне понравились RHVoice и Vokalizer, хотя тут во много дело индивидуальное и во многом зависит от того, что Вы хотите получить. Так что пробуйте, ставьте и смотрите. Я думаю, что один из представленных вариантов Вам обязательно должен подойти.

Внимание! Данный сайт использует технологию JavaScript, поддержка которой отключена в вашем браузере. Для полноценной работы с ресурсом рекомендуется включить эту функцию в настройках вашего Интернет-обозревателя. Однако всё информационное наполнение сайта доступно и в режиме работы с отключённым JavaScript, поэтому активация этой настройки не обязательна, хотя и рекомендована.


Речевой синтезатор Капитан

"Речевой синтезатор Капитан" - это MS SAPI4-совместимый синтезатор. Он поддерживает синтез речи на русском и украинском языке. Поддержка украинского языка основывается на подмене украинских фонем похожими по звучанию фонемами русского языка.

Синтезатор создан на аллофонной базе одного из десяти голосов программного TTS-комплекса "Speaking Mouse Home", который был разработан Клубом голосовых технологий при научном парке МГУ в 1995 году. По наследству данному синтезатору досталось имя его прототипа из "Speaking Mouse Home" - Капитан.

Помимо русского и украинского языков Капитан способен осуществлять работу с английским, немецким и французским языком, а также производить раздельное чтение многоязычных текстов: каждый язык соответствующим голосом синтезатора. Раздельное чтение многоязычных документов и поддержка английского, немецкого и французского языков осуществляется посредствам использования дополнительного модуля, основанного на базе синтезатора eSpeak , однако использования данного модуля для работы Капитана не обязательно. Поддержка русского и украинского языков может осуществляться и без его установки. Данный модуль расширения возможностей Капитана уже включён в архив, который вы можете скачать с нашего сайта, поэтому его отдельная загрузка, как описано в сопроводительной документации самого синтезатора, не требуется.

Синтезатор обладает мужским голосом с хорошей разборчивостью речи, но низкой естественностью звучания. К плюсом можно отнести большую скорость работы, малый размер и малую загрузку системных мощностей. Однако "Капитан" обладает и рядом недостатков:

  • Синтезатором практически не поддерживается функция регулировки высоты речи.
  • В процессе работы иногда могут возникать явления "проглатывания" звуков.
  • Периодически синтезатор может замолкать в процессе работы или начать читать лишь первую часть строк текста. В данном случаи для возвращения штатного режима работы рекомендуется перегрузить синтезатор.

Для работы данного синтезатора может понадобиться системный компонент

Сегодня синтезаторы речи, применяемые в стационарных компьютерных системах или мобильных устройствах, чем-то необычным уже не кажутся. Технологии шагнули далеко вперед и позволили воспроизвести человеческий голос. Как все это работает, где применяется, каков лучший речевой синтезатор и с какими потенциальными проблемами может столкнуться пользователь, смотрите ниже.

Что представляют собой речевые синтезаторы и где они применяются?

Синтезаторы речи представляют собой специальные программы, состоящие из нескольких модулей, которые позволяют переводить набранный на клавиатуре текст в обычную человеческую речь в виде звукового сопровождения.

Было бы наивно полагать, что сопутствующие библиотеки содержат абсолютно все слова или возможные фразы, записанные в студиях реальными людьми. Это просто физически невозможно. К тому же библиотеки фраз имели бы такой размер, что установить их даже на современные винчестеры большого объема, не говоря уже о мобильных девайсах, просто не представлялось бы возможным.

Для этого была разработана технология, получившая название Text-to-Speech (перевод текста в речь).

Наиболее широкое распространение синтезаторы речи получили в нескольких областях, к которым можно отнести самостоятельное изучение иностранных языков (программы нередко имеют поддержку в 50 языков и более), кода нужно услышать правильное произношение слова, прослушивание текстов книг вместо чтения, создание речевых и вокальных партий в музыке, использование их людьми с ограниченными возможностями, выдача поисковых запросов в виде озвученных слов и фраз и т. д.

Разновидности программ

В зависимости от области применения, все программы можно разделить на два основных типа: стандартные, непосредственно преобразующие текст в речь, и речевые или вокальные модули, применяемые в музыкальных приложениях.

Для более полного понимания картины рассмотрим оба класса, но больший упор будет сделан все-таки на синтезаторы речи в их непосредственном назначении.

Плюсы и минусы простейших речевых приложений

Что же касается преимуществ и недостатков программ такого типа, сначала рассмотрим все-таки недостатки.

Прежде всего нужно четко понимать, что компьютер - он и есть компьютер, который на данном этапе развития человеческую речь может синтезировать весьма приблизительно. В простейших программах зачастую наблюдаются проблемы с постановкой ударений в словах, пониженное качество звука, а в мобильных устройствах - повышенное энергопотребление, а иногда и несанкционированная загрузка речевых модулей.

Но и преимуществ хватает, ведь очень многие звуковую информацию воспринимают гораздо лучше, нежели визуальную. Удобство восприятия налицо.

Как пользоваться синтезатором речи?

Теперь несколько слов об основных принципах использования программ такого типа. Установить синтезатор речи любого типа можно без особых проблем. В стационарных системах используется стандартный инсталлятор, где основной задачей станет выбор поддерживаемых языковых модулей. Для мобильных девайсов установочный файл можно скачать из официального магазина или хранилища вроде Google Play или AppStore, после чего приложение инсталлируется в автоматическом режиме.

Как правило, при первом запуске никаких настроек, кроме установки языка по умолчанию, производить не нужно. Правда, иногда программа может предложить выбрать качество звучания (в стандартном варианте, применяемом повсеместно, частота дискретизации 4410 Гц, глубина 16 бит и битрейт 128 кбит/с). В мобильных устройствах эти показатели ниже. Тем не менее за основу берется определенный голос. С использованием стандартного шаблона произношения путем применения фильтров и эквалайзеров достигается звучание именно такого тембра.

В использовании можно выбрать несколько вариантов перевода вручную, озвучивание уже имеющего текста из файла, интеграция в другие приложения (например, веб-браузеры) с активацией выдачи поисковых результатов или прочтения текстового содержимого на страницах онлайн. Достаточно выбрать нужный вариант действий, язык и голос, которым все это будет произноситься. Многие программы имеют несколько разновидностей голосов: как мужских, так и женских. Для активации процесса воспроизведения обычно используется кнопка старта.

Если говорить о том, как отключить синтезатор речи, тут может быть несколько вариантов. В самом простом случае используется кнопка остановки воспроизведения в самой программе. В случае интеграции в браузер деактивация производится в настройках расширений или полным удалением плагина. А вот с мобильными устройствами, несмотря на непосредственное отключение, могут быть проблемы, о которых будет сказано отдельно.

В музыкальных программах настройки и ввод текста намного сложнее. Например, в приложении FL Studio есть свой речевой модуль, в котором можно выбрать несколько изменить настройки тональности, скорости воспроизведения и т. д. Для постановки ударений перед слогом используется символ «_». Но и такой синтезатор годится только для создания роботизированных голосов.

Но вот пакет Vocaloid от Yamaha относится к программам профессионального типа. Технология Text-to-Speech здесь реализована в наиболее полном объеме. В настройках, помимо стандартных параметров, можно выставить артикуляцию, глиссандо, использовать библиотеки с вокалом профессиональных исполнителей, составлять слова и фразы, подгоняя их под ноты, и еще кучу всего. Неудивительно, что пакет только с одним вокалом занимает порядка 4 Гб и более в установочном дистрибутиве, а после распаковки - вдвое-втрое больше.

Синтезаторы речи с русскими голосами: краткий обзор самых популярных

Но вернемся к самым простым приложениям и рассмотрим самые популярные из них.

RHVoice - по мнению большинства экспертов, лучший синтезатор речи, являющийся российской разработкой авторства В стандартном варианте доступно три голоса (Александр, Ирина, Елена). Настройки просты. А само приложение может использоваться и как самостоятельная программа, совместимая с SAPI5, и как экранный модуль.

Acapela - достаточно интересное приложение, главной особенностью которого является почти идеальная озвучка текста более чем на 30 языках мира. В обычной версии, правда, доступен только один голос (Алена).

Vocalizer - мощное приложение с женским голосом Milena. Очень часто эта программа применяется в call-центрах. Имеется множество настроек постановки ударения, громкости, скорости чтения и установки дополнительных словарей. Главное отличие состоит в том, что речевой движок может встраиваться в программы вроде Cool Reader, Moon+ Reader Pro или Full Screen Caller ID.

Festival - мощнейшая утилита синтеза и распознавания речи, созданная для систем Linux и Mac OS X. Приложение поставляется с открытым исходным кодом и, помимо стандартных языковых пакетов, имеет поддержку даже финского языка и хинди.

eSpeak - речевое приложение, поддерживающее более 50 языков. Главным недостатком считается сохранение файлов с синтезированной речью исключительно в формате WAV, который занимает уж очень много места. Зато программа является кроссплатформенной и может использоваться даже в мобильных системах.

Проблемы с синтезатором речи в Google Android

При установке «родного» синтезатора речи от Google, пользователи постоянно жалуются на то, что он самопроизвольно включает загрузку дополнительных языковых модулей, что может не только занимать достаточно длительный промежуток времени, но еще и расходует трафик.

Избавиться от этого в Android-системах можно очень просто. Для этого используем меню настроек, далее переходим в раздел языка и голосового ввода, выбираем голосовой поиск и на параметре распознавания речи оффлайн нажимаем на крестик (отключение). Дополнительно рекомендуется почистить кэш приложений и перезагрузить устройство. Иногда может потребоваться в самом приложении отключить показ уведомлений.

Что в итоге?

Поводя некий итог, можно сказать, что в большинстве случаев рядовым пользователям подойдут самые простые программы. Во всех рейтингах лидирует RHVoice. Но для музыкантов, которые хотят добиться естественного звучания голоса, чтобы разница между живым вокалом и компьютерным синтезом не ощущалась на слух, лучше отдать предпочтение программам типа Vocaloid, тем более что для них выпускается множество дополнительных голосовых библиотек, а настройки имеют столько возможностей, что примитивные приложения, как говорится, и рядом не стояли.

eSpeak
Тип синтезатор речи
Автор Джонатан Даддингтон (англ. Jonathan Duddington)
Написана на C++
Операционная система Linux и др. UNIX-подобные , Windows
Первый выпуск 2006
Последняя версия 1.48.04 (6 апреля )
Состояние неактивное
Лицензия GNU GPL
Сайт

Операционные системы

Версии eSpeak существуют под такие операционные системы как Microsoft Windows , Mac OS X , Linux , RISC OS , а также доступен его исходный код на языке C++ . Кроме того в официальной документации синтезатора даётся инструкция по его компиляции под Windows Mobile . Программа имеет одно существенное ограничение - генерация голоса возможна только в WAV файл.

Помимо этого, eSpeak используется в мобильных операционных системах Android , начиная с версии 1.6, и Maemo , но эти проекты не курируются лично разработчиком, и на официальном сайте eSpeak соответствующие пакеты отсутствуют, да и Android -версия обладает рядом существенных ошибок при работе на некоторых языках, в частности и русском.

Поддерживаемые языки

eSpeak поддерживает около пяти десятков различных языков. При инсталляции, пользователю требуется указать, поддержка каких именно диалектов его интересует.

Ниже представлен список языков, поддерживаемых синтезатором eSpeak, и их обозначений, которые используются в его настройках.

  • Албанский - sq
  • Английский (американский) - en-us
  • Английский (британский с северным акцентом) - en-n
  • Английский (британский с Уэст-Мидлендским акцентом) - en-wm
  • Английский (классический британский) - en
  • Английский (общепринятый разговорный) - en-rp
  • Английский (шотландский) - en-sc
  • Армянский (западный) - hy-west
  • Армянский (классический) - hy
  • Африкаанс - af
  • Боснийский - bs
  • Валлийский - cy
  • Венгерский - hu
  • Вьетнамский - vi
  • Голландский - nl
  • Голоса MBROLA (голос xxx) - mb-xxx
  • Греческий - el
  • Древнегреческий - grc
  • Индонезийский - id
  • Исландский - is
  • Испанский (классический) - es
  • Испанский (латиноамериканский) - es-la
  • Итальянский - it
  • Каталанский - ca
  • Китайский (кантонский диалект) - zh-yue
  • Китайский (путунхуа) - zh
  • Курдский - ku
  • Латинский - la
  • Латышский - lv
  • Ложбан - jbo
  • Македонский - mk
  • Немецкий - de
  • Норвежский - no
  • Польский - pl
  • Португальский (бразильский) - pt
  • Португальский (европейский) - pt-pt
  • Румынский - ro
  • Русский - ru
  • Сербский - sr
  • Словацкий - sk
  • Словенский - sw
  • Тамильский - ta
  • Турецкий - tr
  • Финский - fi
  • Французский - fr
  • Хинди - hi
  • Хорватский - hr
  • Чешский (разговорный) - cs
  • Шведский - sv
  • Эсперанто - eo

Список поддерживаемых языков также может быть расширен при помощи использования голосовых библиотек MBROLA, которые можно подключить к eSpeak.

eSpeak и MBROLA

MBROLA - это особый дифонный алгоритм синтеза речи, на основе которого создано множество различных программных продуктов с включением технологии преобразования текста в речь (TTS). Данный проект является рекордсменом среди прочих технологий синтеза речи по количеству различных языков, для которых он использовался. Хотя для некоторых распространённых языков MBROLA-голоса не созданы до сих пор, в том числе и для русского.

eSpeak может работать в связке с MBROLA, что обеспечивает возможность использовать голосовые библиотеки этого проекта как составную часть самого eSpeak. Это позволяет ещё больше расширить список поддерживаемых языков для синтезирования речи по тексту.

Использовать связку eSpeak и MBROLA можно на таких операционных системах как Windows , Linux и Mac OS X .

Однако интеграцию с eSpeak поддерживают не все голосовые библиотеки MBROLA.

Принципы реализации

Слова входного текста для синтезирования проходят два этапа обработки:

  • слово в буквенном представлении преобразуется в последовательность фонем;
  • генерируется звуковой сигнал на основе полученной последовательности.

Правила для получения последовательности фонем хранятся в виде «A, B, C = D». Где B - это рассматриваемая буква, A и C - контекст окружения этой буквы в слове, и D - это фонема, в которую эта буква может быть преобразована. Контекст окружения может задаваться как конкретными буквами, так и специальными символами, обозначающими группы букв. Правила синтезатора допускают неоднозначное определение таких цепочек. Для разрешения этой неоднозначности синтезатор назначает приоритет каждому правилу, который вычисляется на основе количества букв, задействованных в правиле, и степени конкретности определения контекста окружения. В правилах также можно указывать различия в трансляции в зависимости от ударения.

В eSpeak гласные звуки всегда синтезируются, звонкие согласные получаются путём смешивания синтезируемых звуков с предварительно записанными шумами голоса, а все остальные звуки просто записаны, например, [ш].

Каждый звук, кроме глухих согласных, представлен последовательностью формант. Помимо информации о формантах, каждая фонема имеет информацию о своей амплитуде, длительности звучания и задержке перед последующей фонемой. На основе этих параметров синтезируется звук гласной буквы при помощи алгоритмов, реализованных в синтезаторе. Информация о фонемах и формантах хранится в отдельных файлах, также впоследствии компилируемых в бинарный формат.

Вместе с синтезатором поставляется утилита eSpeak Edit. Это GUI-приложение, написанное при помощи библиотеки WXLib. Оно позволяет визуально редактировать готовые фонемы. Фонема представляется в виде графика кривой, где последовательно можно выбирать форманты и изменять их значения, такие как частота, высота и ширина. Благодаря этим возможностям, на основе уже готовых фонем можно получать новые, более верные звуки для некоторого языка. В то же время, некоторые из фонем получить модификацией существующих не получается. Например, при разработке русскоязычной части eSpeak был специально записан звук [р], так как для него не нашлось достойного аналога в других языках.

Проекты с использованием eSpeak

Сторонние дополнения

Некоторые языки не обладают простыми и универсальными правилами построения грамотной речи и eSpeak требуются дополнительные компоненты, чтобы производить качественный синтез на этих языках. Для того, чтобы избежать увеличения размера основного пакета eSpeak, эти компоненты распространяются отдельно. В частности, в русском языке нет общих правил, устанавливающих ударный слог в словах. В этих случаях eSpeak пытается определить ударение слова, но данное произношение часто не соответствует правильному. Для решения данной задачи существует специальный расширенный словарь произношения, который надо установить отдельно от основного пакета eSpeak.

Помимо русского, сторонние компоненты коррекции речи eSpeak ещё есть для китайского (путунхуа и кантонский).

Скачать эти словари можно с официального сайта проекта.

К:Википедия:Статьи без изображений (тип: не указан) К:Программное обеспечение, разработанное в 2006 году

eSpeak это компактный свободный программный синтезатор речи , поддерживающий Speech Synthesis Markup Language (SSML).

Операционные системы

Версии eSpeak существуют под такие операционные системы как Microsoft Windows , Mac OS X , Linux , RISC OS , а также доступен его исходный код на языке C++ . Кроме того в официальной документации синтезатора даётся инструкция по его компиляции под Windows Mobile . Программа имеет одно существенное ограничение - генерация голоса возможна только в WAV файл.

Помимо этого, eSpeak используется в мобильных операционных системах Android , начиная с версии 1.6, и Maemo , но эти проекты не курируются лично разработчиком, и на официальном сайте eSpeak соответствующие пакеты отсутствуют, да и Android -версия обладает рядом существенных ошибок при работе на некоторых языках, в частности и русском.

Поддерживаемые языки

eSpeak поддерживает около пяти десятков различных языков. При инсталляции, пользователю требуется указать, поддержка каких именно диалектов его интересует.

Ниже представлен список языков, поддерживаемых синтезатором eSpeak, и их обозначений, которые используются в его настройках.

  • Албанский - sq
  • Английский (американский) - en-us
  • Английский (британский с северным акцентом) - en-n
  • Английский (британский с Уэст-Мидлендским акцентом) - en-wm
  • Английский (классический британский) - en
  • Английский (общепринятый разговорный) - en-rp
  • Английский (шотландский) - en-sc
  • Армянский (западный) - hy-west
  • Армянский (классический) - hy
  • Африкаанс - af
  • Боснийский - bs
  • Валлийский - cy
  • Венгерский - hu
  • Вьетнамский - vi
  • Голландский - nl
  • Голоса MBROLA (голос xxx) - mb-xxx
  • Греческий - el
  • Древнегреческий - grc
  • Индонезийский - id
  • Исландский - is
  • Испанский (классический) - es
  • Испанский (латиноамериканский) - es-la
  • Итальянский - it
  • Каталанский - ca
  • Китайский (кантонский диалект) - zh-yue
  • Китайский (путунхуа) - zh
  • Курдский - ku
  • Латинский - la
  • Латышский - lv
  • Ложбан - jbo
  • Македонский - mk
  • Немецкий - de
  • Норвежский - no
  • Польский - pl
  • Португальский (бразильский) - pt
  • Португальский (европейский) - pt-pt
  • Румынский - ro
  • Русский - ru
  • Сербский - sr
  • Словацкий - sk
  • Словенский - sw
  • Тамильский - ta
  • Турецкий - tr
  • Финский - fi
  • Французский - fr
  • Хинди - hi
  • Хорватский - hr
  • Чешский (разговорный) - cs
  • Шведский - sv
  • Эсперанто - eo

Список поддерживаемых языков также может быть расширен при помощи использования голосовых библиотек MBROLA, которые можно подключить к eSpeak.

eSpeak и MBROLA

MBROLA - это особый дифонный алгоритм синтеза речи, на основе которого создано множество различных программных продуктов с включением технологии преобразования текста в речь (TTS). Данный проект является рекордсменом среди прочих технологий синтеза речи по количеству различных языков, для которых он использовался. Хотя для некоторых распространённых языков MBROLA-голоса не созданы до сих пор, в том числе и для русского.

eSpeak может работать в связке с MBROLA, что обеспечивает возможность использовать голосовые библиотеки этого проекта как составную часть самого eSpeak. Это позволяет ещё больше расширить список поддерживаемых языков для синтезирования речи по тексту.

Использовать связку eSpeak и MBROLA можно на таких операционных системах как Windows , Linux и Mac OS X .

Однако интеграцию с eSpeak поддерживают не все голосовые библиотеки MBROLA.

Принципы реализации

Слова входного текста для синтезирования проходят два этапа обработки:

  • слово в буквенном представлении преобразуется в последовательность фонем;
  • генерируется звуковой сигнал на основе полученной последовательности.

Правила для получения последовательности фонем хранятся в виде «A, B, C = D». Где B - это рассматриваемая буква, A и C - контекст окружения этой буквы в слове, и D - это фонема, в которую эта буква может быть преобразована. Контекст окружения может задаваться как конкретными буквами, так и специальными символами, обозначающими группы букв. Правила синтезатора допускают неоднозначное определение таких цепочек. Для разрешения этой неоднозначности синтезатор назначает приоритет каждому правилу, который вычисляется на основе количества букв, задействованных в правиле, и степени конкретности определения контекста окружения. В правилах также можно указывать различия в трансляции в зависимости от ударения.

В eSpeak гласные звуки всегда синтезируются, звонкие согласные получаются путём смешивания синтезируемых звуков с предварительно записанными шумами голоса, а все остальные звуки просто записаны, например, [ш].

Каждый звук, кроме глухих согласных, представлен последовательностью формант. Помимо информации о формантах, каждая фонема имеет информацию о своей амплитуде, длительности звучания и задержке перед последующей фонемой. На основе этих параметров синтезируется звук гласной буквы при помощи алгоритмов, реализованных в синтезаторе. Информация о фонемах и формантах храниться в отдельных файлах, также впоследствии компилируемых в бинарный формат.

Вместе с синтезатором поставляется утилита eSpeak Edit. Это GUI-приложение, написанное при помощи библиотеки WXLib. Оно позволяет визуально редактировать готовые фонемы. Фонема представляется в виде графика кривой, где последовательно можно выбирать форманты и изменять их значения, такие как частота, высота и ширина. Благодаря этим возможностям, на основе уже готовых фонем можно получать новые, более верные звуки для некоторого языка. В то же время, некоторые из фонем получить модификацией существующих не получается. Например, при разработке русскоязычной части eSpeak был специально записан звук [р], так как для него не нашлось достойного аналога в других языках.

Проекты с использованием eSpeak

Сторонние дополнения

Некоторые языки не обладают простыми и универсальными правилами построения грамотной речи и eSpeak требуются дополнительные компоненты, чтобы производить качественный синтез на этих языках. Для того, чтобы избежать увеличения размера основного пакета eSpeak, эти компоненты распространяются отдельно. В частности, в русском языке нет общих правил, устанавливающих ударный слог в словах. В этих случаях eSpeak пытается определить ударение слова, но данное произношение часто не соответствует правильному. Для решения данной задачи существует специальный расширенный словарь произношения, который надо установить отдельно от основного пакета eSpeak.

Помимо русского, сторонние компоненты коррекции речи eSpeak ещё есть для китайского (путунхуа и кантонский).

Скачать эти словари можно с официального сайта проекта.

См. также

Напишите отзыв о статье "ESpeak"

Примечания

Ссылки

  • на .

Отрывок, характеризующий ESpeak

Солдаты товарищи, шедшие рядом с Пьером, не оглядывались, так же как и он, на то место, с которого послышался выстрел и потом вой собаки; но строгое выражение лежало на всех лицах.

Депо, и пленные, и обоз маршала остановились в деревне Шамшеве. Все сбилось в кучу у костров. Пьер подошел к костру, поел жареного лошадиного мяса, лег спиной к огню и тотчас же заснул. Он спал опять тем же сном, каким он спал в Можайске после Бородина.
Опять события действительности соединялись с сновидениями, и опять кто то, сам ли он или кто другой, говорил ему мысли, и даже те же мысли, которые ему говорились в Можайске.
«Жизнь есть всё. Жизнь есть бог. Все перемещается и движется, и это движение есть бог. И пока есть жизнь, есть наслаждение самосознания божества. Любить жизнь, любить бога. Труднее и блаженнее всего любить эту жизнь в своих страданиях, в безвинности страданий».
«Каратаев» – вспомнилось Пьеру.
И вдруг Пьеру представился, как живой, давно забытый, кроткий старичок учитель, который в Швейцарии преподавал Пьеру географию. «Постой», – сказал старичок. И он показал Пьеру глобус. Глобус этот был живой, колеблющийся шар, не имеющий размеров. Вся поверхность шара состояла из капель, плотно сжатых между собой. И капли эти все двигались, перемещались и то сливались из нескольких в одну, то из одной разделялись на многие. Каждая капля стремилась разлиться, захватить наибольшее пространство, но другие, стремясь к тому же, сжимали ее, иногда уничтожали, иногда сливались с нею.
– Вот жизнь, – сказал старичок учитель.
«Как это просто и ясно, – подумал Пьер. – Как я мог не знать этого прежде».
– В середине бог, и каждая капля стремится расшириться, чтобы в наибольших размерах отражать его. И растет, сливается, и сжимается, и уничтожается на поверхности, уходит в глубину и опять всплывает. Вот он, Каратаев, вот разлился и исчез. – Vous avez compris, mon enfant, [Понимаешь ты.] – сказал учитель.
– Vous avez compris, sacre nom, [Понимаешь ты, черт тебя дери.] – закричал голос, и Пьер проснулся.
Он приподнялся и сел. У костра, присев на корточках, сидел француз, только что оттолкнувший русского солдата, и жарил надетое на шомпол мясо. Жилистые, засученные, обросшие волосами, красные руки с короткими пальцами ловко поворачивали шомпол. Коричневое мрачное лицо с насупленными бровями ясно виднелось в свете угольев.
– Ca lui est bien egal, – проворчал он, быстро обращаясь к солдату, стоявшему за ним. – …brigand. Va! [Ему все равно… разбойник, право!]
И солдат, вертя шомпол, мрачно взглянул на Пьера. Пьер отвернулся, вглядываясь в тени. Один русский солдат пленный, тот, которого оттолкнул француз, сидел у костра и трепал по чем то рукой. Вглядевшись ближе, Пьер узнал лиловую собачонку, которая, виляя хвостом, сидела подле солдата.
– А, пришла? – сказал Пьер. – А, Пла… – начал он и не договорил. В его воображении вдруг, одновременно, связываясь между собой, возникло воспоминание о взгляде, которым смотрел на него Платон, сидя под деревом, о выстреле, слышанном на том месте, о вое собаки, о преступных лицах двух французов, пробежавших мимо его, о снятом дымящемся ружье, об отсутствии Каратаева на этом привале, и он готов уже был понять, что Каратаев убит, но в то же самое мгновенье в его душе, взявшись бог знает откуда, возникло воспоминание о вечере, проведенном им с красавицей полькой, летом, на балконе своего киевского дома. И все таки не связав воспоминаний нынешнего дня и не сделав о них вывода, Пьер закрыл глаза, и картина летней природы смешалась с воспоминанием о купанье, о жидком колеблющемся шаре, и он опустился куда то в воду, так что вода сошлась над его головой.
Перед восходом солнца его разбудили громкие частые выстрелы и крики. Мимо Пьера пробежали французы.
– Les cosaques! [Казаки!] – прокричал один из них, и через минуту толпа русских лиц окружила Пьера.
Долго не мог понять Пьер того, что с ним было. Со всех сторон он слышал вопли радости товарищей.
– Братцы! Родимые мои, голубчики! – плача, кричали старые солдаты, обнимая казаков и гусар. Гусары и казаки окружали пленных и торопливо предлагали кто платья, кто сапоги, кто хлеба. Пьер рыдал, сидя посреди их, и не мог выговорить ни слова; он обнял первого подошедшего к нему солдата и, плача, целовал его.
Долохов стоял у ворот разваленного дома, пропуская мимо себя толпу обезоруженных французов. Французы, взволнованные всем происшедшим, громко говорили между собой; но когда они проходили мимо Долохова, который слегка хлестал себя по сапогам нагайкой и глядел на них своим холодным, стеклянным, ничего доброго не обещающим взглядом, говор их замолкал. С другой стороны стоял казак Долохова и считал пленных, отмечая сотни чертой мела на воротах.
– Сколько? – спросил Долохов у казака, считавшего пленных.
– На вторую сотню, – отвечал казак.
– Filez, filez, [Проходи, проходи.] – приговаривал Долохов, выучившись этому выражению у французов, и, встречаясь глазами с проходившими пленными, взгляд его вспыхивал жестоким блеском.
Денисов, с мрачным лицом, сняв папаху, шел позади казаков, несших к вырытой в саду яме тело Пети Ростова.

С 28 го октября, когда начались морозы, бегство французов получило только более трагический характер замерзающих и изжаривающихся насмерть у костров людей и продолжающих в шубах и колясках ехать с награбленным добром императора, королей и герцогов; но в сущности своей процесс бегства и разложения французской армии со времени выступления из Москвы нисколько не изменился.
От Москвы до Вязьмы из семидесятитрехтысячной французской армии, не считая гвардии (которая во всю войну ничего не делала, кроме грабежа), из семидесяти трех тысяч осталось тридцать шесть тысяч (из этого числа не более пяти тысяч выбыло в сражениях). Вот первый член прогрессии, которым математически верно определяются последующие.
Французская армия в той же пропорции таяла и уничтожалась от Москвы до Вязьмы, от Вязьмы до Смоленска, от Смоленска до Березины, от Березины до Вильны, независимо от большей или меньшей степени холода, преследования, заграждения пути и всех других условий, взятых отдельно. После Вязьмы войска французские вместо трех колонн сбились в одну кучу и так шли до конца. Бертье писал своему государю (известно, как отдаленно от истины позволяют себе начальники описывать положение армии). Он писал:
«Je crois devoir faire connaitre a Votre Majeste l"etat de ses troupes dans les differents corps d"annee que j"ai ete a meme d"observer depuis deux ou trois jours dans differents passages. Elles sont presque debandees. Le nombre des soldats qui suivent les drapeaux est en proportion du quart au plus dans presque tous les regiments, les autres marchent isolement dans differentes directions et pour leur compte, dans l"esperance de trouver des subsistances et pour se debarrasser de la discipline. En general ils regardent Smolensk comme le point ou ils doivent se refaire. Ces derniers jours on a remarque que beaucoup de soldats jettent leurs cartouches et leurs armes. Dans cet etat de choses, l"interet du service de Votre Majeste exige, quelles que soient ses vues ulterieures qu"on rallie l"armee a Smolensk en commencant a la debarrasser des non combattans, tels que hommes demontes et des bagages inutiles et du materiel de l"artillerie qui n"est plus en proportion avec les forces actuelles. En outre les jours de repos, des subsistances sont necessaires aux soldats qui sont extenues par la faim et la fatigue; beaucoup sont morts ces derniers jours sur la route et dans les bivacs. Cet etat de choses va toujours en augmentant et donne lieu de craindre que si l"on n"y prete un prompt remede, on ne soit plus maitre des troupes dans un combat. Le 9 November, a 30 verstes de Smolensk».
[Долгом поставляю донести вашему величеству о состоянии корпусов, осмотренных мною на марше в последние три дня. Они почти в совершенном разброде. Только четвертая часть солдат остается при знаменах, прочие идут сами по себе разными направлениями, стараясь сыскать пропитание и избавиться от службы. Все думают только о Смоленске, где надеются отдохнуть. В последние дни много солдат побросали патроны и ружья. Какие бы ни были ваши дальнейшие намерения, но польза службы вашего величества требует собрать корпуса в Смоленске и отделить от них спешенных кавалеристов, безоружных, лишние обозы и часть артиллерии, ибо она теперь не в соразмерности с числом войск. Необходимо продовольствие и несколько дней покоя; солдаты изнурены голодом и усталостью; в последние дни многие умерли на дороге и на биваках. Такое бедственное положение беспрестанно усиливается и заставляет опасаться, что, если не будут приняты быстрые меры для предотвращения зла, мы скоро не будем иметь войска в своей власти в случае сражения. 9 ноября, в 30 верстах от Смоленка.]
Ввалившись в Смоленск, представлявшийся им обетованной землей, французы убивали друг друга за провиант, ограбили свои же магазины и, когда все было разграблено, побежали дальше.

Есть вопросы?

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: