В статье описан процесс моделирования системы синтеза речи, основанный на имеющихся акустических данных, которые используются для машинного обучения с целью получения модели, соответствующей естественным характеристикам речи. Описываются этапы создания фонетико-акустической базы данных, адаптированной для обучения системы автоматического синтеза речи. Представлен фонетический транскриптор, разработанный с учетом проблематики графемно-фонемных преобразований чеченского языка. Дана информация о подготовке обучающей экспериментальной базы данных, процессе машинного обучения системы, настройке параметров нейронной сети, результате эксперимента по обучению системы синтеза речи. Рассмотрена проблема устранения графической омонимии при транскрибировании чеченских текстов и пути ее решения.
1. Израилова Э. С. "Фонетический алфавит" чеченского языка как основа системы синтеза речи // Научно-техническая информация. Серия 2: Информационные процессы и системы. 2018. № 2. С. 35-39.
2. Израилова Э. С. Особенности машинного обучения средствами CNN в рамках синтеза речи // Вестник ГГНТУ. Технические науки. 2019. Т. XV. № 2 (16). С. 29-35.
3. Карпов А. А., Верходанова В. О. Речевые технологии для малоресурсных языков мира // Вопросы языкознания. 2015. № 2. С. 117-135.
4. Тягунов Д. В. Обзор существующих методов синтеза речи по печатному тексту // Научный вестник Черновицкого университета. Физика. Электроника. 2008. Вып. 423. С. 138-142.
5. Умархаджиев С. М., Бекаев М. Х., Бадаева А. С., Израилова Э. С., Султанов З. А. и др. DoshStat. Cвидетельство о регистрации программы для ЭВМ RUS 2018617362. Дата регистрации: 11.05.2018.
6. Халидов А. И., Тимаев А. Д., Овхадов М. Р. Грамматика чеченского языка. Т. 1. Введение в грамматику. Фонетика. Морфемика. Словообразование. Грозный: ФГУП ИПК "Грозненский рабочий", 2013. 848 с.
7. Arik S. O, Chrzanowski M., Coates A. et al. Deep voice: Real-time neural text-to-speech // Proceedings of the 34th International Conference on Machine Learning (PMLR). 2017. Vol. 70. P. 195-204.
8. Cho K., van Merriënboer B., Gulcehre C. et al. Learning phrase representations using RNN encoder-decoder for statistical machine translation // Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Doha: Association for Computational Linguistics, 2014. P. 1724-1734.
9. Sotelo J., Mehri S., Kumar K., Santos J. F., Kastner K. et al. Char2wav: End-to-end speech synthesis // Proceedings of ICLR, 2017. [Online]. URL: https://mila.quebec/wp-content/uploads/2017/02/end-end-speech.pdf (accessed 12.09.2018).
10. Tachibana H., Uenoyama K., Aihara S. Efficiently trainable text-to-speech system based on deep convolutional networks with guided attention. [Online]. URL: https://arxiv.org/pdf/1710.08969.pdf (accessed 19.11.2018).
11. van den Oord A., Dieleman S., Zen H. WaveNet: A Generative model for raw audio. [Online]. URL: https://deepmind.com/blog/wavenet-generative-model-raw-audio/ (accessed 12.09.2018).