ПРОБЛЕМЫ РАЗРАБОТКИ СИСТЕМЫ РАСПОЗНАВАНИЯ ДЕТСКОЙ РЕЧИ ДЛЯ КАЗАХСКОГО ЯЗЫКА

Авторы

  • Дина Оралбекова Институт информационных и вычислительных технологий КН МНВО РК
  • Оркен Мамырбаев Институт информационных и вычислительных технологий КН МНВО РК
  • Динара Касымова Академия логистики и транспорта
  • Куралай Мухсина Институт информационных и вычислительных технологий КН МНВО РК

DOI:

https://doi.org/10.52167/1609-1817-2024-130-1-286-295

Ключевые слова:

автоматическое распознавание речи, детская речь, казахский язык, извлечение признаков, сквозные модели

Аннотация

Область автоматического распознавания речи активно развивается в рамках машинного обучения и становится важным инструментом для управления различными устройствами и автоматизации систем. Однако большинство таких систем преимущественно нацелены на работу с речью взрослых, в результате чего потребности детей остаются без внимания. Особенности детского голоса и его развитие повышают риск ошибок при распознавании детской речи, особенно когда используются приложения, разработанные и тренированные на взрослых голосах. К тому же, многие приложения не учитывают уникальность детской речи и характеристики языка, который дети используют в общении как с ровесниками, так и со взрослыми. Кроме того, ощущается недостаток данных для языков агглютинативной группы, таких как тюркские языки, что затрудняет сбор достаточного и качественного корпуса. В данной работе рассматриваются подходы к распознаванию детской речи с применением данных, адаптированных для взрослых, и их влияние на точность распознавания казахского языка. Изучены две модели: коннекционная временная классификация и архитектура с механизмом внимания и моделью вставок. Несмотря на то, что результаты являются обнадеживающими, в будущем потребуются дополнительные улучшения и расширение корпуса с записями детской речи.

Биографии авторов

Дина Оралбекова, Институт информационных и вычислительных технологий КН МНВО РК

PhD, старший научный сотрудник, Алматы, Казахстан, dinaoral@mail.ru

Оркен Мамырбаев, Институт информационных и вычислительных технологий КН МНВО РК

PhD, ассоциированный профессор, Алматы, Казахстан, morkenj@mail.ru

Динара Касымова, Академия логистики и транспорта

PhD, ассистент-профессор, Алматы, Казахстан, d.kassymova@alt.edu.kz

Куралай Мухсина, Институт информационных и вычислительных технологий КН МНВО РК

PhD, старший научный сотрудник, Алматы, Казахстан, kuka_ai@mail.ru

Библиографические ссылки

[1] Торманова О. В. - Детский голос и особенности его развития. – URL: https://engels-dshi4.ru/index.php?option=com_content&view=article&id=86:tormanova-o-v-detskij-golos-i-osobennosti-ego-razvitiya&catid=18&Itemid=131

[2] Голос как препятствие: 5 проблем современных технологий распознавания речи. – URL: https://te-st.org/2021/06/02/voice-assistants-and-problems/

[3] Mamyrbayev, O., Oralbekova, D., Alimhan, K., Othman M., Turdalykyzy Т. (2022) A study of transformer-based end-to-end speech recognition system for kazakh language. Scientific reports 12, 8337. https://doi.org/10.1038/s41598-022-12260-y

[4] Mamyrbayev, O.Z., Oralbekova, D.O., Alimhan, K. et al. Hybrid end-to-end model for Kazakh speech recognition. International Journal of Speech Technology (2022). https://doi.org/10.1007/s10772-022-09983-8

[5] Oralbekova, D., Mamyrbayev, O., Othman, M., Alimhan, K., Zhumazhanov, B., Nuranbayeva, B. (2022). Development of CRF and CTC Based End-To-End Kazakh Speech Recognition System. Intelligent Information and Database Systems. ACIIDS 2022. Lecture Notes in Computer Science, vol 13757. Springer, Cham. https://doi.org/10.1007/978-3-031-21743-2_41

[6] Mamyrbayev O., Oralbekova D., Kydyrbekova A., Turdalykyzy T., Bekarystankyzy A., "End-to-End Model Based on RNN-T for Kazakh Speech Recognition," 2021 3rd International Conference on Computer Communication and the Internet (ICCCI), 2021, pp. 163-167, doi: 10.1109/ICCCI51764.2021.9486811

[7] Abulimiti A., Schultz T. 2020. Automatic Speech Recognition for Uyghur through Multilingual Acoustic Modeling. In Proceedings of the Twelfth Language Resources and Evaluation Conference, pages 6444–6449, Marseille, France. European Language Resources Association.

[8] Du W., Maimaitiyiming Y., Nijat M., Li L., Hamdulla, A., Wang D. Automatic Speech Recognition for Uyghur, Kazakh, and Kyrgyz: An Overview. Appl. Sci. 2023, 13, 326. https://doi.org/10.3390/app13010326

[9] Mukhamadiyev A., Khujayarov I., Djuraev O., Cho J. Automatic Speech Recognition Method Based on Deep Learning Approaches for Uzbek Language. Sensors 2022, 22, 3683. https://doi.org/10.3390/s22103683,

[10] Ren Z., Yolwas N., Slamu W., Cao R., Wang H. Improving Hybrid CTC/Attention Architecture for Agglutinative Language Speech Recognition. Sensors 2022, 22, 7319. https://doi.org/10.3390/s22197319

[11] Rathor S., Jadon R. S., "Speech Recognition and System Controlling using Hindi Language," 2019 10th International Conference on Computing, Communication and Networking Technologies (ICCCNT), Kanpur, India, 2019, pp. 1-6, doi: 10.1109/ICCCNT45670.2019.8944641

[12] Распознавание речи в медицине: зачем нам это нужно. – URL: https://www.techinsider.ru/technologies/1122303-raspoznavanie-rechi-v-medicine-zachem-nam-eto-nuzhno/

[13] Sensory. – URL: https://www.sensory.com/

[14] SoapBox. – URL: https://www.soapboxlabs.com/

[15] Kadyan V., Shanawazuddin S., Singh S. Developing children’s speech recognition system for low resource Punjabi language. Applied Acoustics, Volume 178, 2021, 108002, ISSN 0003-682X, https://doi.org/10.1016/j.apacoust.2021.108002.

[16] Thienpondt J., Demuynck K. (2022). Transfer Learning for Robust Low-Resource Children's Speech ASR with Transformers and Source-Filter Warping. 10.48550/arXiv.2206.09396.

[17] Tong, Rong, Wang Lei, Ma Bin. (2017). Transfer learning for children's speech recognition. 36-39. 10.1109/IALP.2017.8300540.

[18] Child speech recognition as low-resource automatic speech recognition. – URL: https://jscholarship.library.jhu.edu/bitstream/handle/1774.2/62766/WU-THESIS-2020.pdf?sequence=1

[19] Dubagunta S. P., Hande Kabil S., Magimai M., "Improving Children Speech Recognition through Feature Learning from Raw Speech Signal," ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brighton, UK, 2019, pp. 5736-5740, doi: 10.1109/ICASSP.2019.8682826.

[20] Mamyrbayev O., Oralbekova D., Othman M., Turdalykyzy T., Zhumazhanov B., Mukhsina K. (2022) Investigation of Insertion-based Speech Recognition Method. International Journal of Signal Processing, 7, 32-35

Загрузки

Опубликован

15.01.2024

Как цитировать

Оралбекова, Д., Мамырбаев, О., Касымова, Д., & Мухсина, К. (2024). ПРОБЛЕМЫ РАЗРАБОТКИ СИСТЕМЫ РАСПОЗНАВАНИЯ ДЕТСКОЙ РЕЧИ ДЛЯ КАЗАХСКОГО ЯЗЫКА. Вестник КазАТК, 130(1), 286–295. https://doi.org/10.52167/1609-1817-2024-130-1-286-295

Выпуск

Раздел

Автоматизация, телемеханика, связь, компьютерные науки

Наиболее читаемые статьи этого автора (авторов)