ПРОБЛЕМЫ РАЗРАБОТКИ СИСТЕМЫ РАСПОЗНАВАНИЯ ДЕТСКОЙ РЕЧИ ДЛЯ КАЗАХСКОГО ЯЗЫКА
DOI:
https://doi.org/10.52167/1609-1817-2024-130-1-286-295Ключевые слова:
автоматическое распознавание речи, детская речь, казахский язык, извлечение признаков, сквозные моделиАннотация
Область автоматического распознавания речи активно развивается в рамках машинного обучения и становится важным инструментом для управления различными устройствами и автоматизации систем. Однако большинство таких систем преимущественно нацелены на работу с речью взрослых, в результате чего потребности детей остаются без внимания. Особенности детского голоса и его развитие повышают риск ошибок при распознавании детской речи, особенно когда используются приложения, разработанные и тренированные на взрослых голосах. К тому же, многие приложения не учитывают уникальность детской речи и характеристики языка, который дети используют в общении как с ровесниками, так и со взрослыми. Кроме того, ощущается недостаток данных для языков агглютинативной группы, таких как тюркские языки, что затрудняет сбор достаточного и качественного корпуса. В данной работе рассматриваются подходы к распознаванию детской речи с применением данных, адаптированных для взрослых, и их влияние на точность распознавания казахского языка. Изучены две модели: коннекционная временная классификация и архитектура с механизмом внимания и моделью вставок. Несмотря на то, что результаты являются обнадеживающими, в будущем потребуются дополнительные улучшения и расширение корпуса с записями детской речи.
Библиографические ссылки
[1] Торманова О. В. - Детский голос и особенности его развития. – URL: https://engels-dshi4.ru/index.php?option=com_content&view=article&id=86:tormanova-o-v-detskij-golos-i-osobennosti-ego-razvitiya&catid=18&Itemid=131
[2] Голос как препятствие: 5 проблем современных технологий распознавания речи. – URL: https://te-st.org/2021/06/02/voice-assistants-and-problems/
[3] Mamyrbayev, O., Oralbekova, D., Alimhan, K., Othman M., Turdalykyzy Т. (2022) A study of transformer-based end-to-end speech recognition system for kazakh language. Scientific reports 12, 8337. https://doi.org/10.1038/s41598-022-12260-y
[4] Mamyrbayev, O.Z., Oralbekova, D.O., Alimhan, K. et al. Hybrid end-to-end model for Kazakh speech recognition. International Journal of Speech Technology (2022). https://doi.org/10.1007/s10772-022-09983-8
[5] Oralbekova, D., Mamyrbayev, O., Othman, M., Alimhan, K., Zhumazhanov, B., Nuranbayeva, B. (2022). Development of CRF and CTC Based End-To-End Kazakh Speech Recognition System. Intelligent Information and Database Systems. ACIIDS 2022. Lecture Notes in Computer Science, vol 13757. Springer, Cham. https://doi.org/10.1007/978-3-031-21743-2_41
[6] Mamyrbayev O., Oralbekova D., Kydyrbekova A., Turdalykyzy T., Bekarystankyzy A., "End-to-End Model Based on RNN-T for Kazakh Speech Recognition," 2021 3rd International Conference on Computer Communication and the Internet (ICCCI), 2021, pp. 163-167, doi: 10.1109/ICCCI51764.2021.9486811
[7] Abulimiti A., Schultz T. 2020. Automatic Speech Recognition for Uyghur through Multilingual Acoustic Modeling. In Proceedings of the Twelfth Language Resources and Evaluation Conference, pages 6444–6449, Marseille, France. European Language Resources Association.
[8] Du W., Maimaitiyiming Y., Nijat M., Li L., Hamdulla, A., Wang D. Automatic Speech Recognition for Uyghur, Kazakh, and Kyrgyz: An Overview. Appl. Sci. 2023, 13, 326. https://doi.org/10.3390/app13010326
[9] Mukhamadiyev A., Khujayarov I., Djuraev O., Cho J. Automatic Speech Recognition Method Based on Deep Learning Approaches for Uzbek Language. Sensors 2022, 22, 3683. https://doi.org/10.3390/s22103683,
[10] Ren Z., Yolwas N., Slamu W., Cao R., Wang H. Improving Hybrid CTC/Attention Architecture for Agglutinative Language Speech Recognition. Sensors 2022, 22, 7319. https://doi.org/10.3390/s22197319
[11] Rathor S., Jadon R. S., "Speech Recognition and System Controlling using Hindi Language," 2019 10th International Conference on Computing, Communication and Networking Technologies (ICCCNT), Kanpur, India, 2019, pp. 1-6, doi: 10.1109/ICCCNT45670.2019.8944641
[12] Распознавание речи в медицине: зачем нам это нужно. – URL: https://www.techinsider.ru/technologies/1122303-raspoznavanie-rechi-v-medicine-zachem-nam-eto-nuzhno/
[13] Sensory. – URL: https://www.sensory.com/
[14] SoapBox. – URL: https://www.soapboxlabs.com/
[15] Kadyan V., Shanawazuddin S., Singh S. Developing children’s speech recognition system for low resource Punjabi language. Applied Acoustics, Volume 178, 2021, 108002, ISSN 0003-682X, https://doi.org/10.1016/j.apacoust.2021.108002.
[16] Thienpondt J., Demuynck K. (2022). Transfer Learning for Robust Low-Resource Children's Speech ASR with Transformers and Source-Filter Warping. 10.48550/arXiv.2206.09396.
[17] Tong, Rong, Wang Lei, Ma Bin. (2017). Transfer learning for children's speech recognition. 36-39. 10.1109/IALP.2017.8300540.
[18] Child speech recognition as low-resource automatic speech recognition. – URL: https://jscholarship.library.jhu.edu/bitstream/handle/1774.2/62766/WU-THESIS-2020.pdf?sequence=1
[19] Dubagunta S. P., Hande Kabil S., Magimai M., "Improving Children Speech Recognition through Feature Learning from Raw Speech Signal," ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brighton, UK, 2019, pp. 5736-5740, doi: 10.1109/ICASSP.2019.8682826.
[20] Mamyrbayev O., Oralbekova D., Othman M., Turdalykyzy T., Zhumazhanov B., Mukhsina K. (2022) Investigation of Insertion-based Speech Recognition Method. International Journal of Signal Processing, 7, 32-35
Загрузки
Опубликован
Как цитировать
Выпуск
Раздел
Лицензия
Copyright (c) 2024 Дина Оралбекова, Өркен Мамырбаев, Динара Касымова, Куралай Мухсина
Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial-NoDerivatives» («Атрибуция — Некоммерческое использование — Без производных произведений») 4.0 Всемирная.