ОЦЕНКА ВОЗДЕЙСТВИЯ ШУМА НА РЕЗУЛЬТАТИВНОСЬ РАЗЛИЧНЫХ НЕЙРОННЫХ СЕТЕЙ В РАСПОЗНАВАНИИ РЕЧЕВОГО СИГНАЛА
DOI:
https://doi.org/10.52167/1609-1817-2025-137-2-367-375Ключевые слова:
сверточная нейронная сеть (CNN), рекуррентная нейронная сеть (RNN), многослойный персептрон (MLP), детектор голосовой активности (VAD), искусственные нейронные сети (ANN)Аннотация
В данной статье проведено исследование эффективности трех типов нейронных сетей таких как CNN, RNN и MLP для распознавания речевого сигнала на казахском языке. Для этого были использованы специально подготовленные наборы данных с добавлением шума различного уровня и типа, а также проведены эксперименты. Результаты исследования показали, что рекуррентная нейронная сеть RNN продемонстрировала лучшую производительность по сравнению с CNN и MLP в задаче распознавания речевого сигнала на казахском языке. RNN показала более высокую точность и стабильность работы даже в условиях акустических помех, что делает ее более перспективным инструментом для разработки систем распознавания речи на казахском языке. Кроме того, дополнительно было изучено влияние количества дикторов на производительность нейронных сетей в задаче распознавания речевого сигнал. Анализ данных позволил выявить оптимальное количество дикторов, необходимых для обучения сети с целью достижения максимальной точности распознавания. Расчет аппроксимирующих функций на основе экспериментальных результатов позволил более точно определить зависимость ошибки распознавания от количества дикторов. Полученные в ходе исследования результаты имеют важное практическое значение для разработки автоматизированных систем распознавания речи на различных языках, включая казахский язык.
Библиографические ссылки
[1] Blum, N., Lachapelle, S., Alvestrand, H. Webrtc: Real-time communication for the open web platform. Communications of the ACM 64, 2021, 50–54.
[2] Tan, Z.H., Dehak, N., et al. RVAD: An unsupervised segment-based robust voice activity detection method. Computer speech & language 59, 2020, 1–21
[3] Tucker R., Tucker. Voice activity detection using a periodicity measure.IEE Proc. I (Commun. Speech Vis.). 139(4), 377–380 (1992)
[4] Junqua J.-C., H. Wakita, in Acoustics, Speech, and Signal Processing, 1989.ICASSP-89., 1989 International Conference On. A comparative study of cepstral lifters and distance measures for all pole models of speech in noise (IEEE, 1989), pp. 476–479
[5] Nemer E., R. Goubran, S. Mahmoud. Robust voice activity detection using higher-order statistics in the LPC residual domain. IEEE Trans.Speech Audio Process. 9(3), 217–231 (2001).
[6] Sharma, M., Joshi, S., Chatterjee, T., Hamid. A comprehensive empirical review of modern voice activity detection approaches for movies and tv shows. Neurocomputing 494, 2020, 116–131
[7] Wang, L., Phapatanaburi, K., Go, Z., Nakagawa, S., Iwahashi, M., Dang, J. Phase aware deep neural network for noise robust voice activity detection, in: 2017 IEEE International Conference on Multimedia and Expo (ICME), pp. 1087–1092
[8] Jia, F., Majumdar, S., Ginsburg, B. Marblenet: Deep 1d time-channel separable convolutional neural network for voice activity detection, in: ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 6818–6822
[9] Wilkinson, N., Niesler, T. A hybrid cnn-bilstm voice activity detector, in: ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), IEEE. pp. 6803–6807
[10] López-Espejo, I.; Tan, Z.H.; Jensen, J. A Novel Loss Function and Training Strategy for Noise-Robust Keyword Spotting. IEEE/ACM Trans. Audio Speech Lang. Proc. 2021, 29, 2254–2266.
[11] Nasiri, A.; Hu, J. SoundCLR: Contrastive learning of representations for improved environmental sound classification. arXiv 2021, arXiv:2103.01929
[12] Zhang, XL., Xu, M. AUC optimization for deep learning-based voice activity detection. J AUDIO SPEECH MUSIC PROC. 2022, 27 (2022). https://doi.org/10.1186/s13636-022-00260-9
[13] Panayotov, V.; Chen, G.; Povey, D.; Khudanpur, S. Librispeech: An asr corpus based on public domain audio books. In Proceedings of the 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), South Brisbane, Australia, 19–24 April 2015; pp. 5206–5210.
[14] Mussakhojayeva, S., Khassanov, Y., Atakan Varol, H. KSC2: An Industrial-Scale Open-Source Kazakh Speech Corpus. Interspeech 2022. https://doi.org/10.21437/interspeech.2022-421
[15] Font, F., Roma, G., Serra, X. Freesound Technical Demo. In Proceedings of the 21st ACM International Conference on Multimedia MM ’13, Barcelona, Spain, 21 October 2013; Association for Computing Machinery: New York, NY, USA, 2013; pp. 411–412.
Загрузки
Опубликован
Как цитировать
Выпуск
Раздел
Категории
Лицензия
Copyright (c) 2025 Айгуль Нурланкызы, Айгуль Кулакаева, Бекболат Медетов, Тимур Намазбаев

Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial-NoDerivatives» («Атрибуция — Некоммерческое использование — Без производных произведений») 4.0 Всемирная.