ОЦЕНКА ВОЗДЕЙСТВИЯ ШУМА НА РЕЗУЛЬТАТИВНОСЬ РАЗЛИЧНЫХ НЕЙРОННЫХ СЕТЕЙ В РАСПОЗНАВАНИИ РЕЧЕВОГО СИГНАЛА

Авторы

  • Айгуль Нурланкызы Satbayev University, Energo University
  • Айгуль Кулакаева International Information Technologies University
  • Бекболат Медетов Seifullin University https://orcid.org/0000-0002-5594-8435
  • Тимур Намазбаев Farabi University https://orcid.org/0000-0002-2389-2262

DOI:

https://doi.org/10.52167/1609-1817-2025-137-2-367-375

Ключевые слова:

сверточная нейронная сеть (CNN), рекуррентная нейронная сеть (RNN), многослойный персептрон (MLP), детектор голосовой активности (VAD), искусственные нейронные сети (ANN)

Аннотация

В данной статье проведено исследование эффективности трех типов нейронных сетей таких как CNN, RNN и MLP для распознавания речевого сигнала на казахском языке. Для этого были использованы специально подготовленные наборы данных с добавлением шума различного уровня и типа, а также проведены эксперименты. Результаты исследования показали, что рекуррентная нейронная сеть RNN продемонстрировала лучшую производительность по сравнению с CNN и MLP в задаче распознавания речевого сигнала на казахском языке. RNN показала более высокую точность и стабильность работы даже в условиях акустических помех, что делает ее более перспективным инструментом для разработки систем распознавания речи на казахском языке. Кроме того, дополнительно было изучено влияние количества дикторов на производительность нейронных сетей в задаче распознавания речевого сигнал. Анализ данных позволил выявить оптимальное количество дикторов, необходимых для обучения сети с целью достижения максимальной точности распознавания. Расчет аппроксимирующих функций на основе экспериментальных результатов позволил более точно определить зависимость ошибки распознавания от количества дикторов. Полученные в ходе исследования результаты имеют важное практическое значение для разработки автоматизированных систем распознавания речи на различных языках, включая казахский язык.

Биографии авторов

Айгуль Нурланкызы, Satbayev University, Energo University

докторант, Алматы, Казахстан, nurlankyzyaigulya@gmail.com

Айгуль Кулакаева, International Information Technologies University

PhD, Алматы, Казахстан, a.kulakayeva@iitu.edu.kz

Бекболат Медетов, Seifullin University

PhD, ассоциированный профессор, Астана, Казахстан, bm02@mail.ru

Тимур Намазбаев, Farabi University

магистр, старший преподаватель, Алматы, Казахстан, timur.namazbayev@gmail.com

Библиографические ссылки

[1] Blum, N., Lachapelle, S., Alvestrand, H. Webrtc: Real-time communication for the open web platform. Communications of the ACM 64, 2021, 50–54.

[2] Tan, Z.H., Dehak, N., et al. RVAD: An unsupervised segment-based robust voice activity detection method. Computer speech & language 59, 2020, 1–21

[3] Tucker R., Tucker. Voice activity detection using a periodicity measure.IEE Proc. I (Commun. Speech Vis.). 139(4), 377–380 (1992)

[4] Junqua J.-C., H. Wakita, in Acoustics, Speech, and Signal Processing, 1989.ICASSP-89., 1989 International Conference On. A comparative study of cepstral lifters and distance measures for all pole models of speech in noise (IEEE, 1989), pp. 476–479

[5] Nemer E., R. Goubran, S. Mahmoud. Robust voice activity detection using higher-order statistics in the LPC residual domain. IEEE Trans.Speech Audio Process. 9(3), 217–231 (2001).

[6] Sharma, M., Joshi, S., Chatterjee, T., Hamid. A comprehensive empirical review of modern voice activity detection approaches for movies and tv shows. Neurocomputing 494, 2020, 116–131

[7] Wang, L., Phapatanaburi, K., Go, Z., Nakagawa, S., Iwahashi, M., Dang, J. Phase aware deep neural network for noise robust voice activity detection, in: 2017 IEEE International Conference on Multimedia and Expo (ICME), pp. 1087–1092

[8] Jia, F., Majumdar, S., Ginsburg, B. Marblenet: Deep 1d time-channel separable convolutional neural network for voice activity detection, in: ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 6818–6822

[9] Wilkinson, N., Niesler, T. A hybrid cnn-bilstm voice activity detector, in: ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), IEEE. pp. 6803–6807

[10] López-Espejo, I.; Tan, Z.H.; Jensen, J. A Novel Loss Function and Training Strategy for Noise-Robust Keyword Spotting. IEEE/ACM Trans. Audio Speech Lang. Proc. 2021, 29, 2254–2266.

[11] Nasiri, A.; Hu, J. SoundCLR: Contrastive learning of representations for improved environmental sound classification. arXiv 2021, arXiv:2103.01929

[12] Zhang, XL., Xu, M. AUC optimization for deep learning-based voice activity detection. J AUDIO SPEECH MUSIC PROC. 2022, 27 (2022). https://doi.org/10.1186/s13636-022-00260-9

[13] Panayotov, V.; Chen, G.; Povey, D.; Khudanpur, S. Librispeech: An asr corpus based on public domain audio books. In Proceedings of the 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), South Brisbane, Australia, 19–24 April 2015; pp. 5206–5210.

[14] Mussakhojayeva, S., Khassanov, Y., Atakan Varol, H. KSC2: An Industrial-Scale Open-Source Kazakh Speech Corpus. Interspeech 2022. https://doi.org/10.21437/interspeech.2022-421

[15] Font, F., Roma, G., Serra, X. Freesound Technical Demo. In Proceedings of the 21st ACM International Conference on Multimedia MM ’13, Barcelona, Spain, 21 October 2013; Association for Computing Machinery: New York, NY, USA, 2013; pp. 411–412.

Опубликован

13.02.2025

Как цитировать

Нурланкызы, А., Кулакаева, А., Медетов, Б., & Намазбаев, Т. (2025). ОЦЕНКА ВОЗДЕЙСТВИЯ ШУМА НА РЕЗУЛЬТАТИВНОСЬ РАЗЛИЧНЫХ НЕЙРОННЫХ СЕТЕЙ В РАСПОЗНАВАНИИ РЕЧЕВОГО СИГНАЛА. Вестник КазАТК, 137(2), 367–375. https://doi.org/10.52167/1609-1817-2025-137-2-367-375

Выпуск

Раздел

Автоматизация, телемеханика, связь, компьютерные науки

Категории


Цели в области устойчивого развития:

Наиболее читаемые статьи этого автора (авторов)