ОЦЕНКА ВЛИЯНИЯ ЯЗЫКА НА ТОЧНОСТЬ РАСПОЗНАВАНИЯ ЧЕЛОВЕЧЕСКОГО ГОЛОСА С ПОМОЩЬЮ ИСКУССТВЕННЫХ НЕЙРОННЫХ СЕТЕЙ
DOI:
https://doi.org/10.52167/1609-1817-2024-131-2-456-466Ключевые слова:
детекторы голосовой активности, искусственные нейронные сети, многослойный персептрон (MLP), рекуррентная нейронная сеть (RNN) , сверточная нейронноя сеть (CNN)Аннотация
Данная работа посвящена оценке влияния языка на точность распознавания человеческого голоса с помощью искусственных нейронных сетей. Так, традиционные VAD системы работают анализом энергии и энтропии сигнала, что представляет собой алгоритмический метод. Однако в реальной жизни практически невозможно точно описать параметры человеческого голоса с помощью алгоритмов. В связи с этим, в современных технологиях распознавания речи используются искусственные нейронные сети. Так как методы, основанные на искусственных нейронных сетях, достигают впечатляющих результатов в области распознавания человеческого голоса. Результаты исследования в данной работе указывают на важность языковых особенностей при обучении и применении нейронных сетей для распознавания речи. Дальнейшие исследования в этой области могут сфокусироваться на разработке методов, которые улучшат универсальность и обобщающую способность нейронных сетей в распознавании речи на различных языках. Эти результаты имеют важное значение для развития технологий распознавания речи и могут быть использованы в различных областях, включая разработку многоязычных систем распознавания речи. Также в рамках данного исследования обнародованы интересные фонетические особенности. Несмотря на родственные связи казахского языка с другими тюркскими языками, наблюдалось более успешное распознавание русского языка. Эти результаты могут быть полезны для изучения фонетических сходств и различий между языками, а также для разработки эффективных методов обучения нейронных сетей для распознавания речи на разных языках.
Библиографические ссылки
[1] Sehgal A., Kehtarnavaz N. A Convolutional Neural Network Smartphone App for Real-Time Voice Activity Detection. (2018) IEEE Access, 6, pp. 9017 – 9026. https://doi.org/10.1109/ACCESS.2018.2800728
[2] Mukherjee H., Obaidullah S.M., Santosh K.C., Phadikar S., Roy K. Line spectral frequency-based features and extreme learning machine for voice activity detection from audio signal (2018) International Journal of Speech Technology, 21 (4), pp. 753 - 760, https://doi.org/10.1007/s10772-018-9525-6
[3] Ali, Z., & Talha, M. (2018). Innovative Method for Unsupervised Voice Activity Detection and Classification of Audio Segments. IEEE Access, 6, 15494–15504. https://doi.org/10.1109/access.2018.2805845
[4] Jung, Youngmoon & Kim, Younggwan & Choi, Yeunju & Kim, Hoirin. (2018). Joint Learning Using Denoising Variational Autoencoders for Voice Activity Detection. 1210-1214. https://doi.org/10.21437/Interspeech.2018-1151
[5] Yoshimura, T., Hayashi, T., Takeda, K., & Watanabe, S. (2020). End-to-End Automatic Speech Recognition Integrated with CTC-Based Voice Activity Detection. ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). https://doi.org/10.1109/icassp40776.2020.9054358
[6] Bredin H., Laurent A. End-to-end speaker segmentation for overlap-aware resegmentation (2021) Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH, 4, pp. 2463 – 2467. https://doi.org/10.21437/Interspeech.2021-560
[7] Lavechin M., Gill M.-P., Bousbib R., Bredin H., Garcia-Perera L.P. End-to-end domain-adversarial voice activity detection (2020) Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH, 2020-October, pp. 3685 - 3689, https://doi.org/10.21437/Interspeech.2020-2285
[8] Cornell S., Omologo M., Squartini S., Vincent E. Detecting and counting overlapping speakers in distant speech scenarios (2020) Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH, 2020-October, pp. 3107 – 3111 https://doi.org/10.21437/Interspeech.2020-2671
[9] Tan, X., & Zhang, X.-L. (2021). Speech Enhancement Aided End-To-End Multi-Task Learning for Voice Activity Detection. ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). https://doi.org/10.1109/icassp39728.2021.9414445
[10] Varzandeh R., Adiloǧlu K., Doclo S., Hohmann V. Exploiting periodicity features for joint detection and doa estimation of speech sources using convolutional neural networks (2020) ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings, 2020-May, art. no. 9054754, pp. 566 – 570. https://doi.org/10.1109/ICASSP40776.2020.9054754
[11] Medetov, B., Kulakayeva, A., Zhetpisbayeva, A., Albanbay, N., Kabduali, T. Identifying the regularities of the signal detection method using the Kalman filter. // Eastern-European Journal of Enterprise Technologies, 2023, 5(9(125)), pp 26–34. https://doi.org/10.15587/1729-4061.2023.289472
[12] Mussakhojayeva, S., Khassanov, Y. , Varol, H.A.: KSC2: An Industrial-Scale Open-Source Kazakh Speech Corpus. In: Proceedings of the 23rd INTERSPEECH Conference: pp. 1367-1371. 2022. https://doi.org/10.21437/Interspeech.2022-421
[13] Mussakhojayeva S., Khassanov Y., Atakan Varol H. (2021) A Study of Multilingual End-to-End Speech Recognition for Kazakh, Russian, and English. In: Karpov A., Potapova R. (eds) Speech and Computer. SPECOM 2021. Lecture Notes in Computer Science, vol 12997. Springer, Cham. https://doi.org/10.1007/978-3-030-87802-3_41
[14] Mussakhojayeva, S.; Dauletbek, K.; Yeshpanov, R.; Varol, H.A. Multilingual Speech Recognition for Turkic Languages. Information 2023, 14, 74 https://doi.org/10.3390/info14020074
[15] Musaev M., Mussakhojayeva S., Khujayorov I., Khassanov Y., Ochilov M., Atakan Varol H. (2021) USC: An Open-Source Uzbek Speech Corpus and Initial Speech Recognition Experiments. In: Karpov A., Potapova R. (eds) Speech and Computer. SPECOM 2021. Lecture Notes in Computer Science, vol 12997. Springer, Cham. https://doi.org/10.1007/978-3-030-87802-3_40
Загрузки
Опубликован
Как цитировать
Выпуск
Раздел
Лицензия
Copyright (c) 2024 Бекболат Медетов, Айгуль Нурланкызы, Айгуль Кулакаева, Айнур Жетписбаева, Тимур Намазбаев

Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial-NoDerivatives» («Атрибуция — Некоммерческое использование — Без производных произведений») 4.0 Всемирная.