ИСПОЛЬЗОВАНИЕ АЛГОРИТМА МАШИННОГО ОБУЧЕНИЯ В РАСПОЗНАВАНИИ ГОЛОСА
DOI:
https://doi.org/10.52167/1609-1817-2024-135-6-161-169Ключевые слова:
MLP, CNN, алгоритм, голос, тестированиеАннотация
В нашей статье мы рассмотрим различные функции MFCC голоса и алгоритмы машинного обучения для идентификация голоса, чтобы определить алгоритм, который улучшит работу системы автоматического распознавания голоса. Среди алгоритмов машинного обучения для распознавания голоса мы сравниваем архитектуру нейронной сети и выясняем, какой них дает лучшиерезультаты. Наша цель-автоматически изучить особенности архитектуры нейронных сетей, специфичные для распознавания голоса многослойных перцептронов (MLP) и сверточных нейронных сетей (CNN). В ходе исследование был разработан алгоритм и модель идентификация, идентификация голоса говоряшего, а распознавание голоса осушествлялось в два шага: обучение и тестирование.
Библиографические ссылки
[1] T. Toda, A. W. Black, and K. Tokuda, «Voice conversion based on maximum-likelihood estimation of spectral parameter trajectory,» IEEE Trans. Audio, Speech, Lang. Process., vol. 15, no. 8, pp. 2222-2235, 2007.
[2] Kalimoldayev, M., Mamyrbayev, O., Mekebayev, N., Kydyrbekova, A (2020). Algorithms for detection gender using neural networks// International Journal of Circuits, Systems and Signal Processing. 2020, 154-159
[3] Y. Zhu, T. Ko, and B. Mak, “Mixup learning strategies for textindependent speaker verification.” in INTERSPEECH, 2019, pp. 4345–4349.
[4] D. R. González and J. R. C. de Lara, ‘‘Speaker verification with Shifted Delta Cepstral features: Its pseudo-prosodic behavior,’’ in Proc. I Iberian SLTech, 2010, pp. 1–4.
[5] Y. Zhang et al., “Mfa-conformer: Multi-scale feature aggregation conformer for automatic speaker verification,” arXiv preprint arXiv:2203.15249, 2022.
[6] Mekebayev N., Tuyebaev Ch., Sabrayev K., Yerkebay А. Researchof acoustic and linguistic modeling based on repetitive neural networks for speech recognition of children // bulletin of physics & mathematical sciences. No1(77), 2022, https://doi.org/10.51889/2022-1.1728-7901.16, No1(77), 2022, 119-126
[7] Al-Karawi K.A., Al-Noori A.H., Li F.F., Ritchings T., et al. Automatic speaker recognition system in adverse conditions—implication of noise and reverberation on system performance Int. J. Inf. Electron. Eng., 5 (2015), pp. 423-427
[8] Orken Mamyrbayev, Nurbapa Mekebayev, Mussa Turdalyuly, Nurzhamal Oshanova,Tolga Ihsan Medeni and Aigerim Yessentay (2019). Voice Identification Using Classification Algorithms. We are IntechOpen, the world’s leading publisher of Open Access books Built by scientists, for scientists. London, 1 – 14 р.
[9] Champod C. et al. The inference of identity in forensic speaker recognition Speech Communication (2000).
[10] Tirumala, S. S., Shahamiri, S. R., Garhwal, A. S., Wang, R. (2017). Speaker identification features extraction methods: A systematic review. Expert Systems with Applications, 90, 250-271. https://doi.org/10.1016/j.eswa.2017.08.015
Загрузки
Опубликован
Как цитировать
Выпуск
Раздел
Лицензия
Copyright (c) 2024 Нурбапа Мекебаев, Даурен Даркенбаев, Аршын Алтыбай

Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial-NoDerivatives» («Атрибуция — Некоммерческое использование — Без производных произведений») 4.0 Всемирная.