ПРИМЕНЕНИЕ ГЛУБОКИХ НЕЙРОННЫХ СЕТЕЙ ДЛЯ АВТОМАТИЧЕСКОГО ОПРЕДЕЛЕНИЯ ВОЗРАСТА И ПОЛА ЧЕЛОВЕКА, ГОВОРЯЩЕГО НА КАЗАХСКОМ ЯЗЫКЕ
DOI:
https://doi.org/10.52167/1609-1817-2025-141-6-317-329Ключевые слова:
распознавание речи, возрастная и гендерная классификация, казахский язык, глубокие нейронные сети, машинное обучение, обработка естественного языкаАннотация
Статья посвящена применению глубоких нейронных сетей для автоматического определения возраста и пола человека, говорящего на казахском языке. В последние годы в Казахстане идет активная цифровизация всех сфер деятельности, создаются сайты, работают автоматизированные колл-центры, чат-боты, голосовые помощники. Распознавание казахской речи, в том числе определение по ней возраста и пола говорящего, является сложной задачей, так как у казахского языка есть свои фонетические особенности. Кроме того, казахский язык имеет агглютинативную природу. Еще одним ограничением является недостаточный объем размеченных аудиоданных. В статье предложена модель на основе глубоких нейронных сетей для распознавания речи на казахском языке и определения пола и возраста говорящего человека. Проведены эксперименты с использованием различных архитектур, включая сверточные и рекуррентные сети. Полученные результаты показали достаточно высокую точность классификации. Это говорит о том, что предложенную модель можно применять для создания персонализированных голосовых помощников и интеллектуальных систем обработки казахской речи.
Библиографические ссылки
[1] J. Xu, F. Pan, X. Han, L. Wang, Y. Wang and W. Li, "EdgeTrim-YOLO: Improved Trim YOLO Framework Tailored for Deployment on Edge Devices," 2024 4th International Conference on Computer Communication and Artificial Intelligence (CCAI), Xi'an, China, 2024, pp. 113-118, doi: 10.1109/CCAI61966.2024.10602964.
[2] A. Tursunov, Mustaqeem, J. Y. Choeh and S. Kwon, "Age and Gender Recognition Using a Convolutional Neural Network with a Specially Designed Multi-Attention Module through Speech Spectrograms," Sensors, vol. 21, no. 5892, 2021, doi: 10.3390/s21175892.
[3] K. He, X. Zhang, S. Ren, and J. Sun, "Masked Autoencoders Are Scalable Vision Learners," IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, doi: 10.1109/TPAMI.2023.3249153.
[4] Z. Liu, H. Mao, C. Wu, C. Feichtenhofer, T. Darrell, and S. Xie, "A ConvNet for the 2020s," 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), New Orleans, LA, USA, 2022, pp. 11976-11986, doi: 10.1109/CVPR52688.2022.01170.
[5] R. Zhang, J. Liu, M. Yang, and X. Wang, "Efficient Speech Emotion Recognition with Self-Supervised Learning," IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 30, pp. 1-12, 2022, doi: 10.1109/TASLP.2022.3187989.
[6] A. Vaswani et al., "Attention Is All You Need," Journal of Machine Learning Research, vol. 23, 2022, pp. 1-40, doi: 10.48550/arXiv.1706.03762.
[7] S. Hochreiter and J. Schmidhuber, "Improved Speech Recognition with Transformers and Convolutional Layers," 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Rhodes, Greece, 2023, pp. 4567-4571, doi: 10.1109/ICASSP.2023.10083154.
[8] H. Chen, Y. Li, and W. Zhang, "Hybrid Deep Learning for Age and Gender Prediction from Speech," IEEE Access, vol. 10, pp. 45689-45701, 2022, doi: 10.1109/ACCESS.2022.3165412.
[9] X. Li, P. Ma, and L. Zhang, "Gender and Age Classification Using Deep Learning on Speech Spectrograms," Applied Sciences, vol. 11, no. 18, 2021, pp. 8567, doi: 10.3390/app11188567.
[10] T. Brown et al., "Language Models Are Few-Shot Learners," Advances in Neural Information Processing Systems, vol. 34, pp. 1877-1901, 2020.
[11] R. Collobert et al., "End-to-End Speech Recognition with Transformer Networks," IEEE Transactions on Neural Networks and Learning Systems, vol. 33, no. 4, pp. 1254-1265, 2022, doi: 10.1109/TNNLS.2021.3110976.
[12] P. Wang, Y. Xu, and D. Kim, "Deep Learning-Based Speaker Age and Gender Classification," 2021 International Joint Conference on Neural Networks (IJCNN), Shenzhen, China, 2021, pp. 1-8, doi: 10.1109/IJCNN52387.2021.9533597.
[13] A. Graves, A. Mohamed, and G. Hinton, "Self-Supervised Learning for Speaker Recognition," IEEE Signal Processing Magazine, vol. 40, no. 3, pp. 26-38, 2023, doi: 10.1109/MSP.2023.3258745.
[14] M. Abadi et al., "TensorFlow: A Machine Learning Framework for Scalable Speech Processing," 2020, arXiv preprint arXiv:2004.12032.
[15] H. Liu, X. Wang, and Y. Zhang, "Improved Age and Gender Recognition with Convolutional Neural Networks," IEEE Transactions on Cybernetics, vol. 53, no. 1, pp. 214-228, 2023, doi: 10.1109/TCYB.2023.3267851.
Загрузки
Опубликован
Как цитировать
Выпуск
Раздел
Категории
Лицензия
Copyright (c) 2026 Джанна Алимкулова, Айнур Ахмедиярова, Жулдыз Алимсейтова

Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial-NoDerivatives» («Атрибуция — Некоммерческое использование — Без производных произведений») 4.0 Всемирная.











