ПРИМЕНЕНИЕ ГЛУБОКИХ НЕЙРОННЫХ СЕТЕЙ ДЛЯ АВТОМАТИЧЕСКОГО ОПРЕДЕЛЕНИЯ ВОЗРАСТА И ПОЛА ЧЕЛОВЕКА, ГОВОРЯЩЕГО НА КАЗАХСКОМ ЯЗЫКЕ

Авторы

  • Джанна Алимкулова Turan University
  • Айнур Ахмедиярова Satbayev University
  • Жулдыз Алимсейтова Satbayev University

DOI:

https://doi.org/10.52167/1609-1817-2025-141-6-317-329

Ключевые слова:

распознавание речи, возрастная и гендерная классификация, казахский язык, глубокие нейронные сети, машинное обучение, обработка естественного языка

Аннотация

Статья посвящена применению глубоких нейронных сетей для автоматического определения возраста и пола человека, говорящего на казахском языке. В последние годы в Казахстане идет активная цифровизация всех сфер деятельности, создаются сайты, работают автоматизированные колл-центры, чат-боты, голосовые помощники. Распознавание казахской речи, в том числе определение по ней возраста и пола говорящего, является сложной задачей, так как у казахского языка есть свои фонетические особенности. Кроме того, казахский язык имеет агглютинативную природу. Еще одним ограничением является недостаточный объем размеченных аудиоданных. В статье предложена модель на основе глубоких нейронных сетей для распознавания речи на казахском языке и определения пола и возраста говорящего человека. Проведены эксперименты с использованием различных архитектур, включая сверточные и рекуррентные сети. Полученные результаты показали достаточно высокую точность классификации. Это говорит о том, что предложенную модель можно применять для создания персонализированных голосовых помощников и интеллектуальных систем обработки казахской речи.

Биографии авторов

Джанна Алимкулова, Turan University

к.т.н., профессор, Алматы, Казахстан, d.kuandykova@turan-edu.kz

Айнур Ахмедиярова, Satbayev University

PhD, профессор, Алматы, Казахстан, a.akhmediyarova@satbayev.university

Жулдыз Алимсейтова, Satbayev University

PhD, профессор, Алматы, Казахстан, zhuldyz_al@mail.ru

Библиографические ссылки

[1] J. Xu, F. Pan, X. Han, L. Wang, Y. Wang and W. Li, "EdgeTrim-YOLO: Improved Trim YOLO Framework Tailored for Deployment on Edge Devices," 2024 4th International Conference on Computer Communication and Artificial Intelligence (CCAI), Xi'an, China, 2024, pp. 113-118, doi: 10.1109/CCAI61966.2024.10602964.

[2] A. Tursunov, Mustaqeem, J. Y. Choeh and S. Kwon, "Age and Gender Recognition Using a Convolutional Neural Network with a Specially Designed Multi-Attention Module through Speech Spectrograms," Sensors, vol. 21, no. 5892, 2021, doi: 10.3390/s21175892.

[3] K. He, X. Zhang, S. Ren, and J. Sun, "Masked Autoencoders Are Scalable Vision Learners," IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, doi: 10.1109/TPAMI.2023.3249153.

[4] Z. Liu, H. Mao, C. Wu, C. Feichtenhofer, T. Darrell, and S. Xie, "A ConvNet for the 2020s," 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), New Orleans, LA, USA, 2022, pp. 11976-11986, doi: 10.1109/CVPR52688.2022.01170.

[5] R. Zhang, J. Liu, M. Yang, and X. Wang, "Efficient Speech Emotion Recognition with Self-Supervised Learning," IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 30, pp. 1-12, 2022, doi: 10.1109/TASLP.2022.3187989.

[6] A. Vaswani et al., "Attention Is All You Need," Journal of Machine Learning Research, vol. 23, 2022, pp. 1-40, doi: 10.48550/arXiv.1706.03762.

[7] S. Hochreiter and J. Schmidhuber, "Improved Speech Recognition with Transformers and Convolutional Layers," 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Rhodes, Greece, 2023, pp. 4567-4571, doi: 10.1109/ICASSP.2023.10083154.

[8] H. Chen, Y. Li, and W. Zhang, "Hybrid Deep Learning for Age and Gender Prediction from Speech," IEEE Access, vol. 10, pp. 45689-45701, 2022, doi: 10.1109/ACCESS.2022.3165412.

[9] X. Li, P. Ma, and L. Zhang, "Gender and Age Classification Using Deep Learning on Speech Spectrograms," Applied Sciences, vol. 11, no. 18, 2021, pp. 8567, doi: 10.3390/app11188567.

[10] T. Brown et al., "Language Models Are Few-Shot Learners," Advances in Neural Information Processing Systems, vol. 34, pp. 1877-1901, 2020.

[11] R. Collobert et al., "End-to-End Speech Recognition with Transformer Networks," IEEE Transactions on Neural Networks and Learning Systems, vol. 33, no. 4, pp. 1254-1265, 2022, doi: 10.1109/TNNLS.2021.3110976.

[12] P. Wang, Y. Xu, and D. Kim, "Deep Learning-Based Speaker Age and Gender Classification," 2021 International Joint Conference on Neural Networks (IJCNN), Shenzhen, China, 2021, pp. 1-8, doi: 10.1109/IJCNN52387.2021.9533597.

[13] A. Graves, A. Mohamed, and G. Hinton, "Self-Supervised Learning for Speaker Recognition," IEEE Signal Processing Magazine, vol. 40, no. 3, pp. 26-38, 2023, doi: 10.1109/MSP.2023.3258745.

[14] M. Abadi et al., "TensorFlow: A Machine Learning Framework for Scalable Speech Processing," 2020, arXiv preprint arXiv:2004.12032.

[15] H. Liu, X. Wang, and Y. Zhang, "Improved Age and Gender Recognition with Convolutional Neural Networks," IEEE Transactions on Cybernetics, vol. 53, no. 1, pp. 214-228, 2023, doi: 10.1109/TCYB.2023.3267851.

Загрузки

Опубликован

27.11.2025

Как цитировать

Алимкулова, Д., Ахмедиярова, А., & Алимсейтова, Ж. (2025). ПРИМЕНЕНИЕ ГЛУБОКИХ НЕЙРОННЫХ СЕТЕЙ ДЛЯ АВТОМАТИЧЕСКОГО ОПРЕДЕЛЕНИЯ ВОЗРАСТА И ПОЛА ЧЕЛОВЕКА, ГОВОРЯЩЕГО НА КАЗАХСКОМ ЯЗЫКЕ. Вестник КазАТК, 141(6), 317–329. https://doi.org/10.52167/1609-1817-2025-141-6-317-329

Выпуск

Раздел

Автоматизация, телемеханика, связь, компьютерные науки

Категории


Наиболее читаемые статьи этого автора (авторов)

1 2 > >>