РАЗРАБОТКА ИНТЕГРАЛЬНОЙ МОДЕЛИ НА ОСНОВЕ CRF И CTC ДЛЯ СИСТЕМЫ РАСПОЗНАВАНИЯ КАЗАХСКОЙ РЕЧИ

Авторы

  • Дина Оралбекова Институт информационных и вычислительных технологий КН МНВО РК, Институт проблем информационной безопасности, Mukhametzhan Tynyshbayev ALT University https://orcid.org/0000-0003-4975-6493
  • Оркен Мамырбаев Институт информационных и вычислительных технологий КН МНВО РК, Институт проблем информационной безопасности https://orcid.org/0000-0001-8318-3794
  • Аягоз Имансакипова Ablai Khan University https://orcid.org/0000-0001-6916-7130
  • Алия Жунусова Narxoz University https://orcid.org/0000-0002-3641-8260

DOI:

https://doi.org/10.52167/1609-1817-2024-135-6-341-349

Ключевые слова:

автоматическое распознавание речи, end-to-end, CTC, CRF, ResNet, малоресурсный язык

Аннотация

Интегральные end-to-end модели являются часто применяемыми методами во многих областях машинного обучения, а именно в задачах распознавания речи. Интегральная структура модели объединяет систему в один компактный элемент, в отличие от традиционной, которая состоит из нескольких отдельных и независимых элементов. Интегральная система преобразует акустические сигналы непосредственно в последовательность меток без использования промежуточных состояний, что исключает необходимость дополнительной обработки на выходе. Это делает её легкой в реализации и применении. Комбинирование нескольких интегральных моделей показывают лучше результат, чем применение их по отдельности. Вдохновленные этой идеей, в данной работе мы предложили метод совместного использования условных случайных полей и коннекционной временной классификации для распознавания малоресурсного языка, как казахский язык. В работе были применены архитектуры рекуррентной нейронной сети и остаточная сеть для построения модели с использованием языковых моделей. Результаты экспериментальных исследований показали, что предложенный подход на основе архитектуры остаточной сети с языковой моделью рекуррентных нейронных сетей достигла наилучший результат 9,86% по сравнению с другими архитектурами сети для казахского языка.

Биографии авторов

Дина Оралбекова, Институт информационных и вычислительных технологий КН МНВО РК, Институт проблем информационной безопасности, Mukhametzhan Tynyshbayev ALT University

PhD, старший научный сотрудник, Алматы, Казахстан, dinaoral@mail.ru

Оркен Мамырбаев, Институт информационных и вычислительных технологий КН МНВО РК, Институт проблем информационной безопасности

PhD, ассоциированный профессор, главный научный сотрудник, Алматы, Казахстан, morkenj@mail.ru

Аягоз Имансакипова, Ablai Khan University

преподаватель, Алматы, Казахстан, aimansakipova@bk.ru

Алия Жунусова, Narxoz University

старший преподаватель, Алматы, Казахстан, alia_94-22@mail.ru

Библиографические ссылки

[1] J. Lafferty, A. McCallum, and F. Pereira, “Conditional random fields: Probabilistic models for segmenting and labeling sequence data,” in Proceedings of the International Conference on Machine Learning (ICML’01), Williamstown, MA, USA, Jun. 2001, pp. 282–289

[2] Garcia-Moral, Ana & Solera-Ureña, Rubén & Peláez-Moreno, Carmen & Díaz-de-María, Fernando. (2011). Data Balancing for Efficient Training of Hybrid ANN/HMM Automatic Speech Recognition Systems. IEEE Transactions on Audio Speech and Language Processing. 19. 468 - 481. 10.1109/TASL.2010.2050513.

[3] Agglutinating language –

http://www.glottopedia.org/index.php/Agglutinating_language, (data of request: 27.01.2024).

[4] Hori, T.; Watanabe, S.; Zhang, Y.; Chan, W. Advances in Joint CTC-Attention based End-to-End Speech Recognition with a Deep CNN Encoder and RNN-LM - 2017

[5] Suyoun Kim, Takaaki Hori, and Shinji Watanabe. Joint ctc-attention based end-to-end speech recognition using multi-task learning - 2016

[6] Haoran Miao, Gaofeng Cheng, Pengyuan Zhang, Ta Li Yonghong Yan. Online Hybrid CTC/Attention Architecture for End-to-end Speech Recognition - 2019

[7] Mamyrbayev, O., Oralbekova, D., Alimhan, K., Othman M., Turdalykyzy Т. (2022) A study of transformer-based end-to-end speech recognition system for kazakh language. Scientific reports 12, 8337. https://doi.org/10.1038/s41598-022-12260-y

[8] Mamyrbayev, O.Z., Oralbekova, D.O., Alimhan, K. et al. Hybrid end-to-end model for Kazakh speech recognition. International Journal of Speech Technology, 2022. https://doi.org/10.1007/s10772-022-09983-8.

[9] S. Dimopoulos, E. Fosler-Lussier, C. Lee and A. Potamianos, "Transition features for CRF-based speech recognition and boundary detection," 2009 IEEE Workshop on Automatic Speech Recognition & Understanding, 2009, pp. 99-102, doi: 10.1109/ASRU.2009.5373287.

[10] Liu, Yang & Stolcke, Andreas & Shriberg, Elizabeth & Harper, Mary. (2005). Using Conditional Random Fields for Sentence Boundary Detection in Speech. 10.3115/1219840.1219896.

[11] An, K., Xiang, H., & Ou, Z. (2019). CAT: CRF-based ASR Toolkit. ArXiv, abs/1911.08747.

[12] An, Keyu et al. “CAT: A CTC-CRF based ASR Toolkit Bridging the Hybrid and the End-to-end Approaches towards Data Efficiency and Low Latency.” INTERSPEECH (2020)

[13] Liang Lu, Lingpeng Kong, Chris Dyer and Noah A. Smith, "Multitask Learning with CTC and Segmental CRF for Speech Recognition", Interspeech 2017

[14] Hongyu Xiang and Zhijian Ou, “CRF-based single-stage acoustic modeling with CTC topology,” in 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2019, pp. 5676–5680.

[15] An, Keyu, Hongyu Xiang and Zhijian Ou. “CAT: A CTC-CRF based ASR Toolkit Bridging the Hybrid and the End-to-end Approaches towards Data Efficiency and Low Latency.” INTERSPEECH (2020).

Загрузки

Опубликован

17.09.2024

Как цитировать

Оралбекова, Д., Мамырбаев, О., Имансакипова, А., & Жунусова, А. . (2024). РАЗРАБОТКА ИНТЕГРАЛЬНОЙ МОДЕЛИ НА ОСНОВЕ CRF И CTC ДЛЯ СИСТЕМЫ РАСПОЗНАВАНИЯ КАЗАХСКОЙ РЕЧИ . Вестник КазАТК, 135(6), 341–349. https://doi.org/10.52167/1609-1817-2024-135-6-341-349

Выпуск

Раздел

Автоматизация, телемеханика, связь, компьютерные науки

Наиболее читаемые статьи этого автора (авторов)