РАЗРАБОТКА ИНТЕГРАЛЬНОЙ МОДЕЛИ НА ОСНОВЕ CRF И CTC ДЛЯ СИСТЕМЫ РАСПОЗНАВАНИЯ КАЗАХСКОЙ РЕЧИ
DOI:
https://doi.org/10.52167/1609-1817-2024-135-6-341-349Ключевые слова:
автоматическое распознавание речи, end-to-end, CTC, CRF, ResNet, малоресурсный языкАннотация
Интегральные end-to-end модели являются часто применяемыми методами во многих областях машинного обучения, а именно в задачах распознавания речи. Интегральная структура модели объединяет систему в один компактный элемент, в отличие от традиционной, которая состоит из нескольких отдельных и независимых элементов. Интегральная система преобразует акустические сигналы непосредственно в последовательность меток без использования промежуточных состояний, что исключает необходимость дополнительной обработки на выходе. Это делает её легкой в реализации и применении. Комбинирование нескольких интегральных моделей показывают лучше результат, чем применение их по отдельности. Вдохновленные этой идеей, в данной работе мы предложили метод совместного использования условных случайных полей и коннекционной временной классификации для распознавания малоресурсного языка, как казахский язык. В работе были применены архитектуры рекуррентной нейронной сети и остаточная сеть для построения модели с использованием языковых моделей. Результаты экспериментальных исследований показали, что предложенный подход на основе архитектуры остаточной сети с языковой моделью рекуррентных нейронных сетей достигла наилучший результат 9,86% по сравнению с другими архитектурами сети для казахского языка.
Библиографические ссылки
[1] J. Lafferty, A. McCallum, and F. Pereira, “Conditional random fields: Probabilistic models for segmenting and labeling sequence data,” in Proceedings of the International Conference on Machine Learning (ICML’01), Williamstown, MA, USA, Jun. 2001, pp. 282–289
[2] Garcia-Moral, Ana & Solera-Ureña, Rubén & Peláez-Moreno, Carmen & Díaz-de-María, Fernando. (2011). Data Balancing for Efficient Training of Hybrid ANN/HMM Automatic Speech Recognition Systems. IEEE Transactions on Audio Speech and Language Processing. 19. 468 - 481. 10.1109/TASL.2010.2050513.
[3] Agglutinating language –
http://www.glottopedia.org/index.php/Agglutinating_language, (data of request: 27.01.2024).
[4] Hori, T.; Watanabe, S.; Zhang, Y.; Chan, W. Advances in Joint CTC-Attention based End-to-End Speech Recognition with a Deep CNN Encoder and RNN-LM - 2017
[5] Suyoun Kim, Takaaki Hori, and Shinji Watanabe. Joint ctc-attention based end-to-end speech recognition using multi-task learning - 2016
[6] Haoran Miao, Gaofeng Cheng, Pengyuan Zhang, Ta Li Yonghong Yan. Online Hybrid CTC/Attention Architecture for End-to-end Speech Recognition - 2019
[7] Mamyrbayev, O., Oralbekova, D., Alimhan, K., Othman M., Turdalykyzy Т. (2022) A study of transformer-based end-to-end speech recognition system for kazakh language. Scientific reports 12, 8337. https://doi.org/10.1038/s41598-022-12260-y
[8] Mamyrbayev, O.Z., Oralbekova, D.O., Alimhan, K. et al. Hybrid end-to-end model for Kazakh speech recognition. International Journal of Speech Technology, 2022. https://doi.org/10.1007/s10772-022-09983-8.
[9] S. Dimopoulos, E. Fosler-Lussier, C. Lee and A. Potamianos, "Transition features for CRF-based speech recognition and boundary detection," 2009 IEEE Workshop on Automatic Speech Recognition & Understanding, 2009, pp. 99-102, doi: 10.1109/ASRU.2009.5373287.
[10] Liu, Yang & Stolcke, Andreas & Shriberg, Elizabeth & Harper, Mary. (2005). Using Conditional Random Fields for Sentence Boundary Detection in Speech. 10.3115/1219840.1219896.
[11] An, K., Xiang, H., & Ou, Z. (2019). CAT: CRF-based ASR Toolkit. ArXiv, abs/1911.08747.
[12] An, Keyu et al. “CAT: A CTC-CRF based ASR Toolkit Bridging the Hybrid and the End-to-end Approaches towards Data Efficiency and Low Latency.” INTERSPEECH (2020)
[13] Liang Lu, Lingpeng Kong, Chris Dyer and Noah A. Smith, "Multitask Learning with CTC and Segmental CRF for Speech Recognition", Interspeech 2017
[14] Hongyu Xiang and Zhijian Ou, “CRF-based single-stage acoustic modeling with CTC topology,” in 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2019, pp. 5676–5680.
[15] An, Keyu, Hongyu Xiang and Zhijian Ou. “CAT: A CTC-CRF based ASR Toolkit Bridging the Hybrid and the End-to-end Approaches towards Data Efficiency and Low Latency.” INTERSPEECH (2020).
Загрузки
Опубликован
Как цитировать
Выпуск
Раздел
Лицензия
Copyright (c) 2024 Дина Оралбекова, Оркен Мамырбаев, Аягоз Имансакипова, Алия Жунусова
Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial-NoDerivatives» («Атрибуция — Некоммерческое использование — Без производных произведений») 4.0 Всемирная.