АНАЛИЗ МОДЕЛЕЙ RNN И TRANSFORMER В ЗАДАЧАХ ОБРАБОТКИ ЕСТЕСТВЕННОГО ЯЗЫКА

Авторы

DOI:

https://doi.org/10.52167/1609-1817-2025-138-3-311-321

Ключевые слова:

искусственный интеллект, нейронные сети, рекуррентные нейронные сети, RNN, трансформер, Transformer

Аннотация

Задачи обработки текста и генерации текста являются ключевыми задачами обработки естественного языка. Существует множество различных методов, подходов и моделей направленных на выполнение данных задач. В статье проведен сравнительный анализ актуальных моделей искусственного интеллекта, таких как RNN и Transformer, которые применяются в области обработки естественного языка и выполняют функции обработки и генерации текстов. Впоследствии анализа которых были выявлены сильные и слабые стороны данных моделей в эффективности обработки естественного языка.

Биографии авторов

Дмитрий Харченко, Baitursynuly University

магистрант, Костанай, Казахстан, dimhako@gmail.com

Владимир Мадин, Baitursynuly University

докторант, Костанай, Казахстан, vmadin@mail.ru

Ольга Салыкова, Baitursynuly University

к.т.н., ассоциированный профессор, Костанай, Казахстан, solga0603@mail.ru

Ирина Иванова, Baitursynuly University

к.п.н., ассоциированный профессор, Костанай, Казахстан, valera_irina_69@mail.ru

Библиографические ссылки

[1] Tong, Simon & Koller, Daphne. (2001). Support Vector Machine Active Learning with Applications to Text Classification. The Journal of Machine Learning Research. 2. 45-66. 10.1162/153244302760185243.

[2] S. Hochreiter and J. Schmidhuber, "Long Short-Term Memory," in Neural Computation, vol. 9, no. 8, pp. 1735-1780, 15 Nov. 1997, doi: 10.1162/neco.1997.9.8.1735.

[3] Blei, David M., Andrew Y. Ng and Michael I. Jordan. (2001). Latent Dirichlet Allocation. J. Mach. Learn. Res. 3, 993-1022.

[4] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. 2017. Attention Is All You Need. In NIPS.

[5] Rumelhart, D.E., Hinton, G.E., & Williams, R.J. Learning representations by back-propagating errors. Nature, 323, 533-536. 1986.

[6] Sherstinsky A. Fundamentals of Recurrent Neural Network (RNN) and Long Short-Term Memory (LSTM) network // Physica D: Nonlinear Phenomena. 2020. Vol. 404, No. 132306.

[7] Ronald J. Williams and David Zipser. A learning algorithm for continually running fully recurrent neural networks. Neural Computation, 1(2):270– 280, jun 1989.

[8] Felix Gers. Long Short-Term Memory in Recurrent Neural Networks. PhD thesis, École Polytechnique Fédérale de Lausanne, 2001

[9] Bai S, Kolter J.Z, Koltun V. An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling // arXiv:1803.01271v2. 2018.

[10] Junyoung Chung, Çaglar Gülçehre, Kyunghyun Cho, and Yoshua Bengio. Empirical evaluation of gated recurrent neural networks on sequence modeling. CoRR, abs/1412.3555, 2014.

[11] Chastikova V.A., Sotnikov V.V. Method of analyzing computer traffic based on recurrent neural networks // Journal of Physics: Conference Series. International Conference “High-Tech and Innovations in Research and Manufacturing” [HIRM]. 2019. P. 012133.

[12] Transfer Learning [Электронный ресурс] / режим доступа: https://lena-voita.github.io/nlp_course/transfer_learning.html

[13] Topal M. Onat, Anil Bas, Imke van Heerden. Exploring Transformers in Natural Language Generation: GPT, BERT, and XLNet // arXiv:2102.08036v1.

[14] Gokul Yenduri, Ramalingam M, Chemmalar Selvi G, Supriya Y, Gautam Srivastava, Praveen Kumar Reddy Maddikunta, Deepti Raj G, Rutvij H Jhaveri, Prabadevi B, Weizheng Wang, Athanasios V. Vasilakos, Thippa Reddy Gadekallu. Generative Pre-trained Transformer: A Comprehensive Review on Enabling Technologies, Potential Applications, Emerging Challenges, and Future Directions. // arXiv:2305.10435. 2023.

[15] Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding // arXiv:180.04805. 2019.

[16] Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context / Z. Dai, Z. Yang, Y. Yang [et al.] // Proc. ACL. P. 2978–2988.

Загрузки

Опубликован

09.04.2025

Как цитировать

Харченко, Д., Мадин, В., Салыкова, О., & Иванова, И. (2025). АНАЛИЗ МОДЕЛЕЙ RNN И TRANSFORMER В ЗАДАЧАХ ОБРАБОТКИ ЕСТЕСТВЕННОГО ЯЗЫКА. Вестник КазАТК, 138(3), 311–321. https://doi.org/10.52167/1609-1817-2025-138-3-311-321

Выпуск

Раздел

Автоматизация, телемеханика, связь, компьютерные науки

Категории


Цели в области устойчивого развития:

Наиболее читаемые статьи этого автора (авторов)