АНАЛИЗ МОДЕЛЕЙ RNN И TRANSFORMER В ЗАДАЧАХ ОБРАБОТКИ ЕСТЕСТВЕННОГО ЯЗЫКА
DOI:
https://doi.org/10.52167/1609-1817-2025-138-3-311-321Ключевые слова:
искусственный интеллект, нейронные сети, рекуррентные нейронные сети, RNN, трансформер, TransformerАннотация
Задачи обработки текста и генерации текста являются ключевыми задачами обработки естественного языка. Существует множество различных методов, подходов и моделей направленных на выполнение данных задач. В статье проведен сравнительный анализ актуальных моделей искусственного интеллекта, таких как RNN и Transformer, которые применяются в области обработки естественного языка и выполняют функции обработки и генерации текстов. Впоследствии анализа которых были выявлены сильные и слабые стороны данных моделей в эффективности обработки естественного языка.
Библиографические ссылки
[1] Tong, Simon & Koller, Daphne. (2001). Support Vector Machine Active Learning with Applications to Text Classification. The Journal of Machine Learning Research. 2. 45-66. 10.1162/153244302760185243.
[2] S. Hochreiter and J. Schmidhuber, "Long Short-Term Memory," in Neural Computation, vol. 9, no. 8, pp. 1735-1780, 15 Nov. 1997, doi: 10.1162/neco.1997.9.8.1735.
[3] Blei, David M., Andrew Y. Ng and Michael I. Jordan. (2001). Latent Dirichlet Allocation. J. Mach. Learn. Res. 3, 993-1022.
[4] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. 2017. Attention Is All You Need. In NIPS.
[5] Rumelhart, D.E., Hinton, G.E., & Williams, R.J. Learning representations by back-propagating errors. Nature, 323, 533-536. 1986.
[6] Sherstinsky A. Fundamentals of Recurrent Neural Network (RNN) and Long Short-Term Memory (LSTM) network // Physica D: Nonlinear Phenomena. 2020. Vol. 404, No. 132306.
[7] Ronald J. Williams and David Zipser. A learning algorithm for continually running fully recurrent neural networks. Neural Computation, 1(2):270– 280, jun 1989.
[8] Felix Gers. Long Short-Term Memory in Recurrent Neural Networks. PhD thesis, École Polytechnique Fédérale de Lausanne, 2001
[9] Bai S, Kolter J.Z, Koltun V. An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling // arXiv:1803.01271v2. 2018.
[10] Junyoung Chung, Çaglar Gülçehre, Kyunghyun Cho, and Yoshua Bengio. Empirical evaluation of gated recurrent neural networks on sequence modeling. CoRR, abs/1412.3555, 2014.
[11] Chastikova V.A., Sotnikov V.V. Method of analyzing computer traffic based on recurrent neural networks // Journal of Physics: Conference Series. International Conference “High-Tech and Innovations in Research and Manufacturing” [HIRM]. 2019. P. 012133.
[12] Transfer Learning [Электронный ресурс] / режим доступа: https://lena-voita.github.io/nlp_course/transfer_learning.html
[13] Topal M. Onat, Anil Bas, Imke van Heerden. Exploring Transformers in Natural Language Generation: GPT, BERT, and XLNet // arXiv:2102.08036v1.
[14] Gokul Yenduri, Ramalingam M, Chemmalar Selvi G, Supriya Y, Gautam Srivastava, Praveen Kumar Reddy Maddikunta, Deepti Raj G, Rutvij H Jhaveri, Prabadevi B, Weizheng Wang, Athanasios V. Vasilakos, Thippa Reddy Gadekallu. Generative Pre-trained Transformer: A Comprehensive Review on Enabling Technologies, Potential Applications, Emerging Challenges, and Future Directions. // arXiv:2305.10435. 2023.
[15] Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding // arXiv:180.04805. 2019.
[16] Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context / Z. Dai, Z. Yang, Y. Yang [et al.] // Proc. ACL. P. 2978–2988.
Загрузки
Опубликован
Как цитировать
Выпуск
Раздел
Категории
Лицензия
Copyright (c) 2025 Владимир Мадин, Ольга Салыкова, Ирина Иванова, Дмитрий Харченко

Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial-NoDerivatives» («Атрибуция — Некоммерческое использование — Без производных произведений») 4.0 Всемирная.











