ИССЛЕДОВАНИЕ И РАЗРАБОТКА СИСТЕМЫ РАСПОЗНАВАНИЯ И ПЕРЕВОДА ЯЗЫКА ЖЕСТОВ В РЕЖИМЕ РЕАЛЬНОГО ВРЕМЕНИ
DOI:
https://doi.org/10.52167/1609-1817-2024-132-3-258-272Ключевые слова:
язык жестов, распознавание, Python, Keras, нейронная сетьАннотация
Язык жестов — это важный инструмент общения для людей с нарушениями слуха. Благодаря развитию технологий появилась возможность разрабатывать системы, которые могут распознавать, переводить и обрабатывать язык жестов в текст или речь в соответствии с визуальным представлением жестов. В данной статье рассматривается разработка системы распознавания языка жестов в режиме реального времени с использованием нейросетевого алгоритма. Целью исследования является разработка такой системы распознавания и перевода языка жестов, которая должна быть оптимизирована для интеграции в веб-приложения. Для определения ключевых точек и ориентации рук и пальцев пользователя была использована библиотека Mediapipe. После этого программный модуль передает собранные данные в последовательную нейронную сеть, включающую слои долговременной памяти (LSTM). Для построения нейронной сети такого типа использовалась открытая библиотека Keras. Ключевой особенностью представленной нейросетевой модели является сочетание и взаимодействие конволюционных и рекуррентных слоев нейронной сети (RNN). Рассмотренный набор слоев обеспечивает возможность отслеживать зависимость данных от времени, что достигается за счет переключения между слоями разных типов и уменьшения количества нейронов. Обучение LSTM-сети проводится с использованием пользовательского редактируемого набора данных, основанного на жестах американского языка жестов. Набор данных был сформирован на основе записи жестов. Каждое представление жестов было предварительно обработано для извлечения трехмерных ориентиров. Эти собранные ключевые точки передавались на слои нейронной сети LSTM, что позволяло модели изучать сложные взаимосвязи между движениями рук и соответствующими жестами. Каждый образец знака представлен последовательностью из 24 кадров. Эффективность нейросетевого алгоритма оценивается с помощью различных показателей, в том числе точности модели. Результаты эксперимента показывают, что разработанное программное обеспечение позволяет достичь высокого уровня точности при распознавании жестов жестового языка. Актуальность данного исследования подтверждается возможностью его применения в широком спектре областей. В частности, программное обеспечение потенциально может быть использовано в качестве сервиса или инструмента для общения между людьми с ограниченными возможностями и широкой общественностью, а также в качестве технологии, помогающей людям с нарушениями слуха. Авторы исследования отмечают, что результаты проделанной работы демонстрируют возможность и эффективность использования нейросетевого алгоритма, включая слои LSTM, при разработке нейросетевого алгоритма для распознавания языка жестов.
Библиографические ссылки
[1] World Federation of the Deaf, https://wfdeaf.org/our-work/
[2] V. Kimmelman, “Information Structure in Sign Languages”, Sign Languages and Deaf Communities Volume 10, 2019, https://doi.org/10.1515/9781501510045
[3] S. K. Liddell, “American Sign Language Syntax”, Approaches to Semiotics, Volume 52, 1980, https://doi.org/10.1515/9783112418260
[4] J. W. Guido, “Learn American Sign Language: Everything You Need to Start Signing”, Wellfleet Press, 2015
[5] R. Rastgoo, K. Kiani, S. Escalera, “Real-time isolated hand sign language recognition using deep networks and SVD”, Journal of Ambient Intelligence and Humanized Computing, February 2021, 113794, https://doi.org/10.1007/s12652-021-02920-8
[6] Didar Yedilkhan, Assel Mukasheva, “Predictive pricing models to classify potential customers using data-driven approaches”, AIP Conference Proceedings, 18 August 2022; 2570 (1): 040016. https://doi.org/10.1063/5.0099796.
[7] I. Azarov, S. Gnatyuk, M. Aleksander, I. Nazarov, A. Mukasheva; “Real-time ML Algorithms for The Detection of Dangerous Objects in Critical Infrastructurs”, CEUR Workshop Proceedings, 2023, 3373, pp. 217–226.
[8] D. Khurana, A. Koli, K. Khatter, S. Singh, “Natural language processing: state of the art, current trends and challenges”, Multimedia tools and applications, Springer, Volume 82, pp 3713–3744, 14 July 2022 https://link.springer.com/article/10.1007/s11042-022-13428-4
[9] J. Qi, L. Ma, Z. Cui, Y. Yu, “Computer vision-based hand gesture recognition for human-robot interaction: a review” Complex & Intelligent Systems, Springer, Volume 10, pp 1581–1606, 2023 https://doi.org/10.1007/s40747-023-01173-610.
[10] Google Developers Blog, "SignAll SDK: Sign language interface using MediaPipe now available," Apr. 2021. [Online]. Available: https://developers.googleblog.com/2021/04/signall-sdk-sign-language-interface-using-mediapipe-now-available.html. [Accessed: March 1, 2024].
[11] B. Saunders, N. C. Camgoz, R. Bowden, “Signing at Scale: Learning to Co- Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2022, pp. 5141-5151, https://doi.org/10.48550/arXiv.2203.15354
[12] M. L. Amit, A. C. Fajardo, R. P. Medina, “Recognition of Real-Time Hand Gestures using Mediapipe Holistic Model and LSTM with MLP Architecture”, 2022 IEEE 10th Conference on Systems, Process & Control, 2022, https://doi.org/10.1109/ICSPC55597.2022.10001800
[13] B. Sundar, T. Bagyammal, “American Sign Language Recognition for Alphabets Using MediaPipe and LSTM”, Procedia Computer Science, Elsevier, 2022, https://doi.org/10.1016/j.procs.2022.12.066
[14] A. Toro-Ossaba, J. Jaramillo-Tigreros, J. C. Tejada, A. Peña, A. López-González, R. A. Castanho, “LSTM Recurrent Neural Network for Hand Gesture Recognition Using EMG Signals”, Applied Sciences, 2022, https://doi.org/10.3390/app12199700
[15] K Zarzycki, M Ławryńczuk, “LSTM and GRU Neural Networks as Models of Dynamical Processes Used in Predictive Control: A Comparison of Models Developed for Two Chemical Reactors”, Sensors 2021, 21, 5625. https://doi.org/10.3390/s21165625
[16] G. Sánchez-Brizuela, A. Cisnal, E de la Fuente-López, JC. Fraile, J. Pérez-Turiel, “Lightweight real-time hand segmentation leveraging MediaPipe landmark detection”, Virtual Reality, 2023, https://doi.org/10.48550/arXiv.2006.10214
[17] M. Harris, A. S. Agoes, “Applying Hand Gesture Recognition for User Guide Application Using MediaPipe”, 2nd International Seminar of Science and Applied Technology (ISSAT 2021), 2021, https://doi.org/10.1007/s10055-023-00858-0
[18] D. Lillo-Martin, J. Henner, “Acquisition of Sign Languages”, Annual Review of Linguistics, 2021, https://doi.org/10.1146/annurev-linguistics-043020-092357
Загрузки
Опубликован
Как цитировать
Выпуск
Раздел
Лицензия
Copyright (c) 2024 Егор Матвеяс, Динаргуль Мухаммеджанова, Жанна Суйменбаева, Асель Мукашева
Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial-NoDerivatives» («Атрибуция — Некоммерческое использование — Без производных произведений») 4.0 Всемирная.