РАЗРАБОТКА МОДЕЛИ ДЛЯ КЛАССИФИКАЦИИ ДОКУМЕНТА (НА ПРИМЕРЕ ПАСПОРТОВ)

Авторы

DOI:

https://doi.org/10.52167/1609-1817-2025-136-1-393-401

Ключевые слова:

классификация, сегментация, ориентация, документ, обработка данных, модель

Аннотация

В данной статье рассматриваются подходы к предварительной обработке данных, классификации документов, коррекции ориентации и детекции текстовых полей с использованием модели YOLO для извлечения метаданных из документов, удостоверяющих личность. Процесс начинается с предварительной обработки изображений [1], включая нормализацию и масштабирование для унификации входных данных, соответствующих требованиям моделей. Затем изображение передается в модель классификации документов, которая определяет, соответствует ли оно критериям искомого документа, выполняя функцию первого фильтра, предотвращающего обработку нежелательных изображений. Если изображение успешно проходит классификацию, модель ориентации корректирует его положение, обеспечивая правильную ориентацию текста для дальнейшей обработки. Модель YOLO используется для определения и локализации текстовых полей на изображении, включая заголовки, абзацы и другие важные сегменты, которые требуют распознавания.

Биографии авторов

Гульнара Бектемысова , International University of Information Technology

к.т.н., профессор, Алматы, Казахстан, g.bektemisova@iitu.edu.kz

Ахмер Ерасыл, International University of Information Technology

докторант, Алматы, Казахстан, y.akhmer@iitu.edu.kz

Айдос Сабденов , International University of Information Technology

докторант, Алматы, Казахстан,  a.sabdenov@iitu.edu.kz

Гульназ Бакирова, International University of Information Technology

докторант, Алматы, Казахстан, g.bakirova@iitu.edu.kz

Библиографические ссылки

[1] J. Xu, F. Pan, X. Han, L. Wang, Y. Wang and W. Li, EdgeTrim-YOLO: Improved Trim YOLO Framework Tailored for Deployment on Edge Devices, 2024 4th International Conference on Computer Communication and Artificial Intelligence (CCAI), Xi'an, China, 2024, pp. 113-118, doi: 10.1109/CCAI61966.2024.10602964.

[2] K. V. Horadi, Document Image Analysis in Compressed Domain-Limitations, Applications & Challenges, 2020 4th International Conference on Electronics, Communication and Aerospace Technology (ICECA), Coimbatore, India, 2020, pp. 987-992, doi: 10.1109/ICECA49313.2020.9297593.

[3] V. N. Sai Rakesh Kamisetty, B. Sohan Chidvilas, S. Revathy, P. Jeyanthi, V. M. Anu and L. Mary Gladence, "Digitization of Data from Invoice using OCR, 2022 6th International Conference on Computing Methodologies and Communication (ICCMC), Erode, India, 2022, pp. 1-10, doi: 10.1109/ICCMC53470.2022.9754117.

[4] C. Junliang, "CNN or RNN: Review and Experimental Comparison on Image Classification," 2022 IEEE 8th International Conference on Computer and Communications (ICCC), Chengdu, China, 2022, pp. 1939-1944, doi: 10.1109/ICCC56324.2022.10065984.

[5] A. R. F and L. Jacob, "Optical Character Recognition system with Projection Profile based segmentation and Deep Learning Techniques, 2022 4th International Conference on Advances in Computing, Communication Control and Networking (ICAC3N), Greater Noida, India, 2022, pp. 12-16, doi: 10.1109/ICAC3N56670.2022.10074151.

[6] P. Imsamer, V. Boonyaphon and S. Tiacharoen, The Comparison of Deep Learning Driven Optical Character Recognition for Hard Disk Head Slider Serial Number," 2020 International Conference on Power, Energy and Innovations (ICPEI), Chiangmai, Thailand, 2020, pp. 217-220, doi: 10.1109/ICPEI49860.2020.9431431.

[7] S. K. Manocha and P. Tewari, Comparative Study of Deep Learning Models for Devanagari OCR," 2021 International Conference on Smart Generation Computing, Communication and Networking (SMART GENCON), Pune, India, 2021, pp. 1-7, doi: 10.1109/SMARTGENCON51891.2021.9645924.

[8] C. Tensmeyer, D. Saunders and T. Martinez, Convolutional Neural Networks for Font Classification," 2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR), Kyoto, Japan, 2017, pp. 985-990, doi: 10.1109/ICDAR.2017.164.

[9] J. Chen, F. Li, Y. Fu, Q. Liu, J. Huang and K. Li, A study of image segmentation algorithms combined with different image preprocessing methods for thyroid ultrasound images, 2017 IEEE International Conference on Imaging Systems and Techniques (IST), Beijing, China, 2017, pp. 1-5, doi: 10.1109/IST.2017.8261449.

[10] A. Saenong, Z. Zainuddin and M. Niswar, Identification of Poultry Reproductive Behavior Using Faster R-CNN with MobileNet V3 Architecture in Traditional Cage Environment, 2023 International Seminar on Intelligent Technology and Its Applications (ISITIA), Surabaya, Indonesia, 2023, pp. 456-461, doi: 10.1109/ISITIA59021.2023.10221017.

[11] H. Yu, L. Gao, H. Yu and A. Zhang, Vision Transformer based UNet with Multi-Head Attention for Medical Image Segmentation, 2024 36th Chinese Control and Decision Conference (CCDC), Xi'an, China, 2024, pp. 1737-1741, doi: 10.1109/CCDC62350.2024.10587821.

[12] X. Henghui, F. Yushen and H. Keke, Research and Design of an IoT Face Recognition System Based on MobileNet-V3 and ArcFace, 2023 5th International Conference on Artificial Intelligence and Computer Applications (ICAICA), Dalian, China, 2023, pp. 635-639, doi: 10.1109/ICAICA58456.2023.10405625.

Загрузки

Опубликован

07.02.2025

Как цитировать

Бектемысова , Г. ., Ахмер , Е. ., Сабденов , А. ., & Бакирова, Г. (2025). РАЗРАБОТКА МОДЕЛИ ДЛЯ КЛАССИФИКАЦИИ ДОКУМЕНТА (НА ПРИМЕРЕ ПАСПОРТОВ). Вестник КазАТК, 136(1), 393–401. https://doi.org/10.52167/1609-1817-2025-136-1-393-401

Выпуск

Раздел

Автоматизация, телемеханика, связь, компьютерные науки

Наиболее читаемые статьи этого автора (авторов)