АНАЛИЗ МЕТОДОВ ПОИСКА ИНФОРМАЦИИ И ИНТЕЛЛЕКТУАЛЬНАЯ КЛАССИФИКАЦИЯ ИНФОРМАЦИИ ИЗ ДАРКНЕТА
DOI:
https://doi.org/10.52167/1609-1817-2024-135-6-214-222Ключевые слова:
индексирование, даркнет, машинное обучение, NLP, цифровая криминалистика, интеллектуальная классификация, анализ данных, кибербезопасность, TOR, краулеры, нейронная сеть, BERT, LSTM, FastText, TF-IDFАннотация
В данной статье проводится анализ существующих методов поиска информации и интеллектуальной классификации данных, доступных в закрытых сетях даркнета. Рассматриваются особенности текстовых данных, специфичные для даркнета, такие как наличие специализированного сленга, жаргона и кодовых выражений. Представлен сравнительный анализ традиционных методов поиска и современных подходов, основанных на применении нейронных сетей, включая модель BERT и её адаптации для поиска в даркнете. Описаны вызовы, связанные с доступностью и индексированием информации, а также предложены методы классификации, направленные на повышение точности выявления и фильтрации незаконного контента. Статья подчеркивает значимость использования машинного обучения для автоматизации поиска и мониторинга даркнета, что может способствовать улучшению информационной безопасности.
Библиографические ссылки
[1] Greengard, Samuel. "Tor (network)". Encyclopedia Britannica, 21 Aug. 2024, https://www.britannica.com/technology/Tor-encryption-network. Accessed 16 October 2024.
[2] Montasari, R., Boon, A. (2023). An Analysis of the Dark Web Challenges to Digital Policing. In: Jahankhani, H. (eds) Cybersecurity in the Age of Smart Societies. Advanced Sciences and Technologies for Security Applications. Springer, Cham. https://doi.org/10.1007/978-3-031-20160-8_19.
[3] Vildanov Timur Emilievich, Ivanov Nikita Sergeevich Analysis of parsing and web scraping tools in the framework of developing an arbitration investment strategy in the sports betting market // Skif. 2021. No. 5 (57).
[4] Mitchell, R. (2018). Web Scraping with Python: Collecting Data from the Modern Web. O'Reilly Media, Inc.
[5] Akzholov R.K., Veriga A.V. TEXT PREPROCESSING FOR SOLVING NLP PROBLEMS // Science Bulletin. 2020. No. 3 (24).
[6] Bojanowski, P., Grave, E., Joulin, A., & Mikolov, T. (2017). "Enriching Word Vectors with Subword Information." Transactions of the Association for Computational Linguistics, vol. 5, pp. 135-146.
[7] Ramos, J. (2003). "Using TF-IDF to Determine Word Relevance in Document Queries." Proceedings of the First International Conference on Machine Learning.
[8] Zhou, Peng & Shi, Wei & Tian, Jun & Qi, Zhenyu & Li, Bingchen & Hao, Hongwei & Xu, Bo. (2016). Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification. 207-212. 10.18653/v1/P16-2034.
[9] Sayeed, Md Shohel & Roji, Varsha & Anbananthen, Kalaiarasi. (2023). BERT: A Review of Applications in Sentiment Analysis. HighTech and Innovation Journal. 4. 453-462. 10.28991/HIJ-2023-04-02-015.
[10] Schölkopf, B., & Smola, A. J. (2002). Learning with Kernels: Support Vector Machines, Regularization, Optimization, and Beyond. MIT Press.
Загрузки
Опубликован
Как цитировать
Выпуск
Раздел
Лицензия
Copyright (c) 2024 Асель, Асем Шаяхметова, Нургуль Байтемирова, Валентина Махатова, Дариха Рыспаева
![Лицензия Creative Commons](http://i.creativecommons.org/l/by-nc-nd/4.0/88x31.png)
Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial-NoDerivatives» («Атрибуция — Некоммерческое использование — Без производных произведений») 4.0 Всемирная.