ПРИМЕНЕНИЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ ДЛЯ ТОЧНОГО ПРОГНОЗИРОВАНИЯ СЕРДЕЧНО-СОСУДИСТЫХ ЗАБОЛЕВАНИЙ
DOI:
https://doi.org/10.52167/1609-1817-2024-130-1-240-251Ключевые слова:
cердечно-сосудистые заболевания,, машинное обучение, метод классификацииАннотация
Определение и прогнозирование заболеваний сердечно-сосудистой системы – ключевые задачи в сфере медицины. Эти процессы обеспечивают правильную классификацию, что, в свою очередь, помогает врачам-кардиологам предоставить пациентам необходимое лечение. В медицинской области наблюдается увеличение использования приложений машинного обучения, так как они способны выявлять закономерности на основе обширного анализа данных. Применение машинного обучения в задаче классификации сердечно-сосудистых заболеваний способно содействовать снижению числа ошибочных диагнозов, облегчая работу диагностов. Цель данного исследования заключается в разработке модели, способной точно прогнозировать сердечно-сосудистые заболевания с тем, чтобы снизить смертность, связанную с этой группой заболеваний. В представленной статье был предложен метод кластеризации k-mod с целью улучшения точности классификации. В исследовании использовались различные модели, включая random forest (RF), decision tree classifier (DT), multilayer perceptron (MP) и XGBoost (XGB). Для оптимизации результатов проводилась гипернастройка параметров прикладной модели с использованием GridSearchCV. Разработанная модель была протестирована на реальном наборе данных, содержащем 70 000 записей из Kaggle. Обучение моделей проводилось на данных, разделенных в соотношении 80:20. Полученные результаты точности выглядят следующим образом: для дерева решений - 86,37% (с кросс-валидацией) и 86,53% (без нее), для XGBoost - 86,87% (с кросс-валидацией) и 87,02% (без нее), для случайного леса - 87,05% (с кросс-валидацией) и 86,92% (без нее), для многослойного перцептрона - 87,28% (с кросс-валидацией) и 86,94% (без нее). Значения AUC (площадь под кривой) для предлагаемых моделей следующие: decision tree: 0,94, XGBoost: 0,95, random forest: 0,95, multilayer perceptron: 0,95. На основе проведенного исследования можно сделать вывод, что multilayer perceptron с использованием перекрестной проверки превосходит все другие алгоритмы в плане точности. Данная модель достигла высочайшего уровня точности – 87,28%.
Библиографические ссылки
[1] Estes, C.; Anstee, Q.M.; Arias-Loste, M.T.; Bantel, H.; Bellentani, S.; Caballeria, J.; Colombo, M.; et al. Modeling NAFLD disease burden in China, France, Germany, Italy, Japan, Spain, United Kingdom, and United States for the period 2016–2030. J. Hepatol. 2018, 69, 896–904.
[2] Purushottam; Saxena, K.; Sharma, R. Efficient Heart Disease Prediction System. Procedia Comput. Sci. 2016, 85, 962–969.
[3] Breiman, L. Random forests. Mach. Learn. 2001, 45, 5–32.
[4] Chen, T.; Guestrin, C. XGBoost: A scalable tree boosting system. In Proceedings of the KDD ’16: 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, San Francisco, CA, USA, 13–17 August 2016; Association for Computing Machinery: New York, NY, USA, 2016; pp. 785–794.
[5] Gietzelt, M.; Wolf, K.-H.; Marschollek, M.; Haux, R. Performance comparison of accelerometer calibration algorithms based on 3D-ellipsoid fitting methods. Comput. Methods Programs Biomed. 2013, 111, 62–71.
[6] Alotaibi, F.S. Implementation of Machine Learning Model to Predict Heart Failure Disease. Int. J. Adv. Comput. Sci. Appl. 2019, 10, 261–268.
[7] Drozd˙ z, K.; Nabrdalik, K.; Kwiendacz, H.; Hendel, M.; Olejarz, A.; Tomasik, A.; Bartman, W.; Risk factors for cardiovascular disease in patients with metabolic-associated fatty liver disease: A machine learning approach. Cardiovasc. Diabetol. 2022, 21, 240.
[8] Hasan, N.; Bao, Y. Comparing different feature selection algorithms for cardiovascular disease prediction. Health Technol. 2020, 11, 49–62.
[9] Narin, A.; Isler, Y.; Ozer, M. Early prediction of Paroxysmal Atrial Fibrillation using frequency domain measures of heart rate variability. In Proceedings of the 2016 Medical Technologies National Congress (TIPTEKNO), Antalya, Turkey, 27–29 October 2016.
[10] Shah, D.; Patel, S.; Bharti, S.K. Heart Disease Prediction using Machine Learning Techniques. SN Comput. Sci. 2020, 1, 345.
[11] Kaggle Cardiovascular Disease Dataset. Available online: https://www.kaggle.com/datasets/sulianova/cardiovascular-diseasedataset (accessed on 1 November 2022).
[12] Khan, S.S.; Ning, H.; Wilkins, J.T.; Allen, N.; Carnethon, M.; Berry, J.D.; Sweis, R.N.; Lloyd-Jones, D.M. Association of body mass index with lifetime risk of cardiovascular disease and compression of morbidity. JAMA Cardiol. 2018, 3, 280–287.
[13] Kengne, A.-P.; Czernichow, S.; Huxley, R.; Grobbee, D.; Woodward, M.; Neal, B.; Zoungas, S.; Cooper; et al. Blood Pressure Variables and Cardiovascular Risk. Hypertension 2009, 54, 399–404.
[14] Maas, A.H.; Appelman, Y.E. Gender differences in coronary heart disease. Neth. Heart J. 2010, 18, 598–602.
[15] Murthy, H.S.N.; Meenakshi, M. Dimensionality reduction using neuro-genetic approach for early prediction of coronary heart disease. In Proceedings of the International Conference on Circuits, Communication, Control and Computing, Bangalore, India, 21–22 November 2014; pp. 329–332.
[16] Maiga, J.; Hungilo, G.G.; Pranowo. Comparison of Machine Learning Models in Prediction of Cardiovascular Disease Using Health Record Data. In Proceedings of the 2019 International Conference on Informatics, Multimedia, Cyber and Information System (ICIMCIS), Jakarta, Indonesia, 24–25 October 2019; pp. 45–48.
[17] Benjamin, E.J.; Muntner, P.; Alonso, A.; Bittencourt, M.S.; Callaway, C.W.; Carson, A.P.; Chamberlain, A.M.; Chang, A.R.; Cheng, S.; Das, S.R.; et al. Heart disease and stroke statistics—2019 update: A report from the American heart association. Circulation 2019, 139, e56–e528.
Загрузки
Опубликован
Как цитировать
Выпуск
Раздел
Лицензия
Copyright (c) 2024 Оркен Мамырбаев, Дина Оралбекова, Шолпан Жумагулова, Нургуль Карымсакова
Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial-NoDerivatives» («Атрибуция — Некоммерческое использование — Без производных произведений») 4.0 Всемирная.