Machine Learning Supported Diabetes Prediction with Apache Spark

dc.contributor.authorYıldırım, Emre
dc.contributor.authorÇalhan, Ali
dc.date.accessioned2025-03-24T19:47:02Z
dc.date.available2025-03-24T19:47:02Z
dc.date.issued2022
dc.departmentDüzce Üniversitesi
dc.description.abstractDiabetes is one of the critical health problems that affect the organs of the human body. Therefore, diabetes is recognized as a global health problem in the 21st century. To avoid the problems that arise as a result of the diabetes and to treat it before it worsen, there is a need for a system that can predict and process diabetes. In recent years, various technological tools and applications have been used for the early diagnosis of many diseases in the field of health. One of these applications is to perform analyzes for early diagnosis of the disease with the help of data mining and machine learning techniques. In this study, diabetes analyzes are carried out with Apache Spark technology, which has been very popular in big data processing recently. So, the performances of five different machine learning classification algorithms in the Apache Spark MLlib library used for prediction in the analysis are compared and it is seen that the Random Forest (RO) algorithm has the best performance. The results of the analyzes show that the Apache Spark technology used can be used to detect such health problems.
dc.description.abstractDiyabet rahatsızlığı, insan vücudunun organlarını etkileyen kritik sağlık sorunlarından biridir. Bu nedenle, diyabet, 21. yüzyılda küresel bir sağlık sorunu olarak kabul edilmektedir. Bu rahatsızlığın sonucu olarak ortaya çıkan sorunlardan kaçınmak ve onları ağırlaşmadan önce tedavi etmek için diyabet rahatsızlığını tahmin edip işleyebilen bir sisteme ihtiyaç duyulmaktadır. Son yıllarda, sağlık alanında birçok rahatsızlığın erken teşhisi için çeşitli teknolojik araçlar ve uygulamalar kullanılmaktadır. Bu uygulamalardan birisi de veri madenciliği ve makine öğrenmesi teknikleri yardımıyla hastalığın erken teşhisi için analizlerin gerçekleştirilmesidir. Bu araştırmada, son zamanlarda büyük veri işlemede oldukça popüler olan Apache Spark teknolojisi ile diyabet rahatsızlığı analizleri gerçekleştirilmektedir. Aynı zamanda analizlerde tahmin için kullanılan Apache Spark MLlib kütüphanesindeki beş farklı makine öğrenmesi sınıflandırma algoritmalarının performansları karşılaştırılmış ve Rasgele Orman (RO) algoritmasının en iyi performansa sahip olduğu görülmektedir. Gerçekleştirilen analizler sonucunda kullanılan Apache Spark teknolojisinin bu tarz rahatsızlıkların belirlenmesinde kullanılabileceğini göstermektedir.
dc.identifier.doi10.29130/dubited.999048
dc.identifier.endpage1117
dc.identifier.issn2148-2446
dc.identifier.issue3
dc.identifier.startpage1107
dc.identifier.urihttps://doi.org/10.29130/dubited.999048
dc.identifier.urihttps://hdl.handle.net/20.500.12684/18406
dc.identifier.volume10
dc.language.isotr
dc.publisherDüzce Üniversitesi
dc.relation.ispartofDüzce Üniversitesi Bilim ve Teknoloji Dergisi
dc.relation.publicationcategoryMakale - Ulusal Hakemli Dergi - Kurum Öğretim Elemanı
dc.rightsinfo:eu-repo/semantics/openAccess
dc.snmzKA_DergiPark_20250324
dc.subjectApache Spark|Diabetes|Machine Learning|Apache Spark|Diyabet Rahatsızlığı|Makine Öğrenmesi
dc.titleMachine Learning Supported Diabetes Prediction with Apache Spark
dc.title.alternativeApache Spark ile Makine Öğrenmesi Destekli Diyabet Rahatsızlığı Tahmini
dc.typeArticle

Dosyalar