Veri madenciliği sınıflandırma yöntemlerinin veri bilimi anketi veri seti ile karşılaştırmalı analizi
Yükleniyor...
Dosyalar
Tarih
2021
Yazarlar
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
Düzce Üniversitesi
Erişim Hakkı
info:eu-repo/semantics/openAccess
Özet
Veri Madenciliği teknolojisi günden güne popülerliğini artıran bir teknoloji olmaktadır. Popülerliğinin artmasının en büyük sebeplerinden biri de çalışma alanı sınırının bulunmamasıdır. Teknik altyapı olarak bilişim sektörüne ait olan Veri Madenciliği teknolojisi, birçok sektöre kolaylık ve avantaj sağlamak için hizmet sunmaktadır. Çalışma kapsamında Veri Madenciliği teknolojisinde tercih edilen yazılım dili, kullanılan algoritma vb. kriterlerinin girdi olarak kabul edildiği, veri bilimcilerin tercih ettikleri bu teknik bilgilerden çıkarımla hangi sektörde çalıştıklarına dair çıktı bilgilerinin yer aldığı "Veri Bilimi Anketi" isimli veri seti kullanılmaktadır. Veri setinin Sınıflandırma Algoritmalarından C4.5 Algoritması, Rastgele Orman Algoritması ve K- En Yakın Komşu Algoritması ile modellenmesi sonucu başarı oranları değerlendirmelerine değinilmiştir. Modellerin başarı oranı kıyaslamaları gerçekleştirilirken, Sınıflandırma yöntemine ait olan algoritmalar hem orijinal hem de işlenmiş veri setini kullanmışlardır. Veri setleri bazında model başarı oranları değerlendirildiğinde, orijinal veri seti kullanılarak oluşturulan modellerin başarı oranları, veri ön işleme aşaması sonrasında oluşturulan işlenmiş veri seti kullanılarak da modellendiğinde başarı oranlarında %14-15 oranında artış olmaktadır. İşlenmiş veri seti, seçili sınıflandırma algoritmaları (C4.5, Rastgele Orman ve KNN) ve bu algoritmaların varsayılan algoritmik nitelikleri ile modellendiğinde elde edilen başarı oranları algoritmalar bazında kıyaslandığında sapma oranı çok düşük olmaktadır. Algoritmaların başarı oranları ön işleme öncesi kullanılan orijinal veri seti ve ön işleme sonrasında kullanılan işlenmiş veri seti ile algoritma bazında değerlendirildiğinde ise sapma değeri daha belirgin olmaktadır. Ayrıca KNN algoritmasına özgü olan "k" nitelik değerinin farklı değerler alması sonucu veya Eğitim-Test veri seti bölümleme seçenekleri gibi model başarı oranında sapma yaratacak durumlar için de başarı oranı değerleri gözlemlenmiştir. Ancak bahsedilen durumların model başarısına etkisi, ön işleme aşamasının model başarısına olan etkisi kadar belirgin değildir. Gerçekleştirilmiş olan bu kıyaslamalardan çıkarımla, başarılı modeller oluşturulabilmesi için Veri Madenciliği aşamalarının önem/etki seviyeleri değerlendirilmiş olup, Veri Madenciliği aşamaları "döngüsellik" ve "öznellik" kavramlarından faydalanılarak yorumlanmışlardır.
Data Mining technology is a technology that is increasing its popularity day by day. One of the biggest reasons for its increasing popularity is the absence of a workspace limit. Data Mining technology, which belongs to the IT sector as a technical infrastructure, provides services to many sectors to provide convenience and advantage. Within the scope of the study, the preferred software language in Data Mining technology, the algorithm used, etc. The data set named "Data Science Questionnaire" is used, in which the criteria of the data scientists are accepted as input, and the output information about which sector they work in with inferences from this technical information preferred by data scientists. As a result of modeling the data set with Classification Algorithms C4.5 Algorithm, Random Forest Algorithm and K-Nearest Neighbor Algorithm, success rates evaluations are mentioned. While comparing the success rate of the models, the algorithms belonging to the Classification method used both the original and the processed data set. When model success rates are evaluated on the basis of data sets, the success rates of models created using the original data set are increased by 14-15% when modeled using the processed data set created after the data preprocessing stage. When the processed data set is modeled with selected classification algorithms (C4.5, Random Forest and KNN) and the default algorithmic features of these algorithms, the deviation rate is very low when the success rates are compared on the basis of algorithms. When the success rates of the algorithms are evaluated on the basis of the original data set used before the preprocessing and the processed data set used after the preprocessing, the deviation value becomes more evident. In addition, the success rate values were observed for the situations that would cause deviations in the model success rate, such as the "k" attribute value, which is specific to the KNN algorithm, taking different values or the Training-Test data set partitioning options. However, the effect of the mentioned situations on model success is not as clear as the effect of the preprocessing stage on model success. By inferring from these comparisons, the importance/effect levels of Data Mining stages were evaluated in order to create successful models, and Data Mining stages were interpreted by using the concepts of "cyclicality" and "subjectivity".
Data Mining technology is a technology that is increasing its popularity day by day. One of the biggest reasons for its increasing popularity is the absence of a workspace limit. Data Mining technology, which belongs to the IT sector as a technical infrastructure, provides services to many sectors to provide convenience and advantage. Within the scope of the study, the preferred software language in Data Mining technology, the algorithm used, etc. The data set named "Data Science Questionnaire" is used, in which the criteria of the data scientists are accepted as input, and the output information about which sector they work in with inferences from this technical information preferred by data scientists. As a result of modeling the data set with Classification Algorithms C4.5 Algorithm, Random Forest Algorithm and K-Nearest Neighbor Algorithm, success rates evaluations are mentioned. While comparing the success rate of the models, the algorithms belonging to the Classification method used both the original and the processed data set. When model success rates are evaluated on the basis of data sets, the success rates of models created using the original data set are increased by 14-15% when modeled using the processed data set created after the data preprocessing stage. When the processed data set is modeled with selected classification algorithms (C4.5, Random Forest and KNN) and the default algorithmic features of these algorithms, the deviation rate is very low when the success rates are compared on the basis of algorithms. When the success rates of the algorithms are evaluated on the basis of the original data set used before the preprocessing and the processed data set used after the preprocessing, the deviation value becomes more evident. In addition, the success rate values were observed for the situations that would cause deviations in the model success rate, such as the "k" attribute value, which is specific to the KNN algorithm, taking different values or the Training-Test data set partitioning options. However, the effect of the mentioned situations on model success is not as clear as the effect of the preprocessing stage on model success. By inferring from these comparisons, the importance/effect levels of Data Mining stages were evaluated in order to create successful models, and Data Mining stages were interpreted by using the concepts of "cyclicality" and "subjectivity".
Açıklama
Anahtar Kelimeler
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control