Birliktelik kuralları algoritmalarının otomotiv sektörü verileri üzerinde spmf ve weka ile performans analizi
Yükleniyor...
Dosyalar
Tarih
2019
Yazarlar
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
Düzce Üniversitesi
Erişim Hakkı
info:eu-repo/semantics/openAccess
Özet
Veri Madenciliği (VM), herhangi bir veri kümesi üzerinde yer alan mevcut verilerin analiz edilerek anlamlı çıkarımlarda bulunulabilmesi veya gelecekte oluşabilecek verileri teknik yöntemler ile tahmin etmeyi sağlayan bir bilim dalıdır. Bu tahmin veya çıkarımlara dayalı bilgisayar destekli karar verme mekanizmalarının geliştirilmesine katkıda bulunur. Hızla gelişmekte olan teknoloji ile birlikte toptan ve perakende sektöründe hizmet veren şirketler artık verilerini çok daha hızlı, kolay ve düşük maliyetler ile saklayabilmektedirler. Şirketlerde gün içerisinde gerçekleştirilen tüm işlemler (satış, cari kart, faturalama vb.), gün sonunda birleşerek büyük veri kümelerini oluşturmaktadır. Gün geçtikçe hızlı bir şekilde katlanarak boyutu artan bu veri kümelerinden hem şirketler için hem de müşteriler için bir takım faydalı çıkarımlar elde etmek mümkündür. Bu aşamada bahsi geçen çıkarımları yapabilmek için veri madenciliğinden faydalanılmaktadır. Bu çalışmada Türkiye'nin birçok bölgesine araç bakım ürünleri satmakta olan bir şirkete ait veri kümesine, Veri Madenciliği Pazar Sepet Analizi Birliktelik Kuralı Algoritmalarından en güncel 11 algoritma uygulanmış ve birlikte satışı yapılan ürünlere ait kurallar tespit edilmiştir. Belirlenen kurallar sayesinde ilgili şirket için, satış ve pazarlama stratejilerinin yeniden belirlenmesi, depolama alanlarının verimli bir şekilde revize edilmesi, müşterilere ve bölgelere uygun satış kampanyalarının oluşturulması sağlanabilecektir. Tez çalışmasında öncelikle en çok kullanılan iki algoritma olan Apriori ve FP-Growth algoritmaları hem WEKA hem de SPMF'de farklı destek değerleri için ayrı ayrı çalıştırılmış ve her iki programın performans değerleri grafiksel olarak kıyaslanmıştır. SPMF'nin WEKA'ya göre daha başarılı olduğu görüldükten sonra işlemlere bu yazılım ile devam edilmiş ve ilgili veri kümesi üzerinde 11 güncel birliktelik kuralı algoritmalarının çalışma zamanı, çalışma esnasında kullandığı toplam bellek, ilgili algoritmalar için çıkarılan kural sayısı SPMF programında hesaplanmış ve aynı zamanda bu çıkarımlar farklı destek değerleri için grafiksel olarak birbirleriyle karşılaştırılmıştır. Sonuç olarak SPMF yazılımında gerçekleştirilen uygulama neticesinde, dEclat_bitset algoritması 6 aylık ve 12 aylık veri kümesi için en verimli performansı göstermiştir. Ancak 22 aylık veri kümesinde 0.7 ve 0.3 destek değerleri için Eclat algoritmasının en verimli algoritma olduğu söylenebilir; diğer yandan dEclat_bitset, 22 aylık veri kümesinde 0.3 ve 0.1 destek değerleri için en verimli algoritmadır.
Data Mining is a branch of science that enables the analysis of existing data on any data set to make meaningful inferences or to predict future data with technical methods. This contributes to the development of computer-aided decision-making mechanisms based on predictions or inferences. With the rapidly developing technology, companies serving in the wholesale and retail sector can now store their data much faster, easier and with lower costs. All transactions performed during the day (sales, current card, invoicing, etc.) in the companies combine at the end of the day to form big data sets. It is possible to derive some useful inferences both for companies and customers from these data sets which are rapidly increasing in size. At this stage, data mining is used to make the inferences mentioned. In this study, Turkey's many regions of car care products to sell at a company- owned data set, Data Mining Market Basket Analysis Association Rule algorithms latest 11 algorithm is applied and the rules of the products made in conjunction sale have been identified. Thanks to these rules, it is possible to redefine sales and marketing strategies for the related company, to revise the storage areas efficiently, and to create sales campaigns suitable for customers and regions. In this thesis, Apriori and FP-Growth algorithms, which are the two most commonly used algorithms, were run separately for different support values in both WEKA and SPMF and the performance values of both programs were compared graphically. After the SPMF was found to be more successful than WEKA, the operations were continued with this software and the working time of the 11 current association rules algorithms on the relevant data set, the total memory used during the run, the number of rules issued for the relevant algorithms were calculated in the SPMF program. the inferences were compared graphically for different support values. As a result of the application performed in SPMF software, dEclat_bitset algorithm showed the most efficient performance for 6 months and 12 months dataset. However, it can be said that Eclat algorithm is the most efficient algorithm for support values of 0.7 and 0.3 in the 22-month dataset; on the other hand, dEclat_bitset is the most efficient algorithm for support values of 0.3 and 0.1 in the 22-month dataset.
Data Mining is a branch of science that enables the analysis of existing data on any data set to make meaningful inferences or to predict future data with technical methods. This contributes to the development of computer-aided decision-making mechanisms based on predictions or inferences. With the rapidly developing technology, companies serving in the wholesale and retail sector can now store their data much faster, easier and with lower costs. All transactions performed during the day (sales, current card, invoicing, etc.) in the companies combine at the end of the day to form big data sets. It is possible to derive some useful inferences both for companies and customers from these data sets which are rapidly increasing in size. At this stage, data mining is used to make the inferences mentioned. In this study, Turkey's many regions of car care products to sell at a company- owned data set, Data Mining Market Basket Analysis Association Rule algorithms latest 11 algorithm is applied and the rules of the products made in conjunction sale have been identified. Thanks to these rules, it is possible to redefine sales and marketing strategies for the related company, to revise the storage areas efficiently, and to create sales campaigns suitable for customers and regions. In this thesis, Apriori and FP-Growth algorithms, which are the two most commonly used algorithms, were run separately for different support values in both WEKA and SPMF and the performance values of both programs were compared graphically. After the SPMF was found to be more successful than WEKA, the operations were continued with this software and the working time of the 11 current association rules algorithms on the relevant data set, the total memory used during the run, the number of rules issued for the relevant algorithms were calculated in the SPMF program. the inferences were compared graphically for different support values. As a result of the application performed in SPMF software, dEclat_bitset algorithm showed the most efficient performance for 6 months and 12 months dataset. However, it can be said that Eclat algorithm is the most efficient algorithm for support values of 0.7 and 0.3 in the 22-month dataset; on the other hand, dEclat_bitset is the most efficient algorithm for support values of 0.3 and 0.1 in the 22-month dataset.
Açıklama
YÖK Tez No: 577958
Anahtar Kelimeler
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control