Telekomünikasyon sektöründe müşteri kayıp analizi
dc.contributor.advisor | Kayaalp, Fatih | |
dc.contributor.author | Başarslan, Muhammet Sinan | |
dc.date.accessioned | 2021-02-25T15:02:35Z | |
dc.date.available | 2021-02-25T15:02:35Z | |
dc.date.issued | 2017 | |
dc.department | DÜ, Fen Bilimleri Enstitüsü, Bilgisayar Mühendisliği Ana Bilim Dalı | en_US |
dc.description | YÖK Tez No: 473065 | en_US |
dc.description.abstract | İnsanların ihtiyaçlarına göre tüketim tercihleri farklılıklar gösterir. Müşteriye yatırım yapan kurumlar da bu tercihleri öngöremezler. Özellikle müşteri odaklı kurumlar yeni müşteri kazanma ve eldeki müşteriyi memnun ederek müşteri kaybını önlemeye çalışırlar. Müşteri odaklı sektörlerden birisi olan Telekomünikasyon şirketleri de müşteri kazanmak ve mevcut müşterilerini kaybetmemek isterler. İşte bu noktada çeşitli yollar ile müşterilerinin kaybını tahmin etmeye yönelik çalışmalar yaparlar. Bu tez çalışmasında, veri madenciliği ve makine öğrenmesi yöntemlerinden olan sınıflandırma algoritmaları ile müşteri kayıp analizi yapılmıştır. Bu analiz yapılırken makine öğrenmesi süreci adımlarından olan veri madenciliği üzerine çapraz endüstri standart süreç modeli (CRISP) kullanılmıştır. Sınıflandırma algoritmaları ile elde edilen modellerin performansları çapraz geçerleme ve hold-out performans yöntemleri ile değerlendirilmiştir. Çapraz geçerleme katı olarak 4 kat, 5 kat ve 10 kat çapraz geçerleme kullanılmıştır. 4 kat, 5 kat ve 10 kat çapraz geçerleme ile performans değerlendirmesinde karar ağaçları algoritmaları ile kurulan modeller, diğer modellere göre daha iyi bir performans göstermiştir. En iyi performansı gösteren C4.5 karar ağacı algoritmasının performansı yaklaşık olarak 0.98'dir. C4.5 karar ağacından sonra sırasıyla ID3 ve gini karar ağaçları, k-en yakın komşu ve bayes algoritmaları ile oluşturan modeller gelmektedir. k-en yakın komşu algoritması karar ağaçlarından sonra gelse de performansı C4.5 karar ağacına yakındır. Hold-out yöntemi ile veri seti %60-%40, %75-%25, %80-%20 ayrım oranlarına sahip sırasıyla eğitim ve test veri setine ayrılmıştır. Bu veri setleri üzerinde yapılan performans değerlendirmelerinde ise k-kat çapraz geçerlemedeki gibi benzer sonuç veren C4.5 karar ağacı en iyi performansı göstermiştir. Sonrasında k-kat çapraz geçerleme performans yönteminde yakın değerlere sahip olduğu ID3 ve Gini karar ağaçlarını geçen k-en yakın komşu algoritması olmuştur. En son sırada ise bayes algoritması yer almaktadır. k-en yakın komşu algoritmasının ID3 ve Gini karar ağaçlarını geçmesi hold-out ile rastgele ayrımda daha iyi performans göstermesinden dolayıdır. Veri madenciliği programı olarak kullanılan R sayesinde veri görselleştirme üzerine de bir çalışma yapılmıştır. Bu çalışmalara ek olarak sınıflandırma algoritmalarından en iyi sonucu veren C4.5 Karar ağacı algoritması ile oluşturulan model R paketlerinden Shiny ile web uygulaması yapılarak dinamik hale getirilmiştir. | en_US |
dc.description.abstract | Consumption preferences of people vary depending on their needs. And, institutions investing in clients cannot predict these preferences. Especially, customer-oriented institutions try to gain new customers and prevent customer churn by satisfying existing customers. Telecommunications industry is one of the customer-oriented industries. Telecommunication companies also want to gain customers, without losing existing customers. At this point, they engage in prediction of customer churn using various methods. In this thesis study, customer churn analysis was performed with classification algorithms, which are among the data mining and machine learning methods. In carrying out this analysis, the Cross Industry Standard Process for Data Mining (CRISP) model, which is one of the machine learning process steps, was used. The thesis was explained through the steps of the CRISP model from identification of problem to model selection. The performances of the models obtained by the classification algorithms were evaluated by the cross-validation and hold-out performance methods. The 4-fold, 5-fold and 10-fold cross-validations were used. Models built with decision tree algorithms in performance evaluation with 4-fold, 5-fold and 10-fold cross-validation showed better performance than the other models. The performance of the best performing C4.5 decision tree was approximately 0.98. The C4.5 decision tree was followed by the models created with ID3, Gini decision trees, k-nearest neighbors and Bayes algorithms, respectively. Although the k-nearest neighbor algorithm comes after the decision trees, its performance was closer to that of C4.5 decision tree. In the performance evaluations performed on the training-test dataset with the 60-40%, 75-25% and 80-20% separation ratios with the hold-out method, respectively, the best-performing was the C4.5 decision tree, similar to that of k-fold cross-validation performance. This was followed by ID3 and Gini decision tree and k-nearest neighbor algorithm, with close values as in k-fold cross-validation performance method. The Bayes algorithm had the worst performance. Since the k-nearest neighbor algorithm ID3 and Gini perform better at random distinction with hold-out of decision trees. A study on data visualization has also been carried out through R which is used as a data mining program. In addition to these studies, C4.5, which gives the best result from the classification algorithms, has been rendered dynamic by making web application with Shiny from the R packets generated by the decision tree algorithm. | en_US |
dc.identifier.endpage | 126 | en_US |
dc.identifier.startpage | 1 | en_US |
dc.identifier.uri | https://tez.yok.gov.tr/UlusalTezMerkezi/TezGoster?key=7lOJX8w_8PRQU1mSHU6-ji9cBVSKokS0NpUS7nqOR0c1ayVLEiyj-1hdwX9tKrkB | |
dc.identifier.uri | https://hdl.handle.net/20.500.12684/7058 | |
dc.institutionauthor | Başarslan, Muhammet Sinan | en_US |
dc.language.iso | tr | en_US |
dc.publisher | Düzce Üniversitesi | en_US |
dc.relation.publicationcategory | Tez | en_US |
dc.rights | info:eu-repo/semantics/openAccess | en_US |
dc.subject | Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol | en_US |
dc.subject | Computer Engineering and Computer Science and Control | en_US |
dc.subject | Makine öğrenmesi yöntemleri | en_US |
dc.subject | Machine learning methods | en_US |
dc.subject | Veri madenciliği | en_US |
dc.subject | Data mining | en_US |
dc.title | Telekomünikasyon sektöründe müşteri kayıp analizi | en_US |
dc.title.alternative | Customer churn analysis in telecommunication industry | en_US |
dc.type | Master Thesis | en_US |
Dosyalar
Orijinal paket
1 - 1 / 1
Yükleniyor...
- İsim:
- 473065.pdf
- Boyut:
- 4.13 MB
- Biçim:
- Adobe Portable Document Format
- Açıklama:
- Tam Metin / Full Text