Dağıtık hadoop kümelerinde yeni eşle/indirge programlama algoritması modeli

dc.contributor.advisorKara, Resul
dc.contributor.authorŞeşen, Emin
dc.date.accessioned2025-10-11T20:34:42Z
dc.date.available2025-10-11T20:34:42Z
dc.date.issued2024
dc.departmentDÜ, Fen Bilimleri Enstitüsü, Bilgisayar Mühendisliği Ana Bilim Dalıen_US
dc.description.abstractBüyük veriler veri aktarma maliyetinden dolayı genellikle üretildiği konumlara yakın yerlere depolanırlar. Depolanan bu veriler işlenmek için tek bir konuma taşınır veya bulunduğu konumda işlenirler. Literatürde veri işlemek için farklı yöntemlere rastlamak mümkündür. Bu çalışmada veri işlemek için yeni bir yöntem sunulmuştur. Önerilen yöntemde veri işleme sürecini tamamlayan farklı donanımlara sahip veri merkezlerinin (DC) kendi aralarında veri karıştırma (shuffling) yapması sağlanmıştır. DC'lerin indirge (reduce) fonksiyonunun veri işleme maliyetinin hesaplanması için test ortamında elde edilen veriler ile polinomal regresyon modeli oluşturulmuş ve karar sürecinde bu modelden elde edilen katsayılar kullanılmıştır. Karıştırma yapılacak anahtar/değer çiftlerini, konumlarını dikkate alarak, DC'lerin maliyetlerine göre dağıtılmıştır. DC'ler arasında karıştırma için, DC'lerin tümünün işini bitirmesi beklenmez. Böylelikle tüm DC'lerin aynı anda karıştırma yaptıklarındaki hem karıştırma hem de işlenen veri hacmi azalmıştır. Önerilen yöntemin performansı literatürdeki 4 farklı yöntemle karşılaştırılmıştır. Sonuç olarak bu çalışma veri boyutunda en yakın örneğinden %15 daha az karıştırma verisi oluşturmuştur.en_US
dc.description.abstractBig data are often stored close to the locations where they are generated, owing to the cost of data transfer. These stored data are moved to a single location for processing or processed at that location. In the literature, it is possible to find different methods for processing data in distributed datacenters. In this study, we present a new method for data processing called GSelf-MapReduce. In the proposed method, shuffling is performed among heterogeneous datacenter (DC) that complete the data-processing process. To calculate the data processing cost of the reduced function of the DCs, a polynomial regression model was created using the data obtained in the test environment, and the coefficients obtained from this model were used in the decision process. The key/value pairs to be shuffled are distributed according to the cost of the DCs, considering their location. Because the data to be shuffled between DCs do not wait for all DCs to complete their jobs, the cost is reduced both in terms of the data to be moved and the data to be processed. The performance of the proposed method was compared with that of four different distributed data processing methods in the literature. As a result, this work generates 15% less shuffled data than the closest work.en_US
dc.identifier.endpage85en_US
dc.identifier.startpage1en_US
dc.identifier.urihttps://tez.yok.gov.tr/UlusalTezMerkezi/TezGoster?key=usXiZIM9Lp0wk-YzRoaT-xueVoHgg5WHArMrp55xYCvb_ijPNyffgu1FYZCCTzq1
dc.identifier.urihttps://hdl.handle.net/20.500.12684/20294
dc.identifier.yoktezid887213en_US
dc.institutionauthorŞeşen, Emin
dc.language.isotren_US
dc.publisherDüzce Üniversitesien_US
dc.relation.publicationcategoryTezen_US
dc.rightsinfo:eu-repo/semantics/openAccessen_US
dc.snmzKA_TEZ_20250911
dc.subjectBilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolen_US
dc.subjectComputer Engineering and Computer Science and Controlen_US
dc.titleDağıtık hadoop kümelerinde yeni eşle/indirge programlama algoritması modelien_US
dc.title.alternativeNew map/reduce programming algorithm model in distributed hadoop clustersen_US
dc.typeDoctoral Thesisen_US

Dosyalar