Metin madenciliği ve sağlık alanında bir uygulama
Teknolojinin hızla gelişmesi, bilgisayarların ve internetin gündelik yaşama daha fazla entegre olmasıyla birlikte veri tabanlarındaki verilerin de hızla artış göstermesine sebebiyet vermiştir ve birçok işlemin elektronik ortamda kayıt altına alınması, bu kayıtların saklanabilmesini, istendiğinde erişilebilmesini hem kolaylaştırmış hem de daha ucuza sahip olunmasını sağlamıştır. Bu durumda ham verilerin veritabanlarıyla birlikte günden güne artış göstermesiyle beraber, elde edilmek istenen bu verilerin doğru ve güvenilir olma ihtiyacı da ortaya çıkmış ve gereklilik haline gelmiştir. Bundan dolayı veri madenciliği oldukça önemli bir çalışma alanı bulmuştur. Veri madenciliğinde sayısal haldeki verilerin analizi yapılabilmekteyken, metinsel durumda bulunan yani sayısal olmayan verilerin analiz edilmesi de önemli bir ihtiyaç haline gelmiştir. Bu ihtiyaçtan dolayı metin madenciliğine yönelik çalışmalar da hız kazanmıştır. Metinsel verileri sayısal hale getirerek veri madenciliği algoritmalarına uygulanabilir hale getiren metin madenciliği, günümüz dünyasında büyük önem teşkil etmektedir. Bu tez çalışmasının amacı, metin madenciliği yöntemini ve uygulama adımlarını tanıtmak, ve sağlık alanında belirlenen bir konuda uygulamasını göstermektir. Çalışmanın uygulama aşamasında; "insanlarda görülen kanser vakaları (human and cancer)" ve "farelerde kanser araştırmaları (mouse and cancer)" şeklinde belirlenen iki farklı konu başlığı altında en sık kullanılan Pubmed veritabanından ayrı ayrı elde edilen dokümanlar birleştirilerek, bu dokümanlara sırasıyla metin madenciliği tekniklerinin uygulanmasına, Knime programının metin madenciliğinde nasıl kullanıldığına ve elde edilen dokümanlara uygulanan adımların neler olduğuna ayrıntılı olarak yer verilecektir.
The development of technology at speed has led to a rapid increase in the data in the databases as computers and the Internet are more integrated into daily life and recording of many transactions in the electronic environment has made it possible to store these records and make them easier to access and provide cheaper. In this case, as the raw data increased day by day along with the databases, the need to be accurate and reliable emerged. Therefore, data mining has become an important field of study. While it is possible to analyze numerical data in data mining, analyzing non-numerical data in text mining has become an important need. Because of this need, studies on text mining have gained momentum. Text mining digitizes textual data and makes it applicable to data mining algorithms and it is of great importance in today's world. In the application phase of the study, there are two different topics that are identified as "cancer cases in humans "and "cancer research in mice" and these documents obtained from the most commonly used Pubmed database have been combined and text mining techniques have been applied to these documents respectively. It will be given detail about the Knime program is used in text mining and the steps taken in the documents obtained will be given in detail.
YÖK Tez No: 626483
Biyoistatistik, Biostatistics