Text Mining Method in the Field of Health
Yükleniyor...
Dosyalar
Tarih
2020
Yazarlar
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
Erişim Hakkı
info:eu-repo/semantics/openAccess
Özet
Objective: Text mining which digitalizes textual data and enables them to be appliedfor text mining algorithms has a very important place in today’s world. The aim ofthis study was to introduce the text mining method and to show its application on asubject in the field of health.Methods: The text mining method was applied to the documents obtained separatelyfrom the most frequently used Pubmed database under two different titles as “humanand-cancer” and “mouse-and-cancer”, and then to the combined documents, throughthe Knime program. Afterwards, the document classification was made using Knearest neighbor (K-NN) algorithm.Results: The prominent words were “cell” and “cancer” in tag cloud graphs. In bothdocuments, the words such as “cell”, “cancer”, “tumor”, “patient”, whose frequencyvalues were high, were observed to be high rates in the analysis performed after thedata was merged. It was found that 255 of 600 test documents belonged to the humanand-cancer class and the remaining belonged to the mouse-and-cancer class, and theaccuracy classification was 56.6% for the human-and-cancer-documents and 62.6%for the mouse-and-cancer-documents according to the F-criteria. It was determinedthat the document classification estimation by the K-NN algorithm was relativelysuccessful with a rate of 59.8% however Cohen’s kappa value was 19.7%, meaningthat the fit was of a slight level.Conclusions: It was recommended to use the text mining method and to generalize itsuse in order to obtain information quickly and reliably in the health field where therewere numerous digital and printed documents
Amaç: Metinsel verileri sayısal hale getirerek veri madenciliği algoritmalarına uygulanmasını sağlayan metin madenciliği, gu?nu?mu?z du?nyasında önemli bir yere sahiptir. Bu çalışmanın amacı, metin madenciliği yöntemini tanıtmak ve sağlık alanında belirlenen bir konuda uygulamasını göstermektir. Gereç ve Yöntem: Çalışmanın uygulama aşamasında; insan-ve-kanser” ve fare- vekanser” şeklinde belirlenen iki farklı konu başlığı altında en sık kullanılan Pubmed veritabanından ayrı ayrı elde edilen doku?manlara ve daha sonra birleştirilmiş doku?manlara Knime programı aracılığıyla metin madenciliği yöntemi uygulanmıştır. Ardından K en yakın komşu (K-NN) algoritması kullanılarak doku?man sınıflaması yapılmıştır. Bulgular: Etiket bulut grafiklerinde öne çıkan kelimeler “cell” (hu?cre) ve “cancer” (kanser) kelimeleridir. Her iki doku?manda frekans değeri yu?ksek çıkan “cell”, “cancer”, “tumor”, “patient” gibi kelimelerin veriler birleştirildikten sonra yapılan analizde de yu?ksek oranla çıktığı gözlenmiştir. 600 adet test doku?manının 255 tanesi insan-ve-kanser sınıfına, geri kalanının ise fare-ve-kanser sınıfına ait oldukları; F ölçu?tu?ne göre insan-ve-kanser doku?manları için %56,6’lık, fare-ve-kanser doku?manları için ise %62,6’lık doğru sınıflandırılma yu?zdesi tespit edilmiştir. K-NN algoritması ile %59,8 oranında kısmen başarılı bir doku?man sınıflama tahmini yapıldığı, ancak Cohen kappa değerinin %19,7 olduğu ve bu uyumun zayıf du?zeyde olduğu belirlenmiştir. Sonuç: Dijital ve basılı doku?manların sayısının oldukça fazla olduğu sağlık alanında hızlı ve gu?venilir bir şekilde bilgi elde edebilmek için metin madenciliği yönteminden yararlanılması ve kullanımının yaygınlaştırılması önerilmektedir.
Amaç: Metinsel verileri sayısal hale getirerek veri madenciliği algoritmalarına uygulanmasını sağlayan metin madenciliği, gu?nu?mu?z du?nyasında önemli bir yere sahiptir. Bu çalışmanın amacı, metin madenciliği yöntemini tanıtmak ve sağlık alanında belirlenen bir konuda uygulamasını göstermektir. Gereç ve Yöntem: Çalışmanın uygulama aşamasında; insan-ve-kanser” ve fare- vekanser” şeklinde belirlenen iki farklı konu başlığı altında en sık kullanılan Pubmed veritabanından ayrı ayrı elde edilen doku?manlara ve daha sonra birleştirilmiş doku?manlara Knime programı aracılığıyla metin madenciliği yöntemi uygulanmıştır. Ardından K en yakın komşu (K-NN) algoritması kullanılarak doku?man sınıflaması yapılmıştır. Bulgular: Etiket bulut grafiklerinde öne çıkan kelimeler “cell” (hu?cre) ve “cancer” (kanser) kelimeleridir. Her iki doku?manda frekans değeri yu?ksek çıkan “cell”, “cancer”, “tumor”, “patient” gibi kelimelerin veriler birleştirildikten sonra yapılan analizde de yu?ksek oranla çıktığı gözlenmiştir. 600 adet test doku?manının 255 tanesi insan-ve-kanser sınıfına, geri kalanının ise fare-ve-kanser sınıfına ait oldukları; F ölçu?tu?ne göre insan-ve-kanser doku?manları için %56,6’lık, fare-ve-kanser doku?manları için ise %62,6’lık doğru sınıflandırılma yu?zdesi tespit edilmiştir. K-NN algoritması ile %59,8 oranında kısmen başarılı bir doku?man sınıflama tahmini yapıldığı, ancak Cohen kappa değerinin %19,7 olduğu ve bu uyumun zayıf du?zeyde olduğu belirlenmiştir. Sonuç: Dijital ve basılı doku?manların sayısının oldukça fazla olduğu sağlık alanında hızlı ve gu?venilir bir şekilde bilgi elde edebilmek için metin madenciliği yönteminden yararlanılması ve kullanımının yaygınlaştırılması önerilmektedir.
Açıklama
Anahtar Kelimeler
[No Keywords]
Kaynak
Konuralp Tıp Dergisi
WoS Q Değeri
N/A
Scopus Q Değeri
Cilt
12
Sayı
2