Derin öğrenme tabanlı bas konuş/interkom sistemlerinde ses duygu analizi

dc.contributor.advisorErdoğmuş, Pakize
dc.contributor.authorSinan, Kübra
dc.date.accessioned2024-08-23T18:34:15Z
dc.date.available2024-08-23T18:34:15Z
dc.date.issued2024
dc.departmentDÜ, Lisansüstü Eğitim Enstitüsü, Bilgisayar Mühendisliği Ana Bilim Dalıen_US
dc.description.abstractMetrolarda bulunan Bas-Konuş sistemleri yolcuların makinistle iletişime geçmelerini sağlayan sistemlerdir. Yolcular bu sistem aracılığı ile acil durumlarda makinistle irtibata geçerek bir sıkıntı olduğunu söyleyebilmektedir. Ancak mevcut Bas Konuş/ Interkom sistemlerinde bir öncelik olayı olmadığı için makinist rastgele butona basan biriyle de görüşebilmektedir. Dolayısıyla önemli /acil bir durum için basan yolcu görüşmek için daha sonraya kalabilmekte ve geç müdahaleye sebep olabilmektedir. Bu çalışmada, bas/konuş sistemlerinde karşılaşılan bu sorunlara çözüm getirmek amacı ile, son yıllarda geliştirilen derin öğrenme mimarilerinden Wav2Vec2 kullanılmıştır. Bas-konuş cihazından butona basan yolcu konuştuğunda, insan sesini algılayan sistem devreye girmektedir. Bas-konuş cihazından butona basan yolcu konuştuğunda, eğitilmiş model ile duygu sınıflandırma yapılarak, yolcunun gerçekten acil bir durumda olup olmadığı algılanmaktadır. Bu çalışmada eğitilen duygu sınıflandırma modelinin, sisteme entegre edilmesi ve tahmin edilen duygu sınıfına göre, sistem otomasyonu geliştirilmesi, acil olmayan durumların otomatik bir sistem cevabı ile geçilmesini ve acil durumların geciktirilmemesi amaçlanmaktadır. Çalışmada EMO-DB veri setinde yer alan, duygu sınıflarına göre önceden eğitilmiş bir Wav2Vec2 modeli kullanılarak transfer öğrenme yoluyla ses verileri 2D görüntülere, yani ses spektrogramlarına dönüştürülmüştür. Elde edilen veri seti ile transfer öğrenme yolu ile eğitilen model de, %92 doğruluk değerine ulaşıldığı görülmüştür.en_US
dc.description.abstractPush-to-Talk systems in subways are systems that allow passengers to communicate with the engineer. Through this system, passengers can contact the engineer in case of emergency and tell him/her that there is a problem. However, since there is no priority in the current Push to Talk/Intercom systems, the engineer can talk to someone who presses the button randomly. Therefore, the passenger who presses the button for an important/emergency situation may be delayed to be interviewed later and may cause late intervention. In this study, Wav2Vec2, one of the recently developed deep learning architectures, is used to solve these problems in push-to-talk systems. When the passenger presses the button on the push-to-talk device, the human voice recognition system is activated. When the passenger presses the button on the push-to-talk device, the trained model is used to classify the emotion and detect whether the passenger is really in an emergency or not. The aim of this study is to integrate the trained emotion classification model into the system and to develop system automation according to the predicted emotion class, to pass non-emergency situations with an automatic system response and not to delay emergency situations. In the study, audio data in the EMO-DB dataset were converted into 2D images, i.e. audio spectrograms, by transfer learning using a Wav2Vec2 model pre-trained according to emotion classes. It was observed that the model trained by transfer learning with the obtained data set achieved 92% accuracy.en_US
dc.identifier.endpage76en_US
dc.identifier.startpage1en_US
dc.identifier.urihttps://tez.yok.gov.tr/UlusalTezMerkezi/TezGoster?key=KMB79M3N7zK1UR2WYeRgQq5jZuKpfGITTnxAOlub3fkQYZ24msrNNkvPkt_b5HM-
dc.identifier.urihttps://hdl.handle.net/20.500.12684/15359
dc.identifier.yoktezid863504en_US
dc.institutionauthorSinan, Kübra
dc.language.isotren_US
dc.publisherDüzce Üniversitesien_US
dc.relation.publicationcategoryTezen_US
dc.rightsinfo:eu-repo/semantics/openAccessen_US
dc.subjectBilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolen_US
dc.subjectComputer Engineering and Computer Science and Controlen_US
dc.titleDerin öğrenme tabanlı bas konuş/interkom sistemlerinde ses duygu analizien_US
dc.typeMaster Thesisen_US

Dosyalar

Orijinal paket
Listeleniyor 1 - 1 / 1
Yükleniyor...
Küçük Resim
İsim:
15359.pdf
Boyut:
3.32 MB
Biçim:
Adobe Portable Document Format

Koleksiyon