Derin öğrenme tabanlı bas konuş/interkom sistemlerinde ses duygu analizi

Yükleniyor...
Küçük Resim

Tarih

2024

Dergi Başlığı

Dergi ISSN

Cilt Başlığı

Yayıncı

Düzce Üniversitesi

Erişim Hakkı

info:eu-repo/semantics/openAccess

Özet

Metrolarda bulunan Bas-Konuş sistemleri yolcuların makinistle iletişime geçmelerini sağlayan sistemlerdir. Yolcular bu sistem aracılığı ile acil durumlarda makinistle irtibata geçerek bir sıkıntı olduğunu söyleyebilmektedir. Ancak mevcut Bas Konuş/ Interkom sistemlerinde bir öncelik olayı olmadığı için makinist rastgele butona basan biriyle de görüşebilmektedir. Dolayısıyla önemli /acil bir durum için basan yolcu görüşmek için daha sonraya kalabilmekte ve geç müdahaleye sebep olabilmektedir. Bu çalışmada, bas/konuş sistemlerinde karşılaşılan bu sorunlara çözüm getirmek amacı ile, son yıllarda geliştirilen derin öğrenme mimarilerinden Wav2Vec2 kullanılmıştır. Bas-konuş cihazından butona basan yolcu konuştuğunda, insan sesini algılayan sistem devreye girmektedir. Bas-konuş cihazından butona basan yolcu konuştuğunda, eğitilmiş model ile duygu sınıflandırma yapılarak, yolcunun gerçekten acil bir durumda olup olmadığı algılanmaktadır. Bu çalışmada eğitilen duygu sınıflandırma modelinin, sisteme entegre edilmesi ve tahmin edilen duygu sınıfına göre, sistem otomasyonu geliştirilmesi, acil olmayan durumların otomatik bir sistem cevabı ile geçilmesini ve acil durumların geciktirilmemesi amaçlanmaktadır. Çalışmada EMO-DB veri setinde yer alan, duygu sınıflarına göre önceden eğitilmiş bir Wav2Vec2 modeli kullanılarak transfer öğrenme yoluyla ses verileri 2D görüntülere, yani ses spektrogramlarına dönüştürülmüştür. Elde edilen veri seti ile transfer öğrenme yolu ile eğitilen model de, %92 doğruluk değerine ulaşıldığı görülmüştür.
Push-to-Talk systems in subways are systems that allow passengers to communicate with the engineer. Through this system, passengers can contact the engineer in case of emergency and tell him/her that there is a problem. However, since there is no priority in the current Push to Talk/Intercom systems, the engineer can talk to someone who presses the button randomly. Therefore, the passenger who presses the button for an important/emergency situation may be delayed to be interviewed later and may cause late intervention. In this study, Wav2Vec2, one of the recently developed deep learning architectures, is used to solve these problems in push-to-talk systems. When the passenger presses the button on the push-to-talk device, the human voice recognition system is activated. When the passenger presses the button on the push-to-talk device, the trained model is used to classify the emotion and detect whether the passenger is really in an emergency or not. The aim of this study is to integrate the trained emotion classification model into the system and to develop system automation according to the predicted emotion class, to pass non-emergency situations with an automatic system response and not to delay emergency situations. In the study, audio data in the EMO-DB dataset were converted into 2D images, i.e. audio spectrograms, by transfer learning using a Wav2Vec2 model pre-trained according to emotion classes. It was observed that the model trained by transfer learning with the obtained data set achieved 92% accuracy.

Açıklama

Anahtar Kelimeler

Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control

Kaynak

WoS Q Değeri

Scopus Q Değeri

Cilt

Sayı

Künye

Koleksiyon