Yazar "Parlak, Cevahir" seçeneğine göre listele
Listeleniyor 1 - 4 / 4
Sayfa Başına Sonuç
Sıralama seçenekleri
Öğe Geliştirilen yeni filtrelerin ve temel frekans tespit yönteminin derin öğrenme ile konuşma duygu analizinde uygulanması(Düzce Üniversitesi, 2022) Parlak, Cevahir; Altun, YusufBu tez çalışmasında konuşma duygu tanıma uygulamaları için yeni filtre bankaları ve insan sesi temel frekans tespiti için yeni bir metot önerilmektedir. Yeni filtre bankalarının konuşma duygu tanıma uygulamalarında büyük gelişmelerin önünü açması beklenmektedir. Günümüze kadar pek çok farklı filtre bankası konuşma tanıma uygulamaları için önerilmiştir. Ancak bu modeller genellikle çok fazla parametre içermekte veya karmaşık bazı matematiksel işlemlere gereksinim duymaktadırlar. MFCC (Mel Frequency Cepstral Coefficients) katsayıları Mel filtre bankalarından türetilirken DCT (Discrete Cosine Transform) uygulanmaktadır. Ayrıca MFCC katsayılarını akustik olarak yorumlamak hemen hemen imkansızdır. Mel filtre bankaları daha kolay yorumlanabilmesine rağmen çok fazla sayıda parametre içermektedir. Önerilen EFB (Emotional Filter Banks) filtre bankaları daha kolay yorumlanabildiği gibi hesaplama yönünden de daha hızlıdırlar. Bu çalışmada bu filtre bankalarını SVM-SMO (Support Vector Machine-Sequential Minimal Optimization) ve Derin Yapay Sinir Ağı modelleri ile uygulayıp MFCC ve Mel filtre bankaları ile EmoSTAR, EmoDB (Berlin Emotional Database), IEMOCAP (Interactive Emotional Dyadic Motion Capture Database) ve MELD (Multimodal EmotionLines Dataset) verisetleri üzerinde uygulayıp karşılaştıracağız. Özellik seçme ve veri türetme uygulamaları da ayrıca incelenecektir. Temel frekans tespiti için HDM (Harmonic Differences Method) metodu önerilecek olup genişbant ve darbant (telefon) konuşma için araştırılacaktır. HDM harmonikler arasındaki farkı temel alarak çalışmaktadır. Temel frekans için Hillenbrand ve Texas Sesli verisetleri ile TIMIT (Texas Instruments Massachusetts Institute of Technology) verisetinin sesli kısmının tamamı kullanılacaktır. HDM algoritması otokorelasyon, kepstrum, YIN, YAAPT (Yet Another Algorithm for Pitch Tracking), CREPE (Convolutional Representation for Pitch Estimation) ve FCN (Fully Convolutional Network) metotları ile karşılaştırılacaktır. Sonuçlar harmonikler arasındaki farkların temel frekans için iyi bir seçim olduğunu ve HDM metodunun diğerlerine göre çoğunlukla daha başarılı sonuçlar üretebildiğini göstermektedir.Öğe Improving YOLO Detection Performance of Autonomous Vehicles in Adverse Weather Conditions Using Metaheuristic Algorithms(Mdpi, 2024) Ozcan, Ibrahim; Altun, Yusuf; Parlak, CevahirDespite the rapid advances in deep learning (DL) for object detection, existing techniques still face several challenges. In particular, object detection in adverse weather conditions (AWCs) requires complex and computationally costly models to achieve high accuracy rates. Furthermore, the generalization capabilities of these methods struggle to show consistent performance under different conditions. This work focuses on improving object detection using You Only Look Once (YOLO) versions 5, 7, and 9 in AWCs for autonomous vehicles. Although the default values of the hyperparameters are successful for images without AWCs, there is a need to find the optimum values of the hyperparameters in AWCs. Given the many numbers and wide range of hyperparameters, determining them through trial and error is particularly challenging. In this study, the Gray Wolf Optimizer (GWO), Artificial Rabbit Optimizer (ARO), and Chimpanzee Leader Selection Optimization (CLEO) are independently applied to optimize the hyperparameters of YOLOv5, YOLOv7, and YOLOv9. The results show that the preferred method significantly improves the algorithms' performances for object detection. The overall performance of the YOLO models on the object detection for AWC task increased by 6.146%, by 6.277% for YOLOv7 + CLEO, and by 6.764% for YOLOv9 + GWO.Öğe A Quest for Formant-Based Compact Nonuniform Trapezoidal Filter Banks for Speech Processing with VGG16(Springer Birkhauser, 2024) Parlak, Cevahir; Altun, YusufIn this text, we discuss the filter banks used for speech analysis and propose a novel filter bank for speech processing applications. Filter banks are building blocks of speech processing applications. Multiple filter strategies have been proposed, including Mel, PLP, Seneff, Lyon, and Gammatone filters. MFCC is a transformed version of Mel filters and is still a state-of-the-art method for speech recognition applications. However, 40 years after their debut, time is running out to launch new structures as novel speech features. The proposed acoustic filter banks (AFB) are innovative alternatives to dethrone Mel filters, PLP filters, and MFCC features. Foundations of AFB filters are based on the formant regions of vowels and consonants. In this study, we pioneer an acoustic filter bank comprising 11 frequency regions and conduct experiments using the VGG16 model on the TIMIT and Speech Command V2 datasets. The outcomes of the study concretely indicate that MFCC, Mel, and PLP filters can effectively be replaced with novel AFB filter bank features.Öğe Spectro-Temporal Energy Ratio Features for Single-Corpus and Cross-Corpus Experiments in Speech Emotion Recognition(Springer Heidelberg, 2024) Parlak, Cevahir; Diri, Banu; Altun, YusufIn this study, novel Spectro-Temporal Energy Ratio features based on the formants of vowels, linearly spaced low-frequency, and logarithmically spaced high-frequency parts of the human auditory system are introduced to implement single- and cross-corpus speech emotion recognition experiments. Since the underlying dynamics and characteristics of speech recognition and speech emotion recognition differ too much, designing an emotion-recognition-specific filter bank is mandatory. The proposed features will formulate a novel filter bank strategy to construct 7 trapezoidal filter banks. These novel filter banks differ from Mel and Bark scales in shape and frequency regions and are targeted to generalize the feature space. Cross-corpus experimentation is a step forward in speech emotion recognition, but the researchers are usually chagrined at its results. Our goal is to create a feature set that is robust and resistant to cross-corporal variations using various feature selection algorithms. We will prove this by shrinking the dimension of the feature space from 6984 down to 128 while boosting the accuracy using SVM, RBM, and sVGG (small-VGG) classifiers. Although RBMs are considered no longer fashionable, we will show that they can achieve outstanding jobs when tuned properly. This paper discloses a striking 90.65% accuracy rate harnessing STER features on EmoDB.