Création d’une base de données parole et l’extraction de ses paramètres vocaux Building a speech database and then extracting its vocal parameters
Création d’une base de données parole et l’extraction de ses paramètres vocaux Building a speech database and then extracting its vocal parameters
No Thumbnail Available
Date
2022
Authors
ABBACI Bochra
Journal Title
Journal ISSN
Volume Title
Publisher
université chadli ben djedid eltarf
Abstract
De nos jours, les applications de reconnaissance vocale se retrouvent dans de nombreuses activités. Le
système de paramètres joue un rôle important dans l'ASR où le but est d'extraire les informations
caractéristiques du signal de parole en éliminant autant de parties redondantes que possible. Notre travail
consiste également à construire un jeu de données arabe et à extraire ses coefficients audios via trois
méthodes d'extraction de caractéristiques : « MFCC » (coefficients cepstraux de fréquence Mel), «
RASTA-PLP » (spectre relatif PLP) et J-Rasta-PLP. Ce travail vise à comparer les performances de nos
méthodes proposées, nous avons donc utilisé les résultats obtenus comme entrée dans un système de
reconnaissance de la parole avec des réseaux de neurones artificiels multicouches (MLP).
Nowadays, speech recognition applications can be found in many activities. Parameter system plays an
important role in ASR system where the goal is to extract the characteristic information of the speech
signal by eliminating as many redundant parts as possible. Our work is also to build an Arabic dataset
and extract its audio coefficients via three feature extraction methods: “MFCC” ' (Cepstral coefficients
with frequency Mel), 'RASTA-PLP' (PLP relative spectrum), and J-Rasta-PLP. This work aims to
compare the performance of our proposed methods, so we used the obtained results as input into a
speech recognition system with multilayer artificial neural networks (MLP).
في الوقت الحاضر، يمكن العثور على تطبيقات التعرف على الكلام في العديد من الأنشطة. يلعب نظام المعلمات دورًا هامًا في نظام التعرف على الكلام، حيث يكون الهدف هو استخراج المعلومات المميزة لإشارة الكلام عن طريق إزالة أكبر عدد ممكن من الأجزاء الزائدة. عملنا أيضًا هو بناء مجموعة بيانات عربية واستخراج معاملات الصوت الخاصة بها عبر ثلاث طرق لاستخراج الميزات: "MFCC" (معاملات كيبسترال مع تردد ميل)، و 'RASTA-PLP' (طيف نسبي PLP)، و J-Rasta-PLP. يهدف هذا العمل إلى مقارنة أداء الطرق المقترحة لدينا، لذلك استخدمنا النتائج المحصلة كمدخل إلى نظام التعرف على الكلام باستخدام الشبكات العصبية الاصطناعية متعددة الطبقات (MLP).