Development of a biometric authentication platform using voice recognition.

No Thumbnail Available
Date
2022
Authors
BOUZATA Hadjer
Journal Title
Journal ISSN
Volume Title
Publisher
université chadli ben djedid eltarf
Abstract
This work focuses on single-word speech recognition, where the end goal is to accurately recognize a set of predefined words from short audio clips. Single-word speech recognition can be used in voice interfaces for applications with key word detection, which can be useful on mobile and embedded devices. These devices often have strict requirements in terms of computing power and memory, which is recognized in the design of the speech recognition model. To classify samples, we use a Convolutional Neural Network (CNN) with two-dimensional convolutions on the audio waveform. As opposed to more traditional methods where feature-engineering is crucial, we leverage the power of deep learning to learn the feature representation during training. The model achieves an accuracy rate of 0.9633 and 0.9340 accuracy on the validation set, and an error of 0.1274. The results show that the model can predict samples of words it has seen during training with high accuracy, but it somewhat struggles to generalize to words outside of the scope of the training data and extremely noisy samples. تركز هذه الدراسة على التعرف على الكلام المكوّن من كلمة واحدة، حيث الهدف النهائي هو التعرف بدقة على مجموعة من الكلمات المحددة مسبقًا من مقاطع صوتية قصيرة. يمكن استخدام التعرف على الكلام ذو الكلمة الواحدة في واجهات الصوت للتطبيقات التي تتطلب الكشف عن كلمات رئيسية، مما يمكن أن يكون مفيدًا على الأجهزة المحمولة والمضمنة. غالبًا ما تمتلك هذه الأجهزة متطلبات صارمة من حيث القدرة الحاسوبية والذاكرة، وهو ما يتم أخذه في الاعتبار عند تصميم نموذج التعرف على الكلام. لتصنيف العينات، نستخدم شبكة عصبية تلافيفية (CNN) مع عمليات تلافيف ثنائية الأبعاد على شكل الموجة الصوتية. على عكس الأساليب التقليدية حيث يكون هندسة الميزات أمرًا بالغ الأهمية، نستفيد من قوة التعلم العميق لتعلّم تمثيل الميزات أثناء التدريب. يحقق النموذج معدل دقة قدره 0.9633 و0.9340 على مجموعة التحقق، وخطأ قدره 0.1274. تُظهر النتائج أن النموذج يمكنه التنبؤ بعينات من الكلمات التي تم رؤيتها أثناء التدريب بدقة عالية، لكنه يواجه بعض الصعوبة فيلتعميم الكلمات خارج نطاق بيانات التدريب والعينات شديدة الضوضاء.
Description
Keywords
Citation
Collections