Development of a biometric authentication platform using voice recognition.

dc.contributor.author BOUZATA Hadjer
dc.date.accessioned 2025-11-18T08:37:54Z
dc.date.available 2025-11-18T08:37:54Z
dc.date.issued 2022
dc.description.abstract This work focuses on single-word speech recognition, where the end goal is to accurately recognize a set of predefined words from short audio clips. Single-word speech recognition can be used in voice interfaces for applications with key word detection, which can be useful on mobile and embedded devices. These devices often have strict requirements in terms of computing power and memory, which is recognized in the design of the speech recognition model. To classify samples, we use a Convolutional Neural Network (CNN) with two-dimensional convolutions on the audio waveform. As opposed to more traditional methods where feature-engineering is crucial, we leverage the power of deep learning to learn the feature representation during training. The model achieves an accuracy rate of 0.9633 and 0.9340 accuracy on the validation set, and an error of 0.1274. The results show that the model can predict samples of words it has seen during training with high accuracy, but it somewhat struggles to generalize to words outside of the scope of the training data and extremely noisy samples. تركز هذه الدراسة على التعرف على الكلام المكوّن من كلمة واحدة، حيث الهدف النهائي هو التعرف بدقة على مجموعة من الكلمات المحددة مسبقًا من مقاطع صوتية قصيرة. يمكن استخدام التعرف على الكلام ذو الكلمة الواحدة في واجهات الصوت للتطبيقات التي تتطلب الكشف عن كلمات رئيسية، مما يمكن أن يكون مفيدًا على الأجهزة المحمولة والمضمنة. غالبًا ما تمتلك هذه الأجهزة متطلبات صارمة من حيث القدرة الحاسوبية والذاكرة، وهو ما يتم أخذه في الاعتبار عند تصميم نموذج التعرف على الكلام. لتصنيف العينات، نستخدم شبكة عصبية تلافيفية (CNN) مع عمليات تلافيف ثنائية الأبعاد على شكل الموجة الصوتية. على عكس الأساليب التقليدية حيث يكون هندسة الميزات أمرًا بالغ الأهمية، نستفيد من قوة التعلم العميق لتعلّم تمثيل الميزات أثناء التدريب. يحقق النموذج معدل دقة قدره 0.9633 و0.9340 على مجموعة التحقق، وخطأ قدره 0.1274. تُظهر النتائج أن النموذج يمكنه التنبؤ بعينات من الكلمات التي تم رؤيتها أثناء التدريب بدقة عالية، لكنه يواجه بعض الصعوبة فيلتعميم الكلمات خارج نطاق بيانات التدريب والعينات شديدة الضوضاء.
dc.identifier.uri http://depotucbet.univ-eltarf.dz:4000/handle/123456789/2514
dc.language.iso en
dc.publisher université chadli ben djedid eltarf
dc.title Development of a biometric authentication platform using voice recognition.
dc.type Thesis
dspace.entity.type
Files
Original bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
BOUZATA HADJER mémoire final.pdf
Size:
2.46 MB
Format:
Adobe Portable Document Format
Description:
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed to upon submission
Description:
Collections