م. طارق علي ….. تحسين أداء خوارزميات تمييز الأصوات المستخدمة في بناء محررات النصوص الصوتية

العدد: 9285

الثلاثاء-5-2-2019

 

نوقشت في جامعة تشرين، كلية الهندسة الميكانيكية والكهربائية رسالة ماجستير لطالب الدراسات العليا المهندس طارق فارس علي حملت عنوان: (تحسين أداء خوارزميات تمييز الأصوات المستخدمة في بناء محررات النصوص الصوتية) وذلك بإشراف الدكتور حسن الأحمد وبموجب مداولة لجنة الحكم المؤلفة من السادة: الدكتورة كندة أبو قاسم، والدكتور حسن الأحمد، والدكتور إلفت جولحة، وبعد انتهاء المناقشة منح المهندس طارق علي شهادة الماجستير بتقدير امتياز وعلامة قدرها 91%، ونظراً لأهمية الرسالة نسلط الضوء على أهم ما جاء فيها من معلومات واستنتاجات ومقترحات أغنت موضوع البحث .

بدأ اهتمام خبراء الحاسب والباحثين في مجال التعرف على الكلام منذ أكثر من أربعة عقود، وذلك لكي يصل الحاسب إلى مرحلة يستطيع فيها فهم الإنسان وتلقي الأوامر والتعليمات صوتياً، وبدون الحاجة إلى وسائل الإدخال التقليدية، وذلك توفيراً للوقت والجهد، وفي السنوات الأخيرة تطورت نظم التعرف على الكلام تطوراً واضحاً وكبيراً، بحيث أصبحت برامج التعرف الآلي تدخل في أغلب مجالات الحياة. ووصلت إلى دقة مرضية نوعاً ما، يوجد العديد من الطرق المستخدمة في مجال تمييز الكلام، وتختلف عن بعضها البعض في نوع المصنف المستخدم في عملية التعرف كالشبكات العصبونية ونموذج ماركوف المخفي وغيرها، كما تختلف عن بعضها البعض بطريقة معالجة الضجيج وطريقة استخلاص السمات من الأمواج الصوتية، حيث تم تطوير طرق كثيرة (خوارزميات) في هذا المجال، وبسبب هذا التنوع الكبير في الطرق الممكن استخدامها في عملية التمييز برزت الحاجة لتحديد الخوارزمية الأفضل أو المصنف الأفضل للوصول إلى معدل تعرف أعلى وبزمن أقل، حيث لا تزال التطبيقات المستخدمة للتفاعل صوتياً مع المستخدمين تعاني من انخفاض نسبي في دقة التعرف على الكلام، لذلك برزت الحاجة إلى تطبيقات ذات معدل عالٍ وزمن تأخير مقبول لتتناسب مع احتياجات المستخدمين المختلفين.
تعد تقنيات التعرف على الكلام من أهم تقنيات التعرف على النماذج الحديثة وقد تم تطوير العديد من الأنظمة المختلفة من حيث الطرق المستخدمة في استخراج الرسمات وطرق التصنيف، يتضمن التعرف على الصوت مجالين هما: التعرف على الكلام والتعرف على المتكلم، وقد اقتصر البحث على مجال التعرف على الكلام. يقدم البحث مقترحاً لتحسين أداء أنظمة التعرف على الكلمات المفردة عن طريق خوارزمية للجمع بين أكثر من تقنية من التقنيات المستخدمة في استخلاص السمات وتعديل الشبكة العصبونية لدراسة تأثيرها على عملية التعرف ودراسة تأثير الضجيج على النظام المقترح، تم في هذا البحث دراسة أربعة أنظمة لتمييز الكلام، حيث اعتمد النظام الأول خوارزمية MFCC لاستخلاص الرسمات، واعتمد النظام الثاني خوارزمية PLP في حين اعتمد النظام الثالث على الدمج بين سمات الخوارزميتين السابقتين إضافة إلى معدل تخطي الصفر، وفي النظام الرابع تم تعديل الشبكة العصبونية المستخدمة في عملية التمييز، وتقليل نسبة الخطأ فيها، كما تمت دراسة أثر الضجيج على جميع الأنظمة المدروسة، تمت مقارنة النتائج من حيث معدل التعرف وزمن تدريب الشبكة العصبونية لكل نظام على حدة لتحصل على نسبة تعرف وصلت حتى 98% باستخدام النظام المقترح.
الاستنتاجات
أولاً: نظام دمج السمات المقترح أفضل من خوارزميات PLP وMFCC من حيث الدقة ونسبة التعرف.
ثانياً: يجب تعديل الشبكة العصبونية في كل نظام تعرف لأنها تلعب دوراً كبيراً في تحسين نتائج التعرف.
ثالثاً: نظام دمج السمات المقترح أفضل من حيث استهلاك الذاكرة وزمن تدريب الشبكة العصبونية حيث تم التغلب على مشكلة امتلاء الذاكرة.
التوصيات والمقترحات
أولاً: تعديل بنية الخوارزمية بحيث تصبح نسبة التداخل بين الإطارات هي النصف، وبالتالي يكون لدينا نصف مكرر، ويمكن معالجته مرة واحدة.
ثانياً: إضافة سمة أخرى وهي طاقة الزمن القصير (SHORT TIME ENERGY).
ثالثاً: كشف مناطق الكلام الفعلي باستخدام معدل تخطي الصفر وطاقة الزمن القصير.

رفيدة يونس أحمد

تصفح المزيد..
آخر الأخبار