م. نور غضبان تحصل على مرتبة الشرف في رسالة دكتوراه تحسين التعرف على الكلام للمتحدثين باللغة العربية

العدد: 
9119
التاريخ: 
الثلاثاء, 29 أيار, 2018
الكاتب: 
نور محمد حاتم

يتابع قسم هندسة الحاسبات والتحكم الآلي في كلية الهندسة الميكانيكية والكهربائية في جامعة تشرين، السير قدما ًفي تخريج طلبة الدكتوراه، الذين سيشكلون داعما ًكبيرا ًللجامعة وللدولة وخاصة في ظل الحرب وهجرة الأدمغة، حيث تمّ في يوم الثلاثاء الماضي المناقشة العلنية لرسالة الدكتوراه التي أعدتها الطالبة المهندسة نور سميع غضبان في بحث أعدّ لنيل درجة الدكتوراه في جامعة تشرين – كلية الهندسة الميكانيكية والكهربائية – قسم هندسة الحاسبات والتحكم الآلي بعنوان : تحسين التعرف على الكلام للمتحدثين باللغة العربية باستخدام السمات السمعية والبصرية ، أ.د. جعفر الخيّر (مشرف رئيس) د.م. مريم ساعي (مشرف مشارك).نالت الباحثة فيه مرتبة الشرف والدرجة 96%


 وفيمايلي عرض لأبرز نقاط البحث:
تضمن الكلام إشارات من الصيغ السمعية والبصرية من أجل حمل الرسالة. حيث كانت معالجة المعلومات التقليدية تركّز عادةً على نوع واحد، لكن من ناحية الإدراك والإنتاج يعد الكلام ثنائي النمط أصلاً .حيث يتم إنتاج كلام الإنسان بوساطة المنطقة الصوتية المتكونة من الأعضاء المفصلية والتي تتضمن التجويف الأنفي واللسان والأسنان والشفاه، وباستعمال هذه الأعضاء المفصلية مع بعضها مع العضلات التي تولد التعابير الوجهية ينتج المتكلم الكلام، ولكون أنّ بعض هذه المفاصل مرئية فهناك علاقة أساسية بين الكلام البصري والصوتي. الطبيعة ثنائية النمط لكلام الإنسان مثبتة بشكل ملائم في ما يسمى أثر ماك كورك (الإدراك متعدد الحواس) McGurk effect. لذلك يبرز استغلال حالات الفصل الموجودة بين الخصائص السمعية والبصرية للكلام لكي يعالج الكلام من أجل التعرف بالشكل البصري ومنها أتت نظم معالجة الكلام السمعي والبصري Audio Visual Speech Processing (AVSP).
هدف البحث:
يهدف البحث إلى تصميم نظام سمعي بصري للتعرف على كلمات معزولة منطوقة باللغة العربية باستخدام كل من صوت وحركة شفاه المتكلم.
المشكلة العلمية في مشروع البحث:
تعترض برامج التعرف الآلي على الكلام العربي على العديد من المشاكل والتي تسبب انخفاض في نسبة التعرف بسبب انخفاض نسبة التعرف عند تطبيق أي خوارزمية على الكلام المنطوق باللغة العربية عما يماثلها عند تطبيقها على اللغات الأخرى، كما تنخفض نسب التعرف في جميع نظم التعرف على الكلام في بيئات الضجيج.
أهمية البحث: • تزداد القدرة على التعرف على الكلام عند تكامل النظام السمعي مع النظام البصري لأنّه يتمّ استكمال نقاط الضعف في السمات السمعية عند استكمالها بالسمات البصرية التي لا تتأثر بالضجيج. • الأبحاث المقدمة في اللغة العربية محدودة وماتزال في بدايتها.
غاية البحث:
 تحديد نسبة التعرف على الكلمات المعزولة في اللغة العربية في الحالات التالية: • بالاعتماد على الإشارة السمعية. • بالاعتماد على الإشارة البصرية. • تكامل الإشارتين السمعية والبصرية.
متغيرات البحث:
الصوت وحركة الشفاه تمثل متغيرات البحث. محددات البحث: يتصف النظام بأنه: • Offline Recognition • Independent Recognition • Isolated word Recognition • التعرف باستخدام قواعد بيانات معيارية جاهزة.
طرائق البحث وموارده:
يستخدم البحث سمتي صوت المتكلم وحركة شفاهه، حيث تمّ استخدام قاعدة بيانات معيارية. تتضمن القاعدة 13850 مقطع فيديو لست وثلاثين كلمة معزولة ومنطوقة باللغة العربية من قبل خمسين متكلم تتراوح أعمارهم بين ثمانية عشر إلى ستين عاماً، أثناء التسجيل تم التسجيل لكل شخص على حدا، وحفظت ملفات التسجيلات كل شخص بملف مستقل، حفظت التسجيلات الصوتية تتنوع الأحاديث المسجلة حيث تحوي كلمات غنية صوتياً متنوعة لفظياً، بشروط عادية من السرعة وعلو الصوت، وبالاستعانة بمجموعة من الأدوات كالميكروفون الديناميكي نوع Yamaha، عدد القنوات الصوتية أحادية (mono)، وتمت بتردد أخد عينات 44.1 kHz بمعدل البت في العينة .8 bits per sample تحقق تسجيلات الفيديو بعد مثالي للشخص عن الكاميرا بحيث لا يؤثر على نسبة التعرف البصري، وتخضع لظروف دراسة مثالية للبيئة التي تم تسجيل قاعدة البيانات فيها من حيث ظروف الإضاءة، تم التقاط الفيديوهات بدقة 460 * 480 بكسل ومعدل إطارات 57 إطاراً لكل كلمة محفوظة بملف خاص لكل كلمة وشخص وبزمن 2 ثانية، تتضمن حالات تصوير مختلفة من تغيرات في زوايا التصوير والتغطية الجزئية، حيث تم نطق كل كلمة في عدة وضعيات تختلف باختلاف الزاوية التي تم التقاط الكاميرا فيها وكانت بالشكل التالي: مباشر، بزاوية 45 درجة إلى اليمين، بزاوية 45 درجة إلى اليسار. يستخدم البحث برنامج الماتلاب MATLAB ومكتبات معالجة الصورة الخاصة به Image Pocessing Toolbox، ومكتبات خاصة بالصوت هي (voicebox، signal processing). تم إنشاء ملفات معنونة label files لكل تسجيل، حيث يصبح لكل تسجيل كيان خاص به له نفس ا‘لإسم السابق، واستخدم برنامج Praat لتعليم الكيانات الإسم بكل سهولة ومن ثم تم استخدام برنامج #C لتحويل الملفات الناتجة عن هذه المرحلة بصيغة Praat’s TextGrid إلى avi.