رسالة ماجستير.. دراســـــة تأثير اختــــــلاف اللغات على أنظمة وصــــف الصـــــور

العدد: 
9182
التاريخ: 
الثلاثاء, 4 أيلول, 2018
الكاتب: 
نور حاتم

يقدم البحث نظاماً مطوَّراً لإعطاء وصف كامل لمكونات الصور الرقمية بجملة عربية ذات بناء صحيح. ويهدف البحث إلى توصيف مكونات المشهد والعلاقات بين مكوناته باستخدام لغة عربية صحيحة ومناسبة. يراعي البحث مكان توضع المكونات في الصورة وتغير أشكالها من مشهد لآخر. تم استخدام مجموعة بيانات Flickr8k والتي تتضمن صوراً لمشاهد طبيعية ورمزية معاً إضافة إلى ملف وصف باللغة الإنكليزية لجميع الصور. تتضمن مجموعة البيانات ثلاثة أجزاء 6000 صورة للتدريب، 1000 صورة للتحقق و1000 صورة للاختبار.هذا ما تصدت له المهندسة رشا محمد معلا في رسالة أعدت لنيل درجة الماجستير في هندسة الحاسبات والتحكم الآلي اختصاص هندسة الاتصالات المعلوماتية إشراف الأستاذ الدكتور:جعفر الخير أمام لجنةالحكم: د.م .مريم ساعي ود.م. حسن الأحمد
تم ضمن البحث توليد مجموعة بيانات عربية تتضمن عدداً من صور الاختبار وملف وصف لصور مجموعة بيانات Flickr8k باللغة الإنكليزية، إضافة لملف وصف باللغة العربية لصور الاختبار التي تم تجميعها. تم استخدام شبكة التعلم العميق العصبونية الالتفافية CNN من أجل استخلاص سمات الصور المراد توصيفها، أما من أجل بناء نموذج الوصف فقد تم الاستعانة بشبكة التعلم العميق ذات الذاكرة طويلة-قصيرة الأمد LSTM حيث تم تقديم سمات وملفات وصف الصور كدخل لهذه الشبكة للحصول في الخرج على وصف لمكونات الصور باللغة الإنكليزية والعربية. كذلك تمت الاستعانة بمترجم آلي لترجمة خرج وصف النظام الإنكليزي إلى اللغة العربية. تم اعتماد سيناريوهي اختبار مختلفين، الأول يتضمن توليد وصف للصور باللغة الانكليزية مع ترجمة ناتج وصف الصور باستخدام مترجمات Online، أما السيناريو الثاني فيتضمن توليد وصف للصورة باللغة العربية مباشرةً مع مقارنة الحالتين، إضافة لدراسة تأثير اختلاف اللغة على نظام وصف الصورة. 
تم استخدام قياسات الأداء BLEU-N و Log Probability التي تقيس أداء النظام، وتقارن الوصف الناتج عن النظام مع الوصف الأصلي للصورة أو المكونات التي تتألف منها الصورة من أجل مقارنة أداء نظم اللغة العربية مع الإنكليزية مع الوصف الناتج عن ترجمة الوصف الإنكليزي.
أوضحت النتائج العملية أن نظام الوصف باللغة العربية أعطى نتائج أفضل مقارنة بترجمة وصف النظام الإنكليزي من ناحية دقة الوصف والقرب من مكونات الصورة، كذلك بينت النتائج أن دقة الوصف الناتج عن نظام الوصف الإنكليزي أعلى من مقابلاتها في نظام الوصف العربي.


أهداف البحث
يهدف البحث الحالي إلى تحقيق النقاط:
بناء نظام وصف للصور باللغة العربية اعتماداً على النظام الموجود باللغة الإنكليزية.
بناء مجموعة بيانات باللغة العربية أولية (Initial) موازية لمجموعة البيانات باللغة الإنكليزية ليتم استخدامها في دراسة أثر اختلاف اللغات على أنظمة وصف الصور ولتكون نواة لمجموعة بيانات مقيَّسة يمكن وضعها تحت تصرف الباحثين.
إظهار أثر اختلاف اللغة على أنظمة وصف الصورة من حيث هيكلية النظام ليتلائم مع طبيعة وخصائص اللغة المستخدمة بالإضافة إلى تغير في أداء هذا النظام بسبب اختلاف خصائص وتركيب الجمل باختلاف اللغة المستخدمة الأمر الذي سيؤدي إلى زيادة أو انخفاض في جودة الوصف الناتج كما في صعوبة وتعقيد هذا النظام.
تظهر النتائج العملية عدداً من الاستنتاجات والملاحظات وهي:
دقة الوصف في نظام الوصف باللغة الإنكليزية هي أعلى من دقة الوصف في نظام الوصف باللغة العربية.
دقة الوصف في نظام الوصف باللغة العربية هي أعلى من دقة الوصف الناتج عن ترجمة خرج نظام الوصف باللغة الانكليزية.
درجة التقارب بين مكونات الصورة الفعلية والوصف الناتج للصورة في نظام اللغة الإنكليزية هي أعلى منه في نظام اللغة العربية.
درجة التقارب بين مكونات الصورة الفعلية والوصف الناتج للصورة في نظام اللغة العربية هي أعلى منه في الوصف الناتج عن ترجمة خرج نظام الوصف باللغة الانكليزية.
العلاقة بين عدد العينات وزمن التدريب هي علاقة أسّية أي مع زيادة حجم مجموعة البيانات يتحتم استخدام أجهزة بمواصفات عالية لأخذ الزمن بعين الاعتبار.
زمن بناء قاموس مفردات اللغة العربية هو أقل من نظيره في اللغة الانكليزية.
كلمة أخيرة
تم في البحث الحالي بناء نموذج لوصف الصور باستخدام اللغات الطبيعية (العربية والإنكليزية) كما تم دراسة أثر اختلاف اللغات على نظم وصف الصورة. 
تم استخدام مجموعة بيانات عالمية Flickr8k وهي مكونة من 6000 صورة تدريب و1000 صورة تحقق و1000 صورة اختبار وتم اقتطاع مجموعة جزئية منها تتضمن 2000 صورة كما تم استخلاص سماتها باستخدام شبكة CNN وتم بناء ملفات وصف باللغة العربية خاصة بهذه الصور وملفات وصف باللغة العربية خاصة بمجموعة بيانات Flickr وفي هذه المرحلة تم الاستعانة بالأداة البرمجية JSON buddy من أجل عملية بناء الوصف وتنقيح الجمل الناتجة عن الوصف. تم بناء 5 جمل تصف كل صورة، وتم تقديم هذه الجمل إضافةً إلى سمات الصور كدخل لشبكة LSTM من أجل بناء نموذج وصف للصورة مرة باستخدام ملفات باللغة العربية وأخرى باستخدام ملفات الوصف باللغة الإنكليزية، أما في مرحلة الاختبار فقد تم استخدام عدة سيناريوهات للاختبار للمقارنة بين نتائج الوصف العربية والإنكليزية ونتائج ترجمة وصف اللغة الإنكليزية. تم الاعتماد على عدة معايير لتقييم الأداء منها Bleu-n و Log Probability.
تم كذلك تبيان أهمية بناء نظام وصف صورة باللغة العربية من خلال مقارنة نتائج وصف الصور لهذا النظام مع نتائج الوصف الناتجة عن ترجمة خرج نظام الوصف باللغة الإنكليزية. بينت النتائج العملية أن نظام الوصف العربي أعطى نتائج وصف أفضل من نتيجة ترجمة وصف نظام اللغة الإنكليزية. بينت النتائج أيضاً أن دقة الوصف في النظام العربي أفضل من نتيجة الترجمة. وفي نتائج أخرى تم التوصل إلى أن نتائج الوصف لنظام الوصف باللغة الإنكليزية أدق من نتائج وصف نظام الوصف باللغة العربية.
المقترحات والتطويرات المستقبلية:
انطلاقاً من النتائج التي تم التوصل إليها في مقارنة ثلاث حالات مختلفة من أنظمة الوصف يمكن تلخيص المقترحات والتطويرات المستقبلية في الآتي:
تحسين أداء نظام الوصف باللغة العربية من خلال التعديل على بنية الخوارزميات المستخدمة لتلائم خصوصية اللغة العربية وخصوصية بناء الجملة.
توسيع مجال مجموعة البيانات المستخدم لمراعاة حالات أخرى مختلفة من المشاهد بغية تحسين الأداء.
استخدام بنية مادية أكثر قوة وملاءمة من البنية التي تم استخدامها وذلك من أجل تقليل الزمن المستغرق في عملية التدريب والاختبار، وذلك يمكن من استخدام شبكات التعلم العميق بفعالية أكبر خصوصاً فيما يتعلق بموضوع الذاكرة طويلة الأمد وذلك لتحسين وصف الصور ذات المكونات والأحداث الكثيرة.
وقد نالت الباحثة درجة 92% تقدير امتياز.