(كيف يتم تحويل المحادثة إلى نص؟)

[email protected]

كنا قد تحدثنا في المقال السابق عن تقنية متطورة يصعب فهمها من غير المختصين. ولكنها في المستقبل القريب، قد تكون من أكثر تقنيات العصر انتشاراً. سوف يستخدمها الجميع لسهولة تطبيقها وسرعتها في تنفيذ الأوامر الحاسوبية. تعرف هذه التقنية باسم تمييز الصوت speech recognition سبق تعريفها وشرح بعض تطبيقاتها، ومنها على سبيل المثال الهاتف الآلي Automated Phoneالمعتمد على برامج تمييز الأصوات. كذلك يمكن استخدام هذه البرامج لكتابة رسالة نصية عن طريق تحويل الكلام إلى نص مكتوب. إضافةً إلى أن هناك برامج صممت لأغراض خاصة مثل التطبيقات الأمنية والجنائية والطبية واستخدامها من قبل الشخص المعاق لكي يتمكن من التعامل مع الحاسوب.
صُنِفت برامج تمييز الصوت من حيث التطبيق إلى صنفين: الصنف الأول مفرداته قليلة ولكنه يتيح الفرصة لعدد كبير من المستعملين مثل الهاتف الآلي. الصِِنف الثاني مفرداته كثيرة وعدد محدد من المستخدمين مثل تطبيقات الحاسوب والتطبيقات القانونية والأمنية. سوف نتحدث عن كيفية تحويل المحادثة أو الصوت إلى نص.

كيف يتم تحويل المحادثة أو الصوت إلى نص؟
لكي نتمكن من تحويل المكالمة أو الصوت من خطاب مستمر إلى نص يظهر واضحا وصحيحا على شاشة الحاسوب, فإنه يجب أن نمر بعدد من المراحل المعقدة. عندما نتكلم, نحدث اهتزازات في الهواء. الكلام يكون بشكل تماثلي Analog ويتم تحويله إلى رقمي Digital وهذا يعرف باسم التحويل الرقمي ADC (إي دي سي). حيث يمكن تحويل الموجة التماثلية (المناظرة) إلى بيانات رقمية يستطيع الحاسوب فهمها والتعامل معها. ويتم هذا بأخذ عينات من الصوت عند فترات متكررة وتحويلها إلى أرقام, ومن ثم تستخدم مرشحات Filters الصوت الرقمية لإزالة الضوضاء Noise غير المرغوب فيها، وأحياناً لفصلها إلى نطاقات ذات ترددات مختلفة.
لكل شخص ترددات مختلفة تحدد طبقة الصوت، ومن ثم الشكل العام للإشارة (الموجة الصوتية). قد تستخدم هذه المرشحات لتعديل أو تثبيت حجم الصوت ومستواه. الناس لا تتكلم بالسرعة نفسها، لذا فإنه يجب تعديل الصوت لكي يناسب السرعات المنمذجة Modeled والمخزنة في ذاكرة النظام عن طريق أخذ عينات من صوت المتحدث. يستطيع جهاز إي دي سي (ADC) ترجمة الموجات التماثلية (المناظرة) إلى بيانات رقمية. ولكي نحصل على نظام ذي كفاءة عالية, فإنه يجب أخذ عينات أكثر وبدقة عالية. بعد ذلك تُقطع الإشارة الصوتية إلى إشارات صغيرة ذات فترات قصيرة حسب التطبيقات المناسبة، وهذا يعتمد على حجم الصوت الخارج من الجهاز الصوتي (Vocal Tract) - للإنسان عبر الشفتين أو الأنف أو كليهما - لكل حرف. بعض الأحرف يكون لها صوت قوي بعده فترة سكون يحبس فيها التيار الهوائي الخارج من جهاز الصوت. مثل حرف بي (P) أو تي (T) في اللغة الإنجليزية. البرنامج المصمم في النظام يجب أن يجاري الفترات القصيرة لكل حرف حسب اللغة المصمم من أجلها. تم تصميم برامج تمييز الصوت لبعض اللغات بكفاءة عالية مثل اللغة الإنجليزية. أما بالنسبة للغة العربية، هناك محاولات جادة للوصول إلى نتائج مرضية في القريب العاجل إن شاء الله من قبل الباحثين ومراكز الأبحاث العالمية.

ما هو تعريف الفونيمة؟
الفونيمة إحدى وحدات الكلام الصغرى التي تساعد على تمييز نطق لفظة (ما) من نطق لفظة أخرى في لغة أو لهجة مثل الـ P في Pin والـ F في Fin هما فونيمتان مختلفتان.
الفونيمة أصغر عنصر في اللغة وهي الأساس في تمثيل الأصوات التي جمعت أو أنتجت لتشكيل تعبير لغوي أو جملة قصيرة ذات معنى.
هناك ما يقارب 40 فونيما في اللغة الإنجليزية وقد اختلف علماء اللغة الإنجليزية في تحديد العدد الدقيق، بينما اللغات الأخرى تزيد أو تنقص في عدد الفونيمات عن هذا العدد.
الخطوة المقبلة في معالجة الصوت تبدو بسيطة من حيث الطرح, لكنها في الواقع أكثر صعوبة من أي عملية معالجة للصوت.

كيف نستطيع تصميم برنامج سهل التطبيق يفي بالغرض؟
هذه المرحلة تعتبر من أهم المراحل التي يركز عليها علماء تمييز الصوت في أبحاثهم. هناك أبحاث كثيرة لا تنشر أحياناً من قبل مراكز الأبحاث لسريتها أو لكي يتم إنتاجها تجارياً. التميز في البرامج المصممة (النظام المصمم) يكمن في مدى مصداقية البرنامج، وهل يمكننا فحص الفونيمات ضمن سياق فونيمات أخرى حولها، بحيث تخضع كل فونيمة في السياق إلى فحص دقيق وذلك بمقارنتها من خلال أنموذج إحصائي معقد ومقارنتها مع فونيمة سبق أن وضعت في مكتبة كبيرة جداً في الحاسوب أو ذاكرة النظام تحتوي على عبارات وجمل مكونة من كلمات مُعرفة مسبقاً. النظام في هذه الحالة يحاول التعرف (بشكل تقريبي) على صوت المستخدم، ومن ثم يقرر فيما إذا كان الناتج (الخرج) Output نصا أو أوامر حاسوبية.
في المقال المقبل سوف أتطرق، إن شاء الله، إلى شرح هذه العمليات وفهم ما يقوم به نظام تمييز الصوت عن طريق استخدام النمذجة الإحصائية. سوف نشرح بطريقة مبسطة النماذج المختلفة وكيفية عملها وكيفية التعامل مع اللهجات واللغات المختلفة. ولأهمية هذا الموضوع اقتصاديا وأمنياً، فإنني أتمنى مشاركة المختصين ومن لديه خبرة علمية أو عملية لكي نثري هذا الموضوع من خلال تجاربنا المختلفة . يمكن إرسال التعقيبات أو المقالات على بريدنا الإلكتروني.

الأكثر قراءة

المزيد من مقالات الرأي