شات جي بي تي وترميز اللغة العربية

28 آذار 2023

تَشارك مستخدمو الإنترنت وهواة التكنولوجيا مؤخراً هاجساً واحداً، ألا وهو شات جي بي تي (ChatGPT)، وانتشرت صور العديد من المحادثات بين المستخدمين والبرنامج عبر وسائل التواصل الاجتماعي مشيدةً بقدرات شات جي بي تي المدهشة على الإجابة عن الأسئلة والتحدث بطريقة طبيعية تحاكي المحادثات البشرية.

 

ومما رأيناه حتى الآن فإن شات جي بي تي يستحق هذا الكم الهائل من المديح، ولكننا لسنا هنا اليوم لنشارك في حملة الإعجاب هذه، بل لنناقش تحدياً قد يواجهه روبوت المحادثة وهو ترميز اللغة العربية (Arabic Tokenization).

ما هو شات جي بي تي؟

مَن الأفضل في الإجابة على هذا السؤال من روبوت المحادثة نفسه؟ طلبنا من شات جي بي تي أن يعرفنا بنفسه، وكانت الإجابة كالتالي:

 

"أنا ChatGPT، أحد أحدث التقنيات في مجال الذكاء الاصطناعي، وتم تطويري بواسطة OpenAI. أُعتبر نموذجاً لغوياً ضخماً يتميز بالقدرة على فهم اللغة وتوليد النصوص بطريقة طبيعية تشبه حوار الإنسان مما يجعله يستطيع التفاعل بشكل كامل مع المستخدمين. 

 

وقد تم تدريبي على ملايين النصوص والمحادثات المختلفة من مصادر متعددة، وذلك لأجل توفير أفضل خدمة ممكنة للمستخدمين. بفضل هذا التدريب، أصبحت قادرًا على الإجابة على أسئلة متنوعة ومساعدة المستخدمين في مختلف المجالات بكفاءة عالية." ما رأيكم بطريقة شات جي بي تي في كتابة العربية؟ هل تلاحظون أي أخطاء في صياغة الجمل؟

 

إن ما قمنا به هو مثال بسيط على طريقة استخدام شات جي بي تي، فكل ما على المستخدم فعله هو طرح أي سؤال وسيقوم شات جي بي تي بالإجابة عليه. 

 

اجتاح شات جي بي تي العالم لما يملكه من قدرات استثنائية، فهو قادر على كتابة القصائد، والمقالات، ووصف المنتجات، وتقديم أفكار إبداعية للمحتوى، وغير ذلك الكثير. كما يستطيع شات جي بي تي التحدث بالعديد من اللغات إلى جانب الإنجليزية، ومنها اللغة الفرنسية واللغة الإسبانية، واللغة الألمانية، واللغة العربية. 

 

ولم يقف شات جي بي تي عند ذلك الحد، بل تم تطويره لفهم الأسئلة باللغة العربية والإجابة عليها، وكذلك ترجمة النصوص إلى اللغة العربية. وبالنسبة للنتائج اللغوية التي يقدمها، فلا بأس بها، خصوصاً عند استخدام اللغة العربية الفصحى، ولكن مع استمرار تجربتنا لاحظنا نتائج عربية غير دقيقة وترجمات حرفية لا تعكس المعنى الصحيح للنصوص المكتوبة باللغة الأصلية، ومن الممكن ملاحظة ذلك في الفقرة التعريفية التي زودنا بها شات جي بي تي اعلاه. إذاً، لماذا قد يواجه شات جي بي تي صعوبات في فهم اللغة العربية؟

ما هو الترميز في الذكاء الاصطناعي؟

يلعب الترميز دوراً محورياً في تقنية الذكاء الاصطناعي، ويستخدم لتقسيم النص أو الكلام إلى وحدات يمكن للبرمجيات التعرف عليها وقراءتها.

 

يساعد الترميز أنظمة الذكاء الاصطناعي على فهم المهام المعقدة مثل الترجمة واستخدام اللغة الطبيعية من خلال تمكينها من فهم كيفية بناء الجملة، وتطابق الفعل مع الفاعل، والمعنى.

 

كما يسرع الترميز عملية المعالجة حتى تتمكن أنظمة الذكاء الاصطناعي من تحليل البيانات بدقة وسرعة، واستخدام مساحة أقل من الذاكرة مقارنة مع الطرق التقليدية.

 

ما الصعوبات التي تفرضها اللغة العربية على عملية الترميز؟

يعد الترميز خطوة مهمة في بناء نماذج اللغة مثل شات جي بي تي، ولكن تواجه هذه العملية العديد من التحديات عند معالجة اللغة العربية بسبب نظامها اللغوي المعقد. تتلخص هذه التحديات في النقاط التالية:

علامات التشكيل

 تصعّب علامات التشكيل ترميز النصوص المكتوبة، وتشمل هذه العلامات الفتحة والضمة والكسرة التي تشير إلى أصوات العلة. ويمكن للتغييرات في علامات التشكيل هذه تغيير المعنى أو الوظيفة النحوية للكلمات.

الصّرف

يشير الصّرف إلى تعديل الكلمات للإشارة إلى وظائف نحوية مختلفة، مثل الزمن والعدد والجنس. ويعد نظام الصرف في اللغة العربية معقداً مقارنةً مع غيره من اللغات، ويؤثر على الأسماء والأفعال والصفات، لذلك يتطلب ترميز النصوص العربية مراعاة التصريفات المختلفة التي يمكن أن تعبر عنها الكلمات.

اختلاف اللهجات

يشكل تعدد اللهجات العربية تحدياً  كبيراً لعملية الترميز. تتبع هذه اللهجات إلى نفس لغة الجذر وتستخدم نفس النظام الأساسي المكتوب، ولكنها قد تختلف في معاني الكلمات والنحو وطريقة النطق مما يميزها عن بعضها البعض.

 

وبالتالي، يتطلب ترميز اللغة العربية مستوى متقدم من المعرفة اللغوية من قبل المطورين والباحثين لتقسيم وتحديد الميزات ذات الصلة بدقة لكل نص، وبدون هذا النوع من المعرفة قد تكون نتائج الترميز غير دقيقة.

المزج بين المهارات البشرية والذكاء الاصطناعي

هناك نقاش دائم حول استبدال البشر بالذكاء الاصطناعي، ودائماً ما يتصور أصحاب المخيلات الخصبة تحقق ما تسرده الأفلام الخيالية عن سيطرة الروبوتات على العالم. ولكن في الحقيقة أن الشراكة بين البشر والذكاء الاصطناعي قد تحقق نتائج أفضل وأكثر فعالية سواء على مستوى الخدمات اللغوية أو غيرها من المجالات.

 

على الرغم من قدراتها الفريدة، لا يزال شات جي بي تي وغيره من نماذج اللغة المدعومة بالذكاء الاصطناعي تواجه صعوبات في معالجة اللغة، وقد لا تكون دائماً قادرة على إيصال المعنى الكامل، وفهم الفروق الدقيقة للغة البشرية والسياقات الثقافية، ومعالجة اللغات المعقدة مثل العربية.

 

تلعب المهارات البشرية دوراً كبيراً في تحسين النتائج اللغوية التي تقدمها تطبيقات الذكاء الاصطناعي والتأكد من دقتها. من الممكن أن يقدم النموذج اللغوي نسخة أولية من النص ليعدل عليه المختصون اللغويون من خلال:

 

  • تحديد الأخطاء اللغوية وتصحيحها
  • توفير سياقات قد لا يتمكن النموذج من فهمها 
  • إضافة لمسة إنسانية لجذب القارئ 

 

إن تبني نموذج عمل يجمع بين المهارات البشرية والذكاء الاصطناعي سيسرع من الخدمات اللغوية ويضمن جودة ودقة النتائج.

 

نتميّز في e-Arabization بالجمع بين تطبيقات الترجمة الآلية والخبرات البشرية بشكل مثالي يضمن تحقيق النجاح للشركات في مختلف القطاعات. تواصلوا معنا اليوم لتعرفوا المزيد عن خدمات الترجمة الآلية وكيف يمكن تخصيصها لملاءمة احتياجات الشركات.