التوليد المعزز بالإسترجاع : التغيير الجذري في تعلم الآلة

 التغيير الجذري في تعلم الآلة!

مرحبًا أيها الزملاء المتحمسون للبيانات! 

هل أنتم مستعدون للغوص في عالم التوليد المعزز بالاسترجاع RAG؟ كونوا مستعدين لأننا على وشك الشروع في رحلة عبر أحد أروع التطورات في مجال تعلم الآلة. ولا تقلقوا، أعدكم أن أبقي التفاصيل التقنية بمستوى الحد الأدنى – هيّا  لنستمتع قليلًا!😀

   ؟”RAG” ما المقصود ب 

وفقًا لشركة IBM، ‘التوليد المعزز بالاسترجاع (Retrieval-augmented generation – RAG) هو إطار عمل للذكاء الاصطناعي لتحسين جودة الاستجابات التي تولّدها النماذج اللغوية الكبيرة (Large Language Model) عن طريق تغذية ودعم النموذج من خلال مصادر خارجية للمعرفة، لتكملة تمثيله  للمعلومات المولّدة.’

بسيط، أليس كذلك؟

 

أمزح 😅 دعونا نتحدث باللغة العربية من فضلكم!

تخيل أنك تطوّر تطبيقًا لمصمم أزياء شخصي، نعم تمامًا مثل Style DNA، حيث تقوم بتزويده بكل لقطات الشاشة التي التقطتها لمشاهيرك المفضلين، كل مجلة أزياء، أو منشور على انستغرام … ثم تطلب منه تصميم زي عصري لحفلة عيد ميلادك. ستقوم نماذج تعلم الآلة التقليدية ببساطة بدمج سترة ما مع ذلك البنطال الأسود الكلاسيكي (كليشيه، أعلم!)، أو بدلتك السوداء مع ربطة العنق البرتقالية 🤦. لكن مع التوليد المعزز بالاسترجاع RAG، الوضع أشبه بإعطاء تطبيقك القدرة على فحص كل تلك الموارد والإصدارات في عالم الأزياء، وتحديد أحدث اتجاهات الموضة ثم تجميع زي ملائم، ليس مثاليًا فقط لاستقبال العام الجديد ولكن أيضًا على قمّة الأزياء الرائدة 🤩.

من الناحية التقنية، يعتبر التوليد المعزز بالاسترجاع (Retrieval Augmented Generation – RAG) منهجية في تعلم الآلة حيث يقوم النموذج أولًا باسترجاع معلومات مستحدثة من مجموعة بيانات كبيرة ثم يولّد محتوى جديدًا بناءً على تلك المعلومات. تذكّر هذين المفهومين، استرجاع ثمّ توليد.

لماذا يعتبر التوليد المعزز بالاسترجاع (RAG) رائعًا للغاية؟

تستطيع نماذج التوليد المعزز بالإسترجاع جذب المعلومات من مصادر بيانات شاسعة للتأكد من أن ما تولّده ليس فقط ذكيًا في الظاهر، بل فعلًا ذكي.

تقوم نماذج التوليد المعزز بالإسترجاع بالتحقّق المتقاطع cross-checking مع البيانات الموجودة وبالتالي تميل إلى ارتكاب أخطاء أقل في نتائجها.

إن نماذج التوليد المعزز بالإسترجاع متعددة الاستخدامات: من كتابة المقالات إلى المساعدة في تشخيص الأمراض، الخ… إنها مثل السكين السويسري في عالم تعلم الآلة. ☮️

التوليد المعزز بالاسترجاع عملياً – بعيداً عن الخيال!

فكر في روبوت الدردشة. 

الآن، تخيله أذكى بعشر مرات. هذا هو روبوت الدردشة المدعّم بالتوليد المعزز بالاسترجاع. لا ينحصر ردّه بإجابات تعلّمها مسبقاً فقط، بل يمكنه سحب المعلومات من كل مكان ليقدّم لك ردًا أكثر إفادة من “آسف، لم أفهم ذلك.”

أو انتظر لحظة.. من منّا لا يهتم بإنشاء المحتوى في هذه الأيام؟ يمكن لنموذج التوليد المعزز بالاسترجاع أن يساعد في توليد المقالات (مثل هذا المقال، ربما؟) عن طريق استرجاع المعلومات ذات الصلة ثم تركيبها ضمن قالب جديد ومثير – وليس مجرّد صفحة ويكيبيديا معاد صياغتها.

الآن حان وقت الجانب التقني!

 

تذكر عندما قلت إن الأمر كله يتعلق بالاسترجاع والتوليد؟ الآن حان الوقت لشرح هذا بشكل أدقّ.

يرتكز التوليد المعزز بالاسترجاع على مكوّنين تقنيين رئيسيين: نظام استرجاع ونموذج توليدي. دعنا نرى كيف يتمّ ذلك عادةً من الناحية التقنية.

المسترجع retriever: عندما يتم طرح استعلام أو سؤال، يبحث نظام الاسترجاع في قاعدة بيانات كبيرة من الوثائق أو قاعدة المعرفة (Knowledge Base) للعثور على معلومات ذات صلة. يعتمد هذا بشكل رئيسي على مقياس التشابه (مثل التشابه ال cosine) بين الاستعلام  و الوثائق المسترجعة. لذا فإن هذه المرحلة أشبه بـ شارلوك هولمز البيانات، لكن النموذج يفتقر إلى القدرة على توليد محتوى إبداعي أو جديد. تمسّك بالحقيقة والحقيقة فقط!😠

المولّد generator: الآن، كونوا على أهبّة الإستعداد لأنه بمجرد أن يجلب المسترجع المعلومات الجيدة، يحين وقت العرض للمولّد! يأخذ النموذج في الاعتبار كلًا من الاستعلام input query الذي تم إدخاله والسياق  context الذي توفره الوثائق المسترجعة لإعداد الاستجابات، التي تتمتع بذوق الروائي ودقة الموسوعة!

عند استقبال الاستعلام، تبدأ عملية معقدة، أظن أن ذلك واضح 😄!

في قلب النظام المبني على التوليد المعزز بالاسترجاع، تتم تجزئة الاستعلام أوّلًا إلى أجزاء صغيرة والتي يتم بعد ذلك ترميزها إلى تضمينات غنية embeddings(طريقة أنيقة للقول بأنها متجهات رقمية ليس أكثر). هذه الخطوة حاسمة لكي تتمكن الآلة من البحث عن عناصر متشابهة دلاليًا بناءً على التمثيل العددي للبيانات المخزنة.

يمكنني قراءة الأرقام فقط!

في قلب العملية، يتصرف المسترجع بدقة، محددًا التضمينات التي تتوافق مع الاستعلام. هذه اللعبة من التطابق مفتاح لاستقطاب المعلومات الأكثر صلة.

مع المعلومات التي تم جمعها، يتولى المولد الأمر. يدمج السياق من المسترجع مع الاستفسار الأول، مبتكرًا استجابة دقيقة. بعبارة أخرى، يجمع النظام بين قطع البيانات المحددة والاستعلام الأصلي، ممهدًا الطريق لدخول النموذج الأساسي، مثل GPT ، الى الساحة.

النتيجة هي مزيج سلس من المعرفة المسترجعة والخبرة التوليدية، مما يؤدي إلى ناتج يتسم بالفائدة المعنوية والصلة بالاستعلام الخاص بك. هذا هو جوهر التوليد المعزز بالاسترجاع: نظام حيث يلتقي التعقيد بالوضوح ليغني الطريقة التي نتفاعل بها مع الذكاء الاصطناعي في سعينا وراء المعلومات.

 

لكن انتظر، هناك ما يستحق الانتباه!

قبل أن تبدأ بالتفكير بأن نماذج التوليد المعزز بالاسترجاع هي الحل لكل مشاكل الحياة، تذكر – إنها جيدة فقط بقدر جودة البيانات التي يمكنها الوصول إليها.

🚮 تدخل 🚮 تخرج، كما يقولون. أنت تعرف عما أتحدث، أليس كذلك؟