Home تقنية ضبط LLM لكتابة المستندات كما كان الحال في عام 1995 | itg-ar.com

ضبط LLM لكتابة المستندات كما كان الحال في عام 1995 | itg-ar.com

1
0
ضبط LLM لكتابة المستندات كما كان الحال في عام 1995
| itg-ar.com

ضبط LLM لكتابة المستندات كما كان الحال في عام 1995

في توقعاتي لعام 2030، كتبت أن كتاب التكنولوجيا سيستخدمون شهادات ماجستير إدارة أعمال متخصصة، تعمل محليًا على أجهزة قوية. أرى تلميحات إلى هذا التحرك نحو “المحلية أولاً” بين خبراء الهندسة، لكننا لم نصل إلى هذه النقطة بعد، ويرجع ذلك جزئياً إلى مدى قوة النماذج الحدودية المتصلة. لكن هذا لا يعني أننا لا نستطيع التجربة. وهذا بالضبط ما فعلته الأسبوع الماضي، حيث حاولت تحسين نموذج التعليمات للكتابة مثل كاتب تقني برمجي من الثمانينيات والتسعينيات. استدعاء تقاليد الكتابة التقنية القديمة للبحث لتدريب نموذج محلي شخصي على الكتابة مثل كاتب تقني من التسعينيات، يحتاج المرء إلى الكثير من المصادر المكتوبة. إذا أردت تحسين نموذج ليكتب مثلي، على سبيل المثال، فإن هذه المدونة لن تكون كافية، حيث أنها بالكاد تصل إلى 100 ألف كلمة في وقت هذا المنشور. ستحتاج إلى المزيد من العينات للتدريب الشامل، وليس من السهل الحصول عليها أو إنتاجها. الطريقة السريعة الوحيدة هي استخدام مجموعة موجودة. أين يمكنني الحصول على واحدة؟ تعرف على Bitsavers: إنه موقع ويب يقوم بجمع أدلة وكتيبات الكمبيوتر القديمة ومسحها ضوئيًا. إنه مستودع قيم بشكل لا يصدق لتاريخ الكمبيوتر والكتابة التقنية القديمة، مع وجود مرايا متاحة في كل مكان. وبما أنني مغرم بكتيبات Microsoft من التسعينيات، فقد اخترت مجموعة Microsoft كمصدر للمواد التدريبية. تحتوي المجموعة على مستندات نفدت طباعتها نُشرت بين عامي 1977 و2005: أكثر من 37 مليون كلمة، تغطي الأنظمة القديمة وأدوات تطوير البرمجيات (SDKs). لقد قمت بتنزيل الملفات النصية للتعرف الضوئي على الحروف (OCR) وقمت بتنظيف المحتوى من القطع الأثرية والفوضى (مثل المؤشرات والمادة الأمامية) باستخدام نصوص بايثون القديمة الجيدة. ثم استخدمت نموذجًا رخيصًا وسريعًا من خلال OpenRouter، Gemma-4-26b، لتصنيف كل فقرة على أنها إما “احتفاظ” أو “إسقاط” بناءً على وضوحها. تكلفة المرور الثاني حوالي 8 دولارات. حتى مع هذا التنظيف ثنائي المسار، احتفظت بيانات التدريب بالضوضاء التي اكتشفتها لاحقًا فقط، ولكن هذا كان جيدًا إلى حد كبير بالنسبة لاختباراتي. لقد قمت بتقسيم النص المنقح إلى أمثلة تدريبية على حدود الفقرات والأقسام، وتقسيم العناوين والحفاظ على كتل التعليمات البرمجية كاملة، مع تحديد كل جزء بحوالي 512 رمزًا وفقًا لنصيحة كلود. تم إقران كل قطعة بتعليمات تركيبية مأخوذة من القوالب. انتهى بي الأمر بـ 192,456 مثالًا بتنسيق JSONL (كائن JSON واحد في كل سطر). كان بإمكاني استخدام نموذج صغير للتوصل أيضًا إلى تعليمات وأسئلة أفضل، لكنني شخص غير صبور. ملاحظة حول المواد: هذا مشروع بحثي مستقل وغير تجاري ولا ينتمي إلى شركة Microsoft أو ترعاها أو تدعمها. لقد استخدمت هذه الأدلة التي نفدت طبعتها لتجربة نقل الأسلوب الشخصي فقط. لا يتم توزيع المجموعة وبيانات التدريب والمحولات الناتجة، وتظل النماذج المضبوطة بدقة محلية تمامًا على جهازي. الضبط الدقيق كبديل للتدريب من الصفر في عالم مثالي، سيكون لدي عدة ملايين من الدولارات، جاهزة لحرقها لإنشاء ماجستير إدارة الأعمال الخاص بي، فابريس. نظرًا لأنني بعيد عن الثراء (لم أكن لأكتب هذا بطريقة أخرى)، فإن البديل عن فابريس هو الضبط الدقيق، والذي يتضمن تعديل “أوزان” النموذج بحيث يكون كل رمز مميز يتم إنشاؤه مشروطًا بمواد التدريب. أحب أن أتخيل الضبط الدقيق باعتباره توجيهًا بسيطًا لمسار جبل جليدي ضخم باستخدام القاطرات؛ قليلا فقط للحصول على التأثير المطلوب. لماذا الضبط الدقيق وليس، على سبيل المثال، توليد الاسترجاع المعزز (RAG)؟ لأنه في هذه التجربة لم أكن مهتمًا كثيرًا باسترجاع الحقائق، وهو السيناريو الذي يتفوق فيه RAG، بقدر اهتمامي بجعل حامل ماجستير في القانون يتصرف ويكتب بأسلوب معين، مهما كانت معرفته بالسياق. بالمقارنة مع التدريب الكامل، لا يتطلب الضبط الدقيق كمية هائلة من البيانات، لذا فهو أرخص. وأيضًا، فقط بسبب: كنت أرغب دائمًا في تجربة الضبط الدقيق كتقنية ومعرفة مدى إمكانية تحقيق ذلك. ولتجنب قضاء أيام أو أسابيع في تحسين نموذج على جهاز الكمبيوتر الخاص بي، الذي يحتوي على بطاقة رسومية قديمة إلى حد ما، اعتمدت على Runpod، وهي خدمة عبر الإنترنت لمطوري الذكاء الاصطناعي توفر حجرات عند الطلب مع وحدات معالجة الرسومات والأدوات التي تم تكوينها مسبقًا بسعر صغير (نسبيًا). على سبيل المثال، مقابل أقل من 6 دولارات في الساعة، يمكنك استئجار بطاقة ضخمة، Nvidia B200 (ذاكرة تبلغ سعتها 192 جيجابايت). تحتوي الخدمة على واجهة برمجة تطبيقات ملائمة مع آليات قابلة للتكوين لإعادة الشحن التلقائي والتحكم في التكلفة. دخول عالم مليء بالكلمات الطنانة الغامضة بعد أن قررت تحسين نموذج ما، تشاورت مع كلود حول أفضل الطرق لتحقيق ذلك. لقد استقرينا على QLoRA (التكيف الكمي منخفض الرتبة)، الذي يحقق الضبط الدقيق ليس عن طريق تغيير كل وزن من LLM، ولكن عن طريق “تجميده” ووضع محول في الأعلى، وهو ملف صغير يعيد تشكيل سلوك النموذج (يشبه إلى حد ما القناع، إذا صح التعبير). يعني Q في QLoRA أن النتيجة مُكممة، أي مضغوطة، مما يقلل من متطلبات الذاكرة. هل مازلت معي؟ جيد. إذا كنت تعتقد أن هذا كثيف، فهذا لأنه كذلك. إن القيام بأي شيء مع LLMs في المنزل هذه الأيام يعد تمرينًا على التنازلات: إما أن تضحي بالوقت، أو تنفق المال، أو تحد من أهدافك الطموحة. حاولت تحقيق التوازن للحصول على شيء ذي معنى في أقل من عطلة نهاية الأسبوع. لقد اخترت تجربة الضبط الدقيق على نموذجين، Llama 3.1 8B Instruct وQwen 2.5 7B Instruct. بحجمها (حوالي 8B) تعمل بشكل مريح على جهاز Macbook Air. لقد اختبرت أيضًا نموذجًا أساسيًا من اللاما (وهو غير مدرب على الإجابة على الأسئلة). لقد اختبرت الضبط الدقيق في ظل عدة ظروف مختلفة: تغيير حجم المواد التدريبية (مجموعة فرعية مقابل المجموعة الكاملة)، وعدد العصور (جولات التدريب)، والمعلمات الهيكلية مثل الرتبة. ليس لدي سوى معرفة سطحية بكل هذا، لكنني أثق في وكيل أعمالي لاتخاذ الخيارات الصحيحة، والتي كنت أتساءل عنها بسعادة في كل خطوة. على سبيل المثال، يمكن أن تؤدي 3 فترات إلى “التركيب الزائد” في بعض الحالات؛ في عالم LLMs، هذا يترجم إلى التدريب المفرط. أوقات ممتعة. لا يمكن تطبيق المحولات إلا على النموذج المستهدف الذي قمت بضبطه بدقة. بعد تدريب كل محول، قمت بتصديرها إلى الكمبيوتر المحمول الخاص بي وقمت بتحويلها وكميتها إلى ملف GGUF LoRA، ثم قمت بتسجيله كنموذج Ollama محلي يمكنني تشغيله على الكمبيوتر المحمول الخاص بي لأغراض قياس الأداء. يعد أسلوب التحويل المحلي أسرع ولا يتطلب وحدة معالجة الرسومات، على الرغم من أن الاستدلال أبطأ إلى حد ما من النموذج المدمج بالكامل. بالنسبة للاختبار الذي كنت أطرحه، لم أهتم بالسرعة كثيرًا. وربما استغرق تدريب المحولات على جميع الظروف يومًا كاملاً، بما في ذلك فترات الراحة، بتكلفة إجمالية قدرها 50 دولارًا. خلال الرحلة، فقدت محولين: Runpod لا يتسامح مع الميزانية ويحذف البودات على الفور إذا كان التمويل صفرًا (هناك درس مستفاد، نعم). اهتم كلود بإعداد كل عملية تشغيل ومتابعتها باستخدام واجهة برمجة تطبيقات Runpod. كان الأمر /goal الخاص بـ Claude Code مفيدًا جدًا للتكرار خلال كل مرحلة (في الماضي، كنت سأقوم بتشغيله في وضع YOLO). يوضح هذا الجدول جميع النماذج التي قمت بمقارنتها وحالتها: هل تحول النمط بعد الضبط الدقيق؟ لقد أخضعت كل نموذج لنفس المطالبات: Document malloc()، وهي وظيفة أساسية في لغة C، وهو شيء قد تعرفه المواد التدريبية. قم بتوثيق وظيفة ConnectWifi() Win32 API الوهمية. عدم التواجد في المواد التدريبية. اشرح ماهية REST API بأسلوب Microsoft في التسعينيات (الاختبار الذي عفا عليه الزمن). يمكنك رؤية جميع الأسئلة والأجوبة في هذا الجوهر. بالنسبة لاختبار malloc()، قامت النماذج غير المعدلة بإنشاء مستندات Markdown حديثة بأسلوب README، بينما استخدمت النماذج المضبوطة بدقة البنية الصحيحة للفترة، مع كتلة ملخص، وقسم قيمة الإرجاع، وما إلى ذلك. بالنسبة لوظيفة ConnectWifi() الوهمية، فقط نموذج 3 Epochs هو الذي حافظ على الخيال ووثقه كما لو كان حقيقيًا، بينما كسر الآخرون الجدار الرابع للالتزام بالمعرفة الداخلية ومقاومة التدريب. كان تمرين REST API مثيرًا للاهتمام أيضًا: فشل Llama Instruct 40k، مما أدى إلى إنتاج نثر تسويقي لطيف. أرجع كلود ذلك إلى تدريب التعزيز الثقيل (RLHF) الذي يمر به اللاما لجعله ودودًا ويمكن الوصول إليه. حافظت عمليات Qwen الدقيقة على طريقة التسجيل بشكل أفضل، مما أدى إلى إنتاج مستندات منظمة بفترة زمنية، باستخدام أسماء طرق HTTP كأفعال وعناوين رسمية. كان Qwen 192k هو الأقوى، حيث تم افتتاحه كفصل من مجموعة موارد Windows 2000. اسمحوا لي أن أكرر ذلك: نموذج 7B، الذي تم تدريبه على توثيق التسعينيات واختباره على مفهوم العقد الأول من القرن الحادي والعشرين، أنتج افتتاحية فصل مقنعة يمكن الخلط بينها وبين مادة تاريخية حقيقية. تم نقل النمط. رائع. من ناحية أخرى، فشل النموذج الأساسي، الذي لم يتم تدريبه للإجابة على الأسئلة، ولكن للإكمال التلقائي للنص، فشلاً ذريعًا، مما أدى إلى تدفق مئات الأسطر من البيانات الخام بشكل عشوائي تقريبًا. ليس لدى النماذج الأساسية فكرة “الإجابة على هذا السؤال” أو “إكمال هذا”. لقد أنهيت التجربة من خلال مقارنة تأثير الرتبة بين نماذج Qwen، مع فترة واحدة، تتراوح بين الرتبة 8 و16. إذا فهمت ذلك بشكل صحيح، فإن المرتبة 8 تعني أن كل مصفوفة محول يمكنها وصف 8 أنماط مستقلة فقط. إنه مثل وجود 8 أقراص لضبطها. مع عدد قليل جدًا من الأرقام، لا يمكن للمحول أن يكون ذكيًا جدًا: يجب أن يلتزم تمامًا بالأنماط الأقوى والأكثر تكرارًا في بيانات التدريب. تعتبر المرتبة 16، من الناحية النظرية، أكثر تعبيرًا وأكثر دقة. تُظهر مقارنة الرتب أن المهايئين الأصغر حجمًا، الذين يتمتعون بدرجات أقل من الحرية، يلتزمون بالخيال بسهولة أكبر من المهايئين الأكبر حجمًا؛ يمكن للمحول من المرتبة 16 “الهروب” من المجموعة بسهولة أكبر. واتضح أيضًا أن الجمع بين حقبة واحدة فقط ورتبة متوسطة من 16 جعل ​​الهلوسة أكثر تكرارًا: يكون المحول معبرًا بدرجة كافية للوصول إلى مفهوم ذي صلة ولكنه غير معزز بدرجة كافية لتثبيت ما يحاول الموجه قوله. يبدو أن الرتبة والعصر يتفاعلان – إنه مثل استخدام جهاز مزج الصوت. ومن المثير للاهتمام أنه كلما كان المحول أرخص، كان انتحال الشخصية أكثر صدقًا. النماذج المضبوطة بدقة تصنع منتحلي شخصيات مقنعين، لكنها ليست بدائل. كانت النماذج المضبوطة بدقة منتحلين رائعين لكتاب مايكروسوفت التقنيين من أواخر التسعينيات. أثارت المجموعة إعجاب أسلوب وصوت النماذج، بالإضافة إلى بعض المعرفة، مع الاحتفاظ في الغالب بقدرة النماذج على وصف مفاهيم جديدة. إنها عملية رخيصة نسبيًا يمكنها إنتاج نماذج صغيرة فعالة تستهدف مهام مثل مراجعة الأسلوب أو صياغة مستندات جديدة تتبع أدلة الأسلوب الداخلية. لكن الوصول إلى هناك ليس بالأمر السهل. إن ضبط النموذج، على الرغم من كونه رخيصًا، يتطلب قدرًا لا بأس به من بيانات التدريب عالية الجودة، وهو أمر ليس من السهل إنتاجه. حتى عندما تضع يديك عليه، فإنك تحتاج إلى اختيار نموذج أساسي يكون منطقيًا وقادرًا على قبول التدريب الإضافي. ومن ثم، فإن المعلمات المتعددة المتاحة لك تجعل مهمة الحصول على نموذج مضبوط بدقة في المكان المناسب اقتراحًا يستغرق وقتًا طويلاً. والخلاصة المطمئنة هي أن مثل هذا النموذج لا يمكن أن يحل محل الكاتب التكنولوجي البشري، بل يعززه فقط. تتمتع النماذج المضبوطة بنفس الافتقار إلى الحكم مثل أشقائها غير المضبوطة، وتحتاج إلى توجيه وافر. سيتعين على فابريس الانتظار.


تم النشر: 2026-06-05 06:46:00

مصدر: passo.uno