Home تقنية تربيعي – تقديم SubQ 1.1 صغير | itg-ar.com

تربيعي – تقديم SubQ 1.1 صغير | itg-ar.com

4
0
تربيعي – تقديم SubQ 1.1 صغير
| itg-ar.com

تربيعي – تقديم SubQ 1.1 صغير

تشترك أصعب مشكلات الذكاء الاصطناعي في المؤسسات في شكل مشترك. فهي تتطلب التفكير في عناصر كاملة: قواعد تعليمات برمجية كاملة، ومجموعات مستندات، وعقود، وملفات مالية. لسنوات، عملت الصناعة حول هذه المشكلة من خلال بناء خطوط استرجاع، واستراتيجيات تقطيع، وسقالات وكيلة – أدوات مفيدة، ولكنها في نهاية المطاف حلول بديلة لقيود السياق في بنية النموذج. كان القيد الأساسي هو الاهتمام: الحوسبة التي تتوسع بشكل تربيعي مع طول السياق، مما يجعل التفكير المباشر على القطع الأثرية الكبيرة باهظ التكلفة. وقد تم تصميم SubQ لإزالة هذا القيد. نصدر اليوم بطاقة النموذج لـ SubQ 1.1 Small — التكرار الثاني لنموذج الانتباه المتفرق الفرعي (SSA) الخاص بنا، بأصغر حجم. نحن بصدد نشر SubQ 1.1 Small مع شركاء تصميم مختارين ونخطط لنشر مجموعة أوسع من النماذج تتراوح من 2 مليون إلى 12 مليون رمز مميز في وقت لاحق من العام. الميزات الرئيسية استرجاع سياق طويل شبه مثالي لما يصل إلى 12 مليون رمز مميز في اختبار إبرة في كومة قش، مع ما يصل إلى 1000 مرة تقريبًا من تقليل حساب الانتباه. توازن بين تحسين السياق الطويل والقدرة على التفكير العام، مع الاحتفاظ بالأداء القوي عبر معايير المعرفة والتشفير ووكلاء المؤسسات غير المشفرة. عند مليون رمز مميز، يتطلب SubQ 1.1 Small حوسبة أقل بمقدار 64.5 مرة من الاهتمام الكثيف ويعمل بشكل أسرع 56 مرة من FlashAttention-2. وتعكس هذه النتائج ميزة التوسع التي تتيحها مكاسب كفاءة SSA. تم تقييم BenchmarksSubQ 1.1 Small عبر خمسة محاور، تغطي استرجاع السياق الطويل، وطول السياق. التعميم والمعرفة والتشفير والمهام الوكيلة طويلة المدى. استرجاع وتعميم السياق الطويل لقد اخترنا اختبار Needle-In-A-Haystack (NIAH) واختبار Nvidia’s RULER لأنهما معًا يختبران ما إذا كان النموذج يمكنه العثور على حقيقة واحدة مدفونة عميقًا في سياق كبير، وما إذا كان يمكنه ربط النقاط عبر هذا السياق. NIAH هو اختبار الدقة. فهو يضع حقيقة واحدة يمكن استرجاعها على عمق متحكم فيه ضمن سياق طويل ويطلب من النموذج إعادتها بالضبط. SubQ 1.1 درجات صغيرة تكاد تكون مثالية عند 1M و2M و6M و12M من الرموز. تم تدريب النموذج في الغالب على مليون رمز مميز، إلا أن عملية الاسترجاع ظلت مثالية تقريبًا عند 12 ضعفًا من هذا الطول، على الرغم من ضغط الانتباه على 0.13% فقط من العلاقات. يعد هذا التعميم نتيجة مباشرة لتوجيه انتباه SSA استنادًا إلى ملاءمة المحتوى بدلاً من الأنماط الموضعية الثابتة.RULER هو اختبار القدرة. إنها 13 مهمة تتجاوز مجرد البحث عن حقيقة واحدة لتغطي التتبع المتغير متعدد القفزات، واستخراج التردد، والتجميع عبر السياق الكامل باستخدام نوع المنطق الذي تتطلبه أعباء العمل الكاملة للمنتج فعليًا. SubQ 1.1 درجات صغيرة 99.12% عند 128 ألف. استرجاع متعدد المهام RULER (128 ألف) استرجاع حقيقة واحدة إبرة في كومة قش (من 1 مليون إلى 12 مليون) المعرفة العامة والتفكير SubQ 1.1 يوازن بين تحسين السياق الطويل مع القدرة على التفكير العام دون أي تنازلات. تقع نسبة GPQA Diamond بنسبة 85.4% أسفل النماذج الحدودية من الطبقة المتوسطة وأعلى بكثير من الطبقة الأصغر. LiveCodeBench بنسبة 89.7% pass@4 قريبة من الحدود المطلقة. AutomationBench Finance بنسبة 13% يضع SubQ 1.1 Small بالقرب من أقوى النماذج في هذا المعيار، متقدمًا على خطوط الأساس المتوسطة والأصغر. تظل الدرجات المطلقة منخفضة في جميع الطرز وفقًا لهذا المعيار.BenchmarkSubQ 1.1 SmallGPT-5.5Opus 4.8Sonnet 4.6GPT-5.4-miniGPT-5.4-nanoHaiku 4.5 العلوم على مستوى الدراسات العليا GPQA Diamond · pass@185.493.29287.587.581.767.2Agentic FinanceAutomationBench13%18%16%8%0%n/r3%برمجة تنافسيةLiveCodeBench v6 · pass@489.79292.288.978.678.269.7n/r = النتيجة التي لم يتم الإبلاغ عنها من قبل موفر النموذجEfficiencySSA تستبدل تمرير الانتباه الكثيف O(n²) بصيغة متناثرة مستفادة يتم قياسها خطيًا مع طول السياق. تنمو ميزة SSA على الاهتمام الكثيف مع زيادة طول السياق. عند استخدام مليون رمز مميز، يتطلب SubQ حوسبة أقل بمقدار 64.5 مرة من الاهتمام الكثيف ويعمل بشكل أسرع بمقدار 56 مرة من FlashAttention-2 على طبقة انتباه واحدة. من الناحية العملية، يؤدي هذا إلى تغيير جذري في اقتصاديات التدريب والاستدلال طويل السياق. يوجد تفصيل كامل للآلية وكيفية مقارنتها بـ FlashAttention، والاهتمام المتناثر DeepSeek، والبنى المتكررة في التقرير الفني. يستخدم SubQ حوسبة أقل بمقدار 64.5x من الاهتمام الكثيف، وهو أسرع 56x من FlashAttention-2 في سياق رمز مميز يبلغ 1 مليون تدريب، لقد بدأنا بنموذج حدودي مفتوح الوزن، واستبدلنا الاهتمام الكثيف بـ SSA، وبناء قدرة سياق طويل من خلال تمديد السياق المرحلي (262K، 512K، 1M، 2M) متبوعًا بما يقرب من تريليون رمز من التدريب المسبق المستمر على القطع الأثرية الطويلة بشكل طبيعي: الكتب والمستندات والتعليمات البرمجية على نطاق المستودع. أقوى رافعة وجدناها لتحسين استرجاع السياق الطويل كانت التدريب المسبق المستمر للسياق الطويل، والذي أصبح ممكنًا بفضل كفاءة خوارزمية SSA. تعكس نتيجة التعميم 12M كلا العاملين: معيار اختيار SSA مستقل عن الموضع المطلق، وتتطور القدرة على استخدام هذا التعميم بشكل موثوق من خلال التدريب على البيانات الطويلة. بالإضافة إلى ذلك، أجرينا أكثر من مائة تجربة عبر ستة إلى سبعة أجيال نموذجية للحصول على توازن القدرات بين المهام ذات السياق الطويل والقصير بشكل صحيح. هذا النوع من التكرار ممكن فقط لأن SSA مكّن فريقنا من إجراء تجارب بملايين الرموز المميزة كإجراء قياسي بدلاً من حدث نادر، مما يجعل حلقة البحث أكثر كفاءة. تم تصميم Use CasesSubQ لأحمال العمل التي تتطلب التفكير في المعلومات الموزعة عبر المنتج دون تجزئة. فيما يلي بعض حالات الاستخدام من بحثنا الأولي: التحليل المالي والعناية الواجبة. إن الإيداعات وتقارير الأرباح والعقود والسجلات الداخلية لا تكون ذات معنى إلا مجتمعة. أسباب SubQ عبر المجموعة الكاملة بدلاً من تلخيص كل مستند على حدة. العمل القانوني والتعاقدي. قد يحدد العقد مصطلحًا في الصفحة 2، ويؤهله في الصفحة 12، ويقتطع استثناءً في الصفحة 46. ويعثر الاسترجاع على الجملة ولكنه يفقد العلاقات. يحمل SubQ الوثيقة بأكملها والأسباب عبرها مباشرة. هندسة البرمجيات. تقوم قواعد التعليمات البرمجية بتوزيع المنطق عبر الملفات والوحدات النمطية والتبعيات بطرق لا تستطيع نماذج السياق القصير الاحتفاظ بها مرة واحدة. يقوم SubQ بتحميل مستودع كامل في نافذة سياق واحدة، مما يتيح التفكير على مستوى البنية، وإعادة البناء عبر الملفات، وتتبع التبعية في مسار واحد. نعتقد أنه ستكون هناك قيمة كبيرة لنماذج السياق الطويل في التخطيط والمراجعة والذاكرة طويلة الأفق ضمن البرمجة. ما هو التالي، سنبدأ مع المجموعة الأولى من شركاء التصميم في الأسابيع القليلة المقبلة، مع طرح أوسع خلال الربع وإصدارات النماذج العامة بحلول نهاية العام.


تم النشر: 2026-06-16 15:50:00

مصدر: subq.ai