دخلت تقنية النصوص الطويلة للنماذج الكبيرة مرحلة جديدة، ما السر وراء 4000 إلى 400000 توكن؟
في الآونة الأخيرة، تتطور قدرة النماذج الكبيرة على معالجة النصوص الطويلة بسرعة مذهلة. من 4000 توكن في البداية إلى 400000 توكن الآن، تشتد المنافسة بين الشركات المصنعة للنماذج الكبيرة في هذا المجال.
على الصعيد الدولي، قامت OpenAI من خلال عدة ترقيات بزيادة طول السياق لـ GPT-3.5 و GPT-4 إلى 16,000 و 32,000 توكن على التوالي. بينما قامت Anthropic بمد طول السياق لنموذجها Claude إلى 100,000 توكن دفعة واحدة. أما LongLLaMA فقد دفعت هذا الرقم إلى 256,000 توكن أو حتى أكثر.
في الداخل، أطلقت شركة ناشئة تُدعى "الجانب المظلم من القمر" تطبيق Kimi Chat الذي يدعم إدخال 200,000 حرف صيني، ما يعادل حوالي 400,000 توكن. بينما تكنولوجيا LongLoRA التي تم تطويرها بالتعاون بين جامعة هونغ كونغ الصينية ومعهد ماساتشوستس للتكنولوجيا يمكن أن توسع طول النص لنموذج 7B إلى 100,000 توكن، وللنموذج 70B إلى 32,000 توكن.
حالياً، تركز العديد من شركات النماذج الكبيرة الرائدة ومراكز الأبحاث، بما في ذلك OpenAI وAnthropic وMeta و月之暗面، على تعزيز طول السياق كأحد الاتجاهات الرئيسية للتطوير. تحظى هذه الشركات بمعظمها بشغف كبير في أسواق رأس المال. حصلت OpenAI على استثمارات تقارب 12 مليار دولار، ومن المتوقع أن تصل قيمة Anthropic إلى 30 مليار دولار، بينما أكملت 月之暗面 تمويلات متعددة بعد ستة أشهر من تأسيسها، مع تقييم تجاوز 300 مليون دولار.
زيادة قدرة النص الطويل تعني أن كمية المعلومات التي يمكن أن يعالجها النموذج قد زادت بشكل كبير. من القدرة على قراءة مقال قصير فقط في البداية، إلى الآن يمكنه بسهولة معالجة رواية طويلة، فإن تطبيقات النماذج الكبيرة تتوسع باستمرار. هذه التقنية لها آفاق واسعة في مجالات مثل المالية والقانون والبحث العلمي، ومن المتوقع أن تعزز الذكاء الاصطناعي في هذه الصناعات.
ومع ذلك، يشير الخبراء إلى أن طول النص ليس بالضرورة أفضل كلما كان أطول. أظهرت الأبحاث أن طول السياق الذي يدعمه النموذج لا توجد له علاقة خطية بسيطة مع فعاليته. والأهم من ذلك هو كيفية استخدام النموذج للمعلومات السياقية بشكل فعال. حاليًا، لا يزال البحث في تقنيات النصوص الطويلة مستمرًا في الصناعة، وقد تكون 400,000 توكن مجرد نقطة انطلاق.
تطور تقنية النصوص الطويلة لا يحل فقط بعض المشكلات التي واجهتها النماذج الكبيرة في مراحلها المبكرة، بل يمهد أيضًا الطريق لتطبيقات صناعية إضافية. وهذا يرمز إلى دخول النماذج الكبيرة مرحلة جديدة من LLM إلى Long LLM.
على سبيل المثال، تُظهر قدرة Kimi Chat على معالجة النصوص الطويلة في الجانب المظلم من الشهر مزايا فريدة في العديد من السيناريوهات:
يمكن تحليل النقاط الرئيسية في المقالات الطويلة بسرعة واستخراج المعلومات الأساسية.
يمكنه معالجة كتاب كامل أو مستندات قانونية احترافية، ويدعم الأسئلة والأجوبة المتعمقة.
يمكن تحويل الورقة البحثية مباشرة إلى كود، وإجراء التعديلات عليها.
دعم لعب الأدوار في المحادثات الطويلة لتحقيق تفاعل شخصي.
تظهر هذه الوظائف أن النماذج الكبيرة تتجه نحو التخصص والتخصيص والتعمق، ومن المتوقع أن تصبح نقطة دعم جديدة لتحفيز تطبيقات الصناعة.
ومع ذلك، تواجه تقنية النصوص الطويلة أيضًا مأزق "مثلث المستحيل": من الصعب التوفيق بين طول النص، وتوزيع الانتباه، ومتطلبات حساب القوة. ويعود ذلك أساسًا إلى أن تعقيد حساب آلية الانتباه الذاتي في بنية Transformer ينمو بشكل تربيعي مع طول النص.
حالياً، تتبنى الصناعة ثلاث استراتيجيات رئيسية لمواجهة هذا التحدي:
استخدام أدوات خارجية للمساعدة في معالجة النصوص الطويلة.
تحسين طريقة حساب آلية الانتباه الذاتي.
تحسين النموذج نفسه.
على الرغم من التحديات العديدة التي تواجه تقنية النصوص الطويلة، إلا أنها تفتح آفاقًا جديدة لتطوير النماذج الكبيرة. في المستقبل، ستسعى الشركات المصنعة للنماذج الكبيرة إلى تحقيق التوازن الأمثل بين طول النص، وتوزيع الانتباه، واحتياجات القوة الحسابية، من أجل دفع هذه التقنية نحو مزيد من التطور والتطبيق.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
ثورة النصوص الطويلة للنماذج الكبيرة: من 4000 إلى 400000 توكن التحديات والانتصارات
دخلت تقنية النصوص الطويلة للنماذج الكبيرة مرحلة جديدة، ما السر وراء 4000 إلى 400000 توكن؟
في الآونة الأخيرة، تتطور قدرة النماذج الكبيرة على معالجة النصوص الطويلة بسرعة مذهلة. من 4000 توكن في البداية إلى 400000 توكن الآن، تشتد المنافسة بين الشركات المصنعة للنماذج الكبيرة في هذا المجال.
على الصعيد الدولي، قامت OpenAI من خلال عدة ترقيات بزيادة طول السياق لـ GPT-3.5 و GPT-4 إلى 16,000 و 32,000 توكن على التوالي. بينما قامت Anthropic بمد طول السياق لنموذجها Claude إلى 100,000 توكن دفعة واحدة. أما LongLLaMA فقد دفعت هذا الرقم إلى 256,000 توكن أو حتى أكثر.
في الداخل، أطلقت شركة ناشئة تُدعى "الجانب المظلم من القمر" تطبيق Kimi Chat الذي يدعم إدخال 200,000 حرف صيني، ما يعادل حوالي 400,000 توكن. بينما تكنولوجيا LongLoRA التي تم تطويرها بالتعاون بين جامعة هونغ كونغ الصينية ومعهد ماساتشوستس للتكنولوجيا يمكن أن توسع طول النص لنموذج 7B إلى 100,000 توكن، وللنموذج 70B إلى 32,000 توكن.
حالياً، تركز العديد من شركات النماذج الكبيرة الرائدة ومراكز الأبحاث، بما في ذلك OpenAI وAnthropic وMeta و月之暗面، على تعزيز طول السياق كأحد الاتجاهات الرئيسية للتطوير. تحظى هذه الشركات بمعظمها بشغف كبير في أسواق رأس المال. حصلت OpenAI على استثمارات تقارب 12 مليار دولار، ومن المتوقع أن تصل قيمة Anthropic إلى 30 مليار دولار، بينما أكملت 月之暗面 تمويلات متعددة بعد ستة أشهر من تأسيسها، مع تقييم تجاوز 300 مليون دولار.
زيادة قدرة النص الطويل تعني أن كمية المعلومات التي يمكن أن يعالجها النموذج قد زادت بشكل كبير. من القدرة على قراءة مقال قصير فقط في البداية، إلى الآن يمكنه بسهولة معالجة رواية طويلة، فإن تطبيقات النماذج الكبيرة تتوسع باستمرار. هذه التقنية لها آفاق واسعة في مجالات مثل المالية والقانون والبحث العلمي، ومن المتوقع أن تعزز الذكاء الاصطناعي في هذه الصناعات.
ومع ذلك، يشير الخبراء إلى أن طول النص ليس بالضرورة أفضل كلما كان أطول. أظهرت الأبحاث أن طول السياق الذي يدعمه النموذج لا توجد له علاقة خطية بسيطة مع فعاليته. والأهم من ذلك هو كيفية استخدام النموذج للمعلومات السياقية بشكل فعال. حاليًا، لا يزال البحث في تقنيات النصوص الطويلة مستمرًا في الصناعة، وقد تكون 400,000 توكن مجرد نقطة انطلاق.
تطور تقنية النصوص الطويلة لا يحل فقط بعض المشكلات التي واجهتها النماذج الكبيرة في مراحلها المبكرة، بل يمهد أيضًا الطريق لتطبيقات صناعية إضافية. وهذا يرمز إلى دخول النماذج الكبيرة مرحلة جديدة من LLM إلى Long LLM.
على سبيل المثال، تُظهر قدرة Kimi Chat على معالجة النصوص الطويلة في الجانب المظلم من الشهر مزايا فريدة في العديد من السيناريوهات:
تظهر هذه الوظائف أن النماذج الكبيرة تتجه نحو التخصص والتخصيص والتعمق، ومن المتوقع أن تصبح نقطة دعم جديدة لتحفيز تطبيقات الصناعة.
ومع ذلك، تواجه تقنية النصوص الطويلة أيضًا مأزق "مثلث المستحيل": من الصعب التوفيق بين طول النص، وتوزيع الانتباه، ومتطلبات حساب القوة. ويعود ذلك أساسًا إلى أن تعقيد حساب آلية الانتباه الذاتي في بنية Transformer ينمو بشكل تربيعي مع طول النص.
حالياً، تتبنى الصناعة ثلاث استراتيجيات رئيسية لمواجهة هذا التحدي:
على الرغم من التحديات العديدة التي تواجه تقنية النصوص الطويلة، إلا أنها تفتح آفاقًا جديدة لتطوير النماذج الكبيرة. في المستقبل، ستسعى الشركات المصنعة للنماذج الكبيرة إلى تحقيق التوازن الأمثل بين طول النص، وتوزيع الانتباه، واحتياجات القوة الحسابية، من أجل دفع هذه التقنية نحو مزيد من التطور والتطبيق.