HappyHorse تتصدر بشكل مجهول اختبار الفيديو الذكي، ويُشتبه في أن كل من علي تين وتاندي.ai قد تورطا

BlockBeatNews

وفقًا لمتابعة 1M AI News، صعد نموذج مجهول يُدعى HappyHorse-1.0 إلى القمة الأسبوع الماضي على منصة تقييم مقاطع الفيديو بالذكاء الاصطناعي Artificial Analysis، وذلك في ترتيب Video Arena. وفي مساري تحويل النص إلى فيديو وتحويل الصورة إلى فيديو (فئة بدون صوت) حقق المركز الأول في كليهما، ليزيح Seedance 2.0 إلى المرتبة الثانية. وفي الفئات التي تتضمن صوتًا، ما زالت Seedance 2.0 تتقدم بفارق بسيط. دون مؤتمر إطلاق، دون مدونة تقنية، وبدون اسم شركة، وحتى الآن لم يعلن أي طرف رسميًا عن نسبته علنًا.

يستند ترتيب Video Arena إلى نظام اختبارات Elo العمياء؛ يقوم المستخدمون باختيار أفضلية مقطعيْن مولَّديْن بالتصويت دون معرفة هوية النموذج. مدة ظهور HappyHorse في الترتيب أقصر، وعدد عينات المقارنة يبلغ نحو 3500 مرة، أي أقل من نصف Seedance 2.0، كما أن فاصل الثقة أوسع (±12-13 نقطة). لكن على الرغم من ذلك، فإن هامش الصدارة في مسار بدون صوت (حوالي 76 نقطة لتحويل النص إلى فيديو، وحوالي 48 نقطة لتحويل الصورة إلى فيديو) يظل بعيدًا جدًا عن نطاق الخطأ.

استنادًا إلى ترتيب اللغات على الموقع الرسمي (اللغة الصينية والكانتونية قبل الإنجليزية) وبالنسبة إلى نكتة عام 2026 في السنة القمرية لـ HappyHorse، يعتقد الوسط المهني أن النموذج من فريق صيني. وهناك رأيان شائعان رئيسيان:

  1. تذكر عدة قنوات إعلامية متخصصة في الصناعة أن النموذج صادر عن مختبر المستقبل للحياة التابع لمجموعة علي بابا Taotian، يقوده المسؤول Zhang Di. كان Zhang Di سابقًا نائبًا للتقنية في KuaiShou، ومنذ عام 2024 يقود تطوير AI الخاص بـ KeLing، وأصدر في أبريل 2025 نسخة KeLing 2.0 Master، ثم عاد إلى علي بابا في نوفمبر من العام نفسه
  2. أجرى مستخدم X Vigo Zhao مقارنة تفصيلية ووجد أن HappyHorse يتطابق تمامًا في عدة مؤشرات معيارية مع daVinci-MagiHuman، وهو نموذج تم إصداره كمصدر مفتوح في مارس هذا العام من قِبل شركة ناشئة في مجال فيديوهات AI تُدعى Sand.ai. كما أن بنية الموقع الرسمي متشابهة جدًا. تأسست Sand.ai على يد Cao Yue، المؤلف الأول لـ Swin Transformer، ويُشار إليها في الوسط المهني باعتبارها «DeepSeek في عالم فيديوهات AI»

يُظهر الموقع الرسمي لـ HappyHorse أن النموذج يحتوي على 15 مليار معلمة، و40 طبقة من محولات الانتباه الذاتي، ويعتمد بنية Transfusion (توحيد المعالجة داخل النموذج نفسه لتنبؤ النص بشكل ذاتي رجوعي وتوليد انتشار صوت وفيديو). يستغرق 8 خطوات في الاستدلال، ويُخرج فيديو بدقة 1080p مع صوت متزامن، ويدعم مزامنة أفواه نُطْقية بسبع لغات هي الصينية والإنجليزية واليابانية والكورية والألمانية والفرنسية والكانتونية، وهو مفتوح المصدر بالكامل ويتيح الاستخدام التجاري.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات