Según el monitoreo de 1M AI News, un modelo anónimo llamado HappyHorse-1.0 alcanzó la cima la semana pasada en la plataforma de evaluación de videos de IA Artificial Analysis, en el ranking de Video Arena. En ambas pistas, generación de video a partir de texto y generación de video a partir de imagen (categoría sin audio), obtuvo el primer lugar simultáneamente. ByteDance Seedance 2.0 fue desplazado al segundo puesto. En las categorías con audio, Seedance 2.0 aún lidera con una ligera ventaja. Sin un evento de lanzamiento, sin un blog técnico, sin firma corporativa; hasta hoy nadie lo ha reconocido públicamente.
El ranking de Video Arena se basa en un sistema de pruebas ciegas Elo. Los usuarios emiten votos de preferencia entre dos videos generados sin conocer la identidad del modelo. El tiempo que HappyHorse ha estado en el ranking es más corto; con un tamaño de muestra de aproximadamente 3500 veces, es menos de la mitad que Seedance 2.0. El intervalo de confianza es más amplio (±12-13 puntos), pero la ventaja en la pista sin audio (texto a video, ~76 puntos; imagen a video, ~48 puntos) sigue estando muy por encima del rango de error.
Por el orden de idioma en el sitio web oficial (el chino y el cantonés aparecen antes que el inglés) y por el chiste de 2026 sobre el año del Caballo en HappyHorse, la industria considera que el modelo proviene de un equipo de China. Dos versiones principales:
El sitio web oficial de HappyHorse muestra que el modelo tiene 15 mil millones de parámetros, 40 capas de Transformer de autoatención, y utiliza la arquitectura Transfusion (unifica el procesamiento de la predicción autoregresiva del texto y la generación por difusión de audio y video dentro del mismo modelo). Requiere 8 pasos de inferencia, produce video 1080p con audio sincronizado, admite sincronización de labios en siete idiomas: chino, inglés, japonés, coreano, alemán, francés y cantonés, es totalmente de código abierto y permite uso comercial.