Согласно мониторингу 1M AI News, анонимная модель под названием HappyHorse-1.0 на прошлой неделе заняла первое место в рейтинге Video Arena на платформе для AI-видео-оценок Artificial Analysis, одновременно возглавив обе дорожки (категории без аудио) — текст-в-видео и изображение-в-видео. Seedance 2.0 оттеснили на второе место. В категориях с аудио Seedance 2.0 все еще лидирует с небольшим преимуществом. Никаких пресс-релизов, технических блогов и подписи компании; до сих пор никто публично не взял на себя ответственность за разработку.
Рейтинг Video Arena основан на системе слепых Elo-тестов: пользователи голосуют, выбирая лучший из двух сгенерированных видео, не зная личности модели. Время попадания HappyHorse в рейтинг относительно короткое; объем выборки — около 3500 прогонов, что меньше чем вдвое по сравнению с Seedance 2.0. Доверительный интервал шире (±12–13 баллов), но даже при этом размер преимущества на безаудио-дорожке (текст-в-видео — примерно 76 баллов, изображение-в-видео — примерно 48 баллов) намного превышает предел погрешности.
Судя по порядку языков на сайте (китайский и кантонский стоят перед английским) и по намеку «HappyHorse» из шалости в 2026 году по году Лошади, в отрасли считают, что модель разработана китайской командой. Есть два основных распространенных объяснения:
На официальном сайте HappyHorse показано, что модель имеет 15 млрд параметров, 40 слоев self-attention Transformer, использует архитектуру Transfusion (в рамках одной модели единообразно обрабатывает текстовую автoрегрессионную предсказательную часть и видео-генерацию аудиовизуальной диффузии), делает 8 шагов инференса, выводит видео 1080p с синхронным аудио, поддерживает синхронизацию речи для семи языков: китайский, английский, корейский, японский, немецкий, французский и кантонский; модель полностью с открытым исходным кодом и допускает коммерческое использование.