Американская open-source модель рассуждений Trinity-Large-Thinking от Arcee, заявляет, что приближается к Opus 4.6, и стоит на 96% дешевле

動區BlockTempo

Американский AI-стартап Arcee выпустил открытый исходный код модели для вывода Trinity-Large-Thinking, набрав 91.9 в тесте-бенчмарке способностей агентов PinchBench, уступив лишь Opus 4.6 с 93.3, а на бенчмарке задач Agent Tau2-Airline и вовсе, набрав 88.0, занял самый высокий результат среди всех сравниваемых моделей. Модель использует архитектуру разрежённых смешанных экспертов с общим размером 400B; цена API — $0.90 за миллион token на выходе, что примерно на 96% дешевле, чем Opus 4.6. Весы доступны для скачивания с лицензией Apache 2.0. Подготовлено и обобщено отчетом Dongqu Dongqu.
(Предыстория: анализ OpenRouter 100 трлн Token research report: что именно человек использует AI для, рост китайских моделей и секреты удержания пользователей)
(Дополнительная справка по контексту: пришел Claude Opus 4.6 — он сам пишет компилятор, делает PPT, и находит сотни нулевых дней на ходу; он хочет попробовать твою работу тоже).

Американский AI-стартап Arcee, в компании меньше ста сотрудников, выдал на оценке способностей агентов результаты, которые вплотную соперничают с флагманской моделью Anthropic, а по цене стоит только 4% от нее.

В прошлом эта компания не была в центре внимания мейнстрима, но их недавно выпущенная Trinity-Large-Thinking уже пробилась в верхнюю часть рейтинга на нескольких бенчмарках в сценариях с агентами.

PinchBench, разработанный Kilo, — один из ключевых индикаторов в индустрии, по которому оценивают практические способности моделей в рабочих процессах агентных задач; Trinity-Large-Thinking в этом тесте набрала 91.9, тогда как действующий лидер Opus 4.6 — 93.3, то есть разрыв всего 1.4%.

На другом бенчмарке, имитирующем реалистичный сценарий службы поддержки клиентов, Tau2-Airline, она набрала еще и 88.0, опередив все модели, участвовавшие в сравнении. Это означает, что в реальных агентных задачах, где нужны многораундовые диалоги и многократные запросы к инструментам, эта открытая модель действительно демонстрирует очень высокий уровень.

А цена API Arcee составляет $0.90 за миллион token на выходе; официально заявлено, что это примерно на 96% дешевле, чем Opus 4.6. Для сценариев, где нужно, чтобы агент долго автоматически выполнял задачи и постоянно расходовал token, разница в стоимости может быть более значимой, чем разница в оценках модели.

400B общих параметров, при каждом выводе сжигается только 13B

Согласно заявлению официального блога Arcee AI, ключ к такой выгоде по цене лежит в выборе архитектуры. Trinity-Large-Thinking использует разрежённую MoE (смешение экспертов): внутри размещены 256 экспертных модулей, но при обработке каждого token запускаются только 4 из них. Если пересчитать, то для огромной модели в 400B при реальном выводе требуется лишь вычислительная нагрузка уровня 13B; эффективность выполнения примерно в 2–3 раза выше, чем у плотных моделей того же порядка.

По сравнению с предыдущей версией Preview, выпущенной в конце января этого года, главное обновление — добавление цепочки рассуждений при выводе.

Preview делала только fine-tuning по инструкциям; в версии Thinking перед ответом модель сначала «подумает», что заметно улучшает стабильность при многораундовых вызовах инструментов и согласованность в длинном контексте. Сам Arcee говорит об этом довольно прямо: эта модель создана, чтобы не «падать» в длительных агентных циклах.

На весь базовый обучающий этап ушло 20 миллионов долларов и 33 дня; пост-обучение для Thinking-версии заняло еще 9 месяцев.

В тексте для анонса CEO Arcee Lucas Atkins написал: «Чтобы прийти сюда, потребовалась сложная техническая работа, тяжелые решения… Никто этого не сделал. Они продолжали давить».

Универсальное рассуждение — не ее сильная сторона

Конечно, специализация на агентных сценариях тоже означает компромиссы. В бенчмарках универсального рассуждения результаты Trinity-Large-Thinking уже не столь впечатляющие. GPQA-D набирает 76.3, тогда как Kimi K2.5 — 86.9, Opus 4.6 — 89.2; разрыв составляет соответственно 10 и 13 процентных пунктов. А MMLU-Pro с 83.4 также оказывается внизу среди моделей сравнения.

Но, похоже, Arcee не планирует «упираться» в это направление. Официально заявлено, что «Trinity-Large-Thinking — самый сильный открытый исходный код модель за пределами Китая во многих измерениях», и что их соперники — не Opus или GPT, а DeepSeek, Kimi и другие китайские открытые экосистемы.

Trinity-Large-Thinking уже размещена на OpenRouter; в первые 5 дней ее можно было бесплатно использовать в OpenClaw. Предыдущая версия Preview также продолжит быть доступной бесплатно.

Что касается предыдущей версии Preview: с момента запуска в конце января она на платформе OpenRouter накопила более 3.37 трлн token в обработке. По статистике OpenClaw, это открытая модель номер один по объему использования в США и номер четыре в мире. Для небольшой по масштабу стартап-компании такая доля внедрения уже доказывает, что она и недорогая, и удобная, и что спрос на рынке действительно существует.

Веса модели опубликованы на Hugging Face по лицензии Apache 2.0 — любой может скачать, модифицировать и развернуть в коммерческих целях.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.
комментарий
0/400
Нет комментариев