Moonshot AI розширює технологію розділення Prefill/Decode на міждані центрами та гетерогічне обладнання

ME News Новини, 18 квітня (UTC+8), команда Moonshot AI нещодавно оголосила, що їхня технологія розділення Prefill (попереднє заповнення) та Decode (декодування) успішно масштабувалася з одного кластеру на міжцентрові та гетерогенні апаратні середовища. За словами у статті, цей крок має потенціал значно знизити вартість обчислення кожного токена. Раніше розгортання цієї технології було ускладнене через витрати на передачу KV cache. Цей прорив став можливим завдяки їхній гібридній моделі Kimi Linear. (Джерело: InFoQ)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 10
  • 2
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
GateUser-ad8b77bd
· 9год тому
Від одного кластеру до між дата-центрами — складність інженерних робіт зовсім інша рівня
Переглянути оригіналвідповісти на0
CheckTheBlockchainBefore
· 19год тому
Як саме відбувається змішування моделей? Це MOE чи інша архітектура?
Переглянути оригіналвідповісти на0
FeeTakerPhD
· 20год тому
Нарешті дочекалися розгортання між дата-центрами, чи справді вдасться знизити вартість передачі кешу KV?
Переглянути оригіналвідповісти на0
PopFruitCollage
· 20год тому
Мультицентр даних + гетерогенність, складність обслуговування вибухне, чи не так?
Переглянути оригіналвідповісти на0
ExitLiqNow
· 20год тому
Раніше передача кешу KV була обмежена, тепер це стало досягненням важливої віхи
Переглянути оригіналвідповісти на0
OwlAuthorizationMonitor
· 20год тому
Кожен токен трохи дешевший, при великій кількості — справжні гроші.
Переглянути оригіналвідповісти на0
TheStoneBehindTheVolcano
· 20год тому
Moonshot цю хвилю технічного боргу ще потрібно добре тримати
Переглянути оригіналвідповісти на0
ButterStop-LossLine
· 20год тому
Зниження витрат — це справжня істина, чекати реальних даних
Переглянути оригіналвідповісти на0
LatencyLullaby
· 20год тому
Попереднє заповнення та роздільне розв'язання — робити їх окремо, чи не призведе до збільшення затримки?
Переглянути оригіналвідповісти на0
MechanicalHummingbirdGlass
· 20год тому
Модель змішування Kimi має дещо, її можна запускати на гетерогенному обладнанні
Переглянути оригіналвідповісти на0
Дізнатися більше
  • Закріплено