10 апреля официальный блог DeepSeek опубликовал статью, представляющую DeepSeek V4, флагманскую модель, которая будет запущена компанией DeepSeek. Эта модель не только преодолевает пределы масштабов параметров, но и обещает беспрецедентную эффективность. Ожидается, что DeepSeek V4 сможет обрабатывать 1 триллион (1T) параметров, нативно поддерживает мультимодальные данные, включая текст, изображения, видео и аудио, и имеет контекстное окно в 1 миллион токенов (эквивалентно 15-20 полным романам), что делает его прямым конкурентом западным гигантам, таким как GPT-5.4 от OpenAI и Claude Opus 4.5 от Anthropic. Цены на API для DeepSeek V4 в 10-50 раз дешевле, чем у GPT-5.4 и Claude Opus 4.5; ожидается, что DeepSeek V4 будет выпущен с открытым исходным кодом под лицензией Apache 2.0. DeepSeek V4 может работать локально на системах с двумя RTX 4090 или одной RTX 5090. Кроме того, DeepSeek представил три революционных инновации для DeepSeek V4: 1. Память энграм; 2. Многообразно-ограниченная гиперсвязь (mHC); 3. Разреженный механизм внимания (DSA) и Lightning индексатор. Более того, в официальном заявлении DeepSeek отмечается, что из-за строгих экспортных ограничений США на высококачественные графические процессоры NVIDIA (такие как B300 и H200) DeepSeek оптимизировал V4, чтобы в основном полагаться на чипы, произведенные в Китае, для вывода. Хотя первоначальное обучение все еще могло использовать оборудование NVIDIA (например, H800), модель была высоко оптимизирована для чипов Huawei Ascend 950PR и Cambricon MLU.

post-image
post-image
post-image
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить