Kết quả tìm kiếm cho "MOE"
2026-04-29
04:05

Ant Group mở mã nguồn mô hình Ling-2.6-flash: 104B tham số với 7,4B tham số hoạt động, đạt nhiều mốc SOTA

Tin tức từ Gate, ngày 29 tháng 4 — Trọng số mô hình Ling-2.6-flash của Ant Group hiện đã được mở mã nguồn công khai, trước đây chỉ có sẵn thông qua API. Mô hình có tổng cộng 104 tỷ tham số với 7,4 tỷ tham số được kích hoạt cho mỗi lần suy luận, cửa sổ ngữ cảnh 256K và giấy phép MIT. Các phiên bản độ chính xác BF16, FP8 và INT4
Xem thêm
16:30

NVIDIA Ra Mắt Mô Hình Đa Phương Thức Nemotron 3 Nano Omni Với Mức Tăng Thông Lượng Gấp 9 Lần

Tin tức Cổng, 28 tháng 4 — NVIDIA đã phát hành Nemotron 3 Nano Omni, một mô hình đa phương thức mã nguồn mở có kiến trúc (MoE) dạng chuyên gia hỗn hợp (mixture-of-experts) 30B-A3B, với hỗ trợ cửa sổ ngữ cảnh 256K. Mô hình hợp nhất việc xử lý các đầu vào video, âm thanh, hình ảnh và văn bản trong một khuôn khổ duy nhất. So với
Xem thêm
11:13

Meituan Quietly Launches LongCat-2.0-Preview AI Model With Trillion Parameters, No Official Announcement

Tin tức Gate, ngày 28 tháng 4 — Meituan đã âm thầm triển khai một mô hình AI mới, LongCat-2.0-Preview, trên nền tảng LongCat API của mình kèm theo nhật ký cập nhật ghi ngày 20 tháng 4, nhưng chưa đưa ra bất kỳ thông báo chính thức nào hay báo cáo kỹ thuật. Không giống như các mô hình trước đó trong series LongCat Flash-Chat, Flash-Thinking, Flash-Lite, Flash-Omni, Next, vốn được phát hành kèm các bài blog chính thức, báo cáo kỹ thuật và bản phát hành mã nguồn mở trên Hugging Face và GitHub, phiên bản 2.0-Preview không cung cấp bất kỳ liên kết mã nguồn mở nào và chỉ có sẵn thông qua API. Nhật ký cập nhật của mô hình nhấn mạnh ba năng lực cốt lõi: phát triển tác nhân với hỗ trợ bản địa cho việc gọi công cụ, suy luận nhiều bước, và các tác vụ xử lý ngữ cảnh dài; thành thạo tạo mã, tự động hóa quy trình, và thực thi các chỉ dẫn phức tạp; đồng thời tích hợp sâu với Claude Code, OpenClaw, OpenCode và Kilo Code. Theo các báo cáo từ nhiều kênh truyền thông dẫn nguồn ngày 24 tháng 4, tổng số tham số của mô hình vượt một nghìn tỷ, sử dụng kiến trúc MoE Mixture of Experts, và hỗ trợ cửa sổ ngữ cảnh 1 triệu token—có quy mô tương đương với DeepSeek V4, cũng được phát hành vào chính ngày hôm đó. Người trong cuộc tiết lộ rằng LongCat-2.0-Preview được huấn luyện hoàn toàn trên các cụm máy tính trong nước, sử dụng từ 50.000 đến 60.000 thẻ tăng tốc do Trung Quốc sản xuất, đánh dấu nhiệm vụ huấn luyện quy mô lớn nhất được hoàn thành trên hạ tầng AI trong nước cho đến nay. Trong giai đoạn thử nghiệm, mô hình cung cấp hạn mức dùng miễn phí hằng ngày là 10 triệu token.
Xem thêm
23:49

Dòng MiMo-V2.5 của Xiaomi ra mắt mã nguồn mở: 1T tham số, hiệu quả token vượt trội so với GPT-5.4

Tin cổng, ngày 27 tháng 4 — Nhóm MiMo của Xiaomi đã phát hành mã nguồn mở cho dòng mô hình ngôn ngữ lớn MiMo-V2.5 theo giấy phép MIT, hỗ trợ triển khai thương mại, huấn luyện tiếp tục và tinh chỉnh. Cả hai mô hình đều có cửa sổ ngữ cảnh 1 triệu token. MiMo-V2.5-Pro là mô hình mixture-of-experts văn bản thuần MoE với tổng cộng 1,02 nghìn tỷ tham số và 1T tham số hoạt động
Xem thêm
08:13

Kỹ sư OpenAI Clive Chan Thách thức Khuyến nghị Phần cứng của V4, Trích dẫn Lỗi và Tính Mơ hồ so với V3

Tin tức cổng Gate, ngày 24 tháng 4 — Kỹ sư OpenAI Clive Chan đã đưa ra những phản đối chi tiết đối với chương khuyến nghị phần cứng trong báo cáo kỹ thuật V4, gọi chương này là "đáng ngạc nhiên là tầm thường và dễ gây lỗi" so với phiên bản V3 được ca ngợi. Hướng dẫn phần cứng của V3, bao gồm các buổi Q&A
Xem thêm
09:45

DeepSeek phát hành mã nguồn mở TileKernels, thư viện kernel GPU cho đào tạo và suy luận mô hình lớn

Tin tức cổng, ngày 23 tháng 4 — DeepSeek đã phát hành mã nguồn mở TileKernels theo giấy phép MIT, một thư viện kernel GPU được viết bằng TileLang cho đào tạo và suy luận mô hình ngôn ngữ lớn. TileLang là ngôn ngữ chuyên biệt do nhóm tile-ai phát triển để diễn đạt các kernel GPU hiệu năng cao trong
Xem thêm
06:25

Nhóm Seed của ByteDance phát hành Seed3D 2.0 với độ chính xác hình học nâng cao và tạo sinh vật liệu

Tin tức Cổng — Thông điệp ngày 23 tháng 4 — Nhóm Seed của ByteDance đã phát hành Seed3D 2.0, một mô hình chuyển văn bản thành 3D tạo ra các tài sản 3D có kết cấu từ một hình ảnh duy nhất. Bản nâng cấp tập trung vào độ chính xác hình học và tính chân thực của vật liệu, với API hiện đã có trên Volcano Ark. Tạo hình học sử dụng một
Xem thêm
14:05

Yifan Zhang Công Bố Thông Số Kỹ Thuật Đầy Đủ của DeepSeek V4: 1,6T Tham Số, 384 Chuyên Gia với 6 Kích Hoạt

Tin cổng, ngày 22 tháng 4 — Nghiên cứu sinh Princeton Yifan Zhang đã công bố đầy đủ thông số kỹ thuật của DeepSeek V4 trên X, sau một bản xem trước vào ngày 19 tháng 4. V4 có tổng cộng 1,6 nghìn tỷ tham số và một biến thể nhẹ, V4-Lite, với 285 tỷ tham số. Mô hình sử dụng cơ chế chú ý DSA2
Xem thêm
02:21

Google phát hành mô hình đa phương thức Gemma 4, hỗ trợ hơn 140 ngôn ngữ

Google đã phát hành mô hình đa phương thức Gemma 4 vào ngày 3 tháng 4, hỗ trợ đầu vào dạng văn bản, hình ảnh và âm thanh, đồng thời tạo ra đầu ra dạng văn bản. Cửa sổ ngữ cảnh của nó có thể chứa 256.000 token, hỗ trợ 140 ngôn ngữ và phù hợp với nhiều môi trường, bao gồm bốn loại mô hình với các quy mô khác nhau.
Xem thêm