Kết quả tìm kiếm cho "GPT"
2026-04-30
04:29

Altman: Định giá theo token sắp trở nên lỗi thời khi GPT-5.5 chuyển trọng tâm sang hoàn thành tác vụ thay vì đếm token

Tin tức từ Gate, 29 tháng 4 — CEO OpenAI Sam Altman cho biết trong một cuộc phỏng vấn với Ben Thompson trên Stratechery rằng mô hình định giá dựa trên token không phải là lựa chọn khả thi lâu dài cho các dịch vụ AI. Lấy GPT-5.5 làm ví dụ, Altman nhận xét rằng mặc dù giá mỗi token cao hơn đáng kể so với GPT-5.4, nhưng mô hình này sử dụng ít token hơn nhiều để hoàn thành cùng một tác vụ, nghĩa là khách hàng không quan tâm đến số lượng token—họ chỉ quan tâm liệu tác vụ có được hoàn thành hay không và tổng chi phí.
Xem thêm
23:49

Dòng MiMo-V2.5 của Xiaomi ra mắt mã nguồn mở: 1T tham số, hiệu quả token vượt trội so với GPT-5.4

Tin cổng, ngày 27 tháng 4 — Nhóm MiMo của Xiaomi đã phát hành mã nguồn mở cho dòng mô hình ngôn ngữ lớn MiMo-V2.5 theo giấy phép MIT, hỗ trợ triển khai thương mại, huấn luyện tiếp tục và tinh chỉnh. Cả hai mô hình đều có cửa sổ ngữ cảnh 1 triệu token. MiMo-V2.5-Pro là mô hình mixture-of-experts văn bản thuần MoE với tổng cộng 1,02 nghìn tỷ tham số và 1T tham số hoạt động
Xem thêm
05:17

GPT-5.5 Trở Lại Tuyến Đầu Trong Lập Trình, Nhưng OpenAI Đổi Benchmark Sau Khi Thua Opus 4.7

Tin tức cổng, ngày 27 tháng 4 — SemiAnalysis, một công ty phân tích chất bán dẫn và AI, đã phát hành một bảng benchmark so sánh các trợ lý lập trình bao gồm GPT-5.5, Claude Opus 4.7 và DeepSeek V4. Phát hiện then chốt: GPT-5.5 đánh dấu lần đầu tiên OpenAI quay trở lại tuyến đầu trong các mô hình lập trình trong vòng sáu tháng, với các kỹ sư của SemiAnalysis hiện đang luân phiên giữa Codex và Claude Code sau trước đó gần như chỉ dựa vào Claude. GPT-5.5 dựa trên một cách tiếp cận huấn luyện trước mới được mã danh "Spud" và thể hiện lần mở rộng quy mô huấn luyện trước đầu tiên của OpenAI kể từ GPT-4.5. Trong thử nghiệm thực tế, một sự phân công rõ ràng đã xuất hiện. Claude đảm nhiệm lập kế hoạch dự án mới và thiết lập ban đầu, trong khi Codex tỏ ra xuất sắc trong việc sửa các lỗi đòi hỏi nhiều suy luận. Codex thể hiện khả năng hiểu cấu trúc dữ liệu tốt hơn và lý luận logic mạnh hơn nhưng gặp khó khăn trong việc suy ra ý định người dùng mơ hồ. Trong một tác vụ trên cùng một bảng điều khiển, Claude tự động tái tạo bố cục trang tham chiếu nhưng bịa ra một lượng lớn dữ liệu, trong khi Codex bỏ qua bố cục nhưng lại cung cấp lượng dữ liệu chính xác hơn đáng kể. Bài phân tích tiết lộ chi tiết thao túng benchmark: Bài đăng blog của OpenAI hồi tháng 2 đã kêu gọi ngành áp dụng SWE-bench Pro làm tiêu chuẩn mới cho các benchmark lập trình. Tuy nhiên, thông báo của GPT-5.5 đã chuyển sang một benchmark mới có tên "Expert-SWE." Lý do, được chôn trong các chi tiết nhỏ, là GPT-5.5 đã bị Opus 4.7 vượt qua trên SWE-bench Pro và thua kém đáng kể so với Mythos 77.8% chưa được phát hành của Anthropic. Về Opus 4.7, Anthropic đã công bố một bài phân tích hậu kiểm một tuần sau khi phát hành, thừa nhận ba lỗi trong Claude Code đã tồn tại trong nhiều tuần từ tháng 3 đến tháng 4, ảnh hưởng đến gần như tất cả người dùng. Trước đó, nhiều kỹ sư đã báo cáo sự suy giảm hiệu năng ở phiên bản 4.6 nhưng bị bác bỏ như những quan sát chủ quan. Ngoài ra, bộ mã thông báo (tokenizer) mới của Opus 4.7 làm tăng số lượng token lên đến 35%, điều mà Anthropic đã công khai thừa nhận—thực chất tương đương với một đợt tăng giá ẩn. DeepSeek V4 được đánh giá là "theo kịp với tuyến đầu nhưng không dẫn đầu," định vị mình là lựa chọn thay thế có chi phí thấp nhất trong số các mô hình nguồn đóng. Bài phân tích cũng ghi nhận rằng "Claude tiếp tục vượt trội DeepSeek V4 Pro trên các tác vụ viết tiếng Trung có độ khó cao," và bình luận rằng "Claude đã thắng mô hình Trung Quốc ngay trên chính ngôn ngữ của nó." Bài viết đưa ra một khái niệm quan trọng: nên đánh giá giá mô hình theo "chi phí cho mỗi tác vụ" thay vì "chi phí cho mỗi token." Giá của GPT-5.5 gấp đôi so với GPT-5.4 input $5, output per million tokens, nhưng nó hoàn thành các tác vụ tương tự bằng ít token hơn, vì vậy chi phí thực tế không nhất thiết cao hơn. Dữ liệu ban đầu của SemiAnalysis cho thấy tỉ lệ đầu vào/đầu ra của Codex là 80:1, thấp hơn tỉ lệ 100:1 của Claude Code.
Xem thêm
03:33

OpenAI Sáp Nhập Codex Vào Mô Hình Chính Bắt Đầu Từ GPT-5.4, Ngừng Dòng Lập Trình Riêng

Tin tức Cổng, ngày 26 tháng 4 — Giám đốc bộ phận trải nghiệm nhà phát triển của OpenAI, Romain Huet, đã tiết lộ trong một tuyên bố gần đây trên X rằng Codex, dòng mô hình lập trình chuyên biệt được công ty duy trì độc lập, đã được sáp nhập vào mô hình chính bắt đầu từ GPT-5.4 và sẽ không còn nhận các bản cập nhật riêng biệt
Xem thêm
01:21

OpenClaw v2026.4.23 Bổ sung Hỗ trợ OAuth Trực tiếp cho gpt-image-2, Giới thiệu Chế độ Context Phân Nhánh cho Tác nhân con

Tin tức Gate ngày 25 tháng 4 — OpenClaw, một khung tác nhân AI mã nguồn mở, đã phát hành v2026.4.23 vào ngày 23 tháng 4, giới thiệu các cập nhật trên toàn bộ mảng tạo ảnh, cơ chế tác nhân con (sub-agent) và tăng cường bảo mật. Các cải tiến tạo ảnh cho phép gpt-image-2 được gọi trực tiếp thông qua Codex OAuth mà không
Xem thêm
01:46

OpenAI Ra Mắt GPT-5.5, Được Thiết Kế Cho Nhiệm Vụ Agent và Quy Trình Phức Tạp

Tin tức từ Gate, ngày 24 tháng 4 — OpenAI đã chính thức phát hành GPT-5.5, một mô hình AI thế hệ tiếp theo được thiết kế để xử lý các mục tiêu phức tạp, tích hợp công cụ, tự kiểm chứng và hoàn thành các tác vụ theo nhiều bước. Mô hình nổi bật trong việc viết mã và gỡ lỗi, nghiên cứu trực tuyến, phân tích dữ liệu, tạo tài liệu
Xem thêm
04:54

Perplexity 公布网页搜索代理的后训练方法;基于 Qwen3.5 的模型在准确率与成本上优于 GPT-5.4

Perplexity 使用在 Qwen3.5 模型上先进行 SFT、再进行带有 RL 的后训练,并借助多跳 QA 数据集与评分标准校验来提升搜索的准确性和效率,从而实现同级最佳的 FRAMES 表现。 摘要:Perplexity 面向网页搜索代理的后训练流程,将监督微调 (SFT) 结合在线强化学习 (RL),并通过 GRPO 算法来强制指令遵循与语言一致性。强化学习阶段使用专有的多跳可验证问答数据集以及基于评分标准的对话数据,以防止 SFT 漂移,并采用奖励门控与组内效率惩罚。评估显示,Qwen3.5-397B-SFT-RL 在 FRAMES 上达到顶级表现:单次工具调用准确率为 57.3%,四次调用为 73.9%,成本为每次查询 $0.02;在这些指标上,其表现优于 GPT-5.4 和 Claude Sonnet 4.6。定价基于 API,且不包含缓存。
Xem thêm
12:05

Kimi K2.6 Dẫn Đầu Bảng Chuẩn Lập Trình OpenRouter, Vượt Trội Claude và Dòng GPT

Kimi K2.6 dẫn đầu bảng xếp hạng OpenRouter, vượt trội Claude, GPT và các đối thủ mã nguồn mở, cho thấy tiến bộ AI trong nước và thu hẹp khoảng cách với các nhà lãnh đạo toàn cầu. Tóm tắt: Kimi.ai cho biết mô hình mới nhất của họ, Kimi K2.6, đã xếp hạng đầu tiên trên bảng xếp hạng OpenRouter về khả năng lập trình, dẫn đầu các đánh giá từ phía nhà phát triển. Các benchmark cho thấy K2.6 đạt hiệu suất vượt trội trên các tác vụ lập trình so với Claude, dòng GPT và các mô hình mã nguồn mở khác, nhấn mạnh những cải thiện về tạo mã và xử lý các tác vụ phát triển, đồng thời báo hiệu tiến bộ của AI trong nước hướng tới các nhà lãnh đạo quốc tế.
Xem thêm