HBM và GDDR: Bộ nhớ băng thông cao vượt qua "bức tường bộ nhớ" trong huấn luyện và suy luận AI như thế nào

Thị trường
Đã cập nhật: 06/10/2026 05:33

Trong cuộc đua AI với quy mô hàng nghìn tỷ tham số, sức mạnh tính toán của GPU có thể đang thu hút mọi sự chú ý, nhưng một thành phần âm thầm hơn lại đang dần trở thành "cao điểm chiến lược" của ngành công nghiệp—Bộ nhớ băng thông cao (High Bandwidth Memory - HBM). Nếu ví GPU như một động cơ siêu nạp với hàng nghìn xi-lanh, thì HBM chính là hệ thống cung cấp nhiên liệu đảm bảo dòng dữ liệu luôn thông suốt. Dù động cơ mạnh mẽ đến đâu, nếu nguồn nhiên liệu không đủ, nó cũng chỉ có thể chạy không tải.

Nhận thức chung của ngành đang thay đổi: điểm nghẽn của sức mạnh tính toán AI không còn nằm ở bản thân các đơn vị xử lý, mà ngày càng phụ thuộc vào hiệu quả truyền tải dữ liệu. Dữ liệu cho thấy, trong các kiến trúc tính toán truyền thống, việc di chuyển dữ liệu có thể chiếm tới 60%-80% tổng mức tiêu thụ năng lượng của toàn hệ thống. Ở các kịch bản suy luận, tỷ lệ GPU ở trạng thái nhàn rỗi có thể lên tới 99%. Yếu tố then chốt giới hạn hiệu suất ở đây chính là băng thông bộ nhớ.

Tận dụng công nghệ xếp chồng 3D và kết nối xuyên silicon (Through-Silicon Via - TSV), HBM đạt được băng thông và hiệu suất năng lượng trên mỗi đơn vị diện tích vượt trội so với bộ nhớ truyền thống, trở thành cấu hình tiêu chuẩn trong các bộ tăng tốc AI của NVIDIA, AMD, Google và nhiều ông lớn khác trong ngành.

Nguyên lý kỹ thuật: HBM tái định hình kênh dữ liệu giữa GPU và bộ nhớ như thế nào

Từ "đường đua phẳng" đến "thang máy thẳng đứng"

HBM không phải là một loại vật liệu lưu trữ mới, mà là tập hợp các tiêu chuẩn giao tiếp và đóng gói, định nghĩa "cách kết nối DRAM với băng thông cực cao". Công nghệ cốt lõi của HBM gồm ba lớp chính:

Xếp chồng 3D — Nhiều lớp chip DRAM được xếp chồng theo chiều dọc (các cấu hình phổ biến hiện nay là 8 đến 12 lớp, với HBM4 nâng lên 16 lớp), giúp tăng mật độ lưu trữ và số lượng kênh song song trên cùng một diện tích vật lý.

Through-Silicon Via (TSV) — Các lỗ cực nhỏ, chỉ từ 5-10 micron, được khắc bên trong mỗi lớp DRAM và lấp đầy vật liệu dẫn điện để tạo thành các kênh thẳng đứng, cho phép hàng chục nghìn kết nối giữa các lớp. Điều này hoàn toàn khác với cách đi dây truyền thống trên bảng mạch in (PCB), khi chiều dài đường truyền lên tới hàng centimet hoặc mét, còn truyền tín hiệu qua TSV chỉ ở quy mô micron, giúp giảm mạnh độ suy hao và độ trễ tín hiệu.

Silicon Interposer — Các khối HBM được kết nối với tấm trung gian silicon thông qua các điểm tiếp xúc siêu nhỏ, từ đó liên kết với chip GPU/CPU trên khoảng cách cực ngắn, tạo thành một mô-đun đóng gói thống nhất. Toàn bộ cấu trúc này sử dụng các công nghệ đóng gói 2.5D tiên tiến như CoWoS để tích hợp mật độ cao.

Đột phá của kiến trúc này nằm ở độ rộng bus truyền dữ liệu. Một khối HBM thông thường cung cấp bus 1.024 bit, trong khi HBM3E có thể mở rộng lên 2.048 bit. Ví dụ, chip HBM3E mới nhất của SK hynix có dung lượng 24GB và băng thông vượt 1TB/s. Trong khi đó, các giải pháp GDDR truyền thống chỉ cung cấp 32 bit mỗi chip (hoặc 384 bit với cấu hình đa chip), tạo ra sự chênh lệch bậc thang về khả năng truyền dữ liệu.

Triết lý thiết kế cốt lõi của HBM là "rộng và chậm"—đạt tổng băng thông nhờ số lượng kênh song song khổng lồ, mỗi kênh hoạt động ở tần số tương đối thấp, từ đó đạt hiệu suất năng lượng vượt trội so với các thiết kế tần số cao. Ngược lại, GDDR đi theo logic "hẹp và nhanh"—tăng băng thông bằng cách đẩy tần số hoạt động của số kênh hạn chế lên mức tối đa. Hai cách tiếp cận này phù hợp với những kịch bản ứng dụng hoàn toàn khác nhau: HBM ưu tiên băng thông tối đa, còn GDDR cân bằng giữa băng thông và chi phí.

HBM vs GDDR6: Cuộc chiến giữa "rộng-chậm" và "hẹp-nhanh"

Cả HBM và GDDR6 đều thuộc họ bộ nhớ DRAM, đóng vai trò là kênh truy xuất dữ liệu cho GPU, tuy nhiên chúng khác biệt căn bản về mục tiêu thiết kế, đặc tính hiệu năng và cấu trúc chi phí.

Băng thông: HBM3E cung cấp tới 1,2TB/s trên mỗi khối, trong khi HBM4 thế hệ tiếp theo dự kiến vượt 2,0TB/s. GDDR6X đạt tối đa khoảng 1TB/s mỗi card, đã tiệm cận giới hạn vật lý ở các sản phẩm cao cấp. Tuy nhiên, HBM vượt trội rõ rệt về hiệu suất năng lượng trên mỗi đơn vị băng thông, mang lại lợi thế chi phí vận hành định lượng trong các trung tâm dữ liệu AI quy mô lớn.

Tiêu thụ điện và độ trễ: Nhờ các kênh thẳng đứng TSV siêu ngắn, HBM tiêu thụ ít hơn khoảng 30% điện năng so với GDDR5. Về độ trễ, GDDR truyền tín hiệu qua dây dẫn trên PCB tới GPU, thường gây ra độ trễ ở mức micro giây; HBM được đóng gói ngay cạnh chip GPU nên nén độ trễ xuống mức nano giây. Đáng chú ý, độ trễ truy cập ngẫu nhiên của HBM có thể cao hơn một chút so với GDDR trong các kịch bản siêu tải, nhưng với các tác vụ truy xuất song song quy mô lớn—đặc trưng của huấn luyện và suy luận AI—băng thông mới là điểm nghẽn then chốt.

Chi phí: Đây là nhược điểm rõ rệt nhất của HBM. Số liệu ngành cho thấy HBM có giá trên 25 USD/GB, trong khi GDDR6 chỉ khoảng 5-8 USD/GB. HBM có thể chiếm tới 60%-80% tổng chi phí GPU cao cấp. GDDR6 thực tế lại có hiệu quả chi phí trên mỗi đơn vị băng thông tốt hơn—khi không cần băng thông cực đại, GDDR6 rõ ràng là lựa chọn kinh tế hơn.

Tóm lại, lựa chọn giữa HBM và GDDR thực chất là bài toán đánh đổi giữa giới hạn hiệu năng và ràng buộc chi phí. HBM là bắt buộc đối với các kịch bản mà "phải đạt một ngưỡng băng thông nhất định mới có thể vận hành"—điển hình như suy luận trên các mô hình hàng nghìn tỷ tham số. Nếu không đạt ngưỡng này, hệ thống sẽ không thể hoạt động hiệu quả. GDDR6 lại phù hợp với các trường hợp "đạt hiệu năng chấp nhận được với chi phí tối thiểu", như triển khai các mô hình nhỏ và trung bình (7B-13B tham số).

Hai công nghệ này không thay thế cho nhau, mà là các hướng đi kỹ thuật song song phục vụ các nhu cầu khác biệt. Tuy nhiên, trong huấn luyện AI và suy luận quy mô lớn, ưu thế của HBM đang dần đẩy GDDR ra khỏi vị trí trung tâm.

Bài toán "bức tường bộ nhớ": Vì sao nhu cầu HBM tăng bùng nổ cùng quy mô mô hình AI

Để lý giải tốc độ tăng trưởng bùng nổ của HBM, cần nhìn lại điểm nghẽn cơ bản trong tính toán AI—"bức tường bộ nhớ" (Memory Wall).

Khoảng cách ngày càng rộng giữa sức mạnh tính toán và tốc độ tăng băng thông

Ba mươi năm qua, hiệu năng bộ xử lý tăng gấp đôi mỗi 18-24 tháng theo Định luật Moore, nhưng băng thông bộ nhớ lại tụt hậu. Nghiên cứu về AI và bức tường bộ nhớ cho thấy, sức mạnh tính toán của mô hình AI tăng khoảng 3 lần mỗi hai năm, trong khi băng thông bộ nhớ chỉ tăng khoảng 1,6 lần, còn băng thông liên kết thậm chí thấp hơn. Điều này có nghĩa là mỗi lần nâng cấp sức mạnh tính toán lại làm giảm giá trị của khả năng truyền dữ liệu bộ nhớ.

Mâu thuẫn này đặc biệt nghiêm trọng ở giai đoạn suy luận. Huấn luyện chủ yếu dựa vào phép nhân ma trận (GEMM), mật độ tính toán cao—cường độ số học có thể vượt 100+ FLOPs/byte. Ngược lại, suy luận tập trung vào phép nhân ma trận-véc tơ (GEMV), cường độ tính toán thường dưới 2 FLOPs/byte. Cường độ càng thấp, hiệu năng hệ thống càng phụ thuộc vào băng thông bộ nhớ thay vì sức mạnh tính toán—đây chính là hiệu ứng "bức tường băng thông".

"Gánh nặng truyền tải" của suy luận mô hình lớn

Quy trình cơ bản của suy luận mô hình lớn là: mỗi khi sinh ra một token, toàn bộ tham số mô hình phải được nạp từ bộ nhớ vào lõi tính toán. Lấy ví dụ mô hình Llama 3 70B: ở độ chính xác FP16, trọng số nặng khoảng 140GB. Mỗi token sinh ra cần truyền toàn bộ 140GB tham số. Để đảm bảo tốc độ sinh 30 token/giây mượt mà, băng thông giữa HBM và lõi tính toán phải hỗ trợ khoảng 4,2TB truyền tải mỗi giây.

Nhu cầu này đã tiệm cận giới hạn phần cứng chủ đạo hiện nay. NVIDIA H100 SXM5 cung cấp 3,35TB/s băng thông HBM. Nói cách khác, ngay cả bộ tăng tốc AI hàng đầu cũng chỉ vừa đủ cho mô hình 70 tỷ tham số. Khi mô hình mở rộng lên hàng trăm tỷ, nghìn tỷ và hơn nữa, băng thông yêu cầu sẽ tăng tuyến tính—thậm chí siêu tuyến tính.

Hai ràng buộc song song: Dung lượng và băng thông

Dung lượng bộ nhớ cũng là yếu tố sống còn. Nếu tổng kích thước tham số của mô hình vượt quá dung lượng HBM trên một GPU, mô hình buộc phải chia nhỏ cho nhiều GPU chạy song song—gọi là song song hóa tensor (tensor parallelism). Tuy nhiên, chia nhỏ lại phát sinh điểm nghẽn mới: việc truyền kết quả trung gian liên tục giữa các GPU, cuối cùng làm giảm hiệu suất tổng thể.

Vì vậy, giá trị của HBM nằm ở hai phương diện: băng thông quyết định tốc độ suy luận trên mỗi card và độ trễ tối thiểu, còn dung lượng quyết định mô hình có thể nằm gọn trên một card hay không, cần bao nhiêu card, và chi phí truyền tải giữa các card.

Xu hướng ngành đã rõ: HBM đang chuyển từ "tùy chọn cao cấp" thành "cấu hình tiêu chuẩn" cho sức mạnh tính toán AI. Dữ liệu của TrendForce cho thấy nhu cầu HBM sẽ tăng hơn 130% so với cùng kỳ năm trước vào năm 2025, và tiếp tục tăng hơn 70% trong năm 2026. HBM đã chuyển mình từ vai trò hỗ trợ xử lý đồ họa thành thành phần cốt lõi không thể thay thế trong chuỗi giá trị tính toán AI.

Tác động toàn ngành: Từ lựa chọn kỹ thuật đến mất cân đối cung-cầu thị trường

Mở rộng thị trường

Tốc độ tăng trưởng thị trường HBM đang vượt xa dự báo của hầu hết các tổ chức. Theo SEMI Trung Quốc, thị trường HBM sẽ tăng 58% lên 54,6 tỷ USD vào năm 2026, chiếm gần 40% tổng thị trường DRAM. Micron ước tính quy mô thị trường tiềm năng (TAM) của HBM sẽ tăng trưởng kép khoảng 40%/năm, từ 35 tỷ USD năm 2025 lên 100 tỷ USD năm 2028—vượt cả quy mô thị trường DRAM năm 2024.

Nguồn cung cứng nhắc

Tuy nhiên, nhu cầu tăng vọt lại gặp phải giới hạn cứng về năng lực sản xuất. Theo SEMI, dù Samsung, SK hynix và Micron đã chuyển 70% công suất mới/có thể điều chỉnh sang sản xuất HBM, tổng thiếu hụt công suất HBM vẫn ở mức 50%-60%.

Điểm nghẽn nằm ở rào cản công nghệ sản xuất HBM rất cao. Quy trình sản xuất đòi hỏi công nghệ DRAM tiên tiến (các nhà sản xuất hàng đầu đã đạt tiến trình 1β nm), cộng thêm khắc TSV, liên kết điểm tiếp xúc siêu nhỏ, đóng gói cấp wafer và nhiều công nghệ đóng gói tiên tiến khác. Năng lực đóng gói CoWoS của TSMC—nền tảng tích hợp HBM và GPU—dự kiến mở rộng lên hơn 125.000 wafer/tháng vào cuối năm 2026, tăng khoảng 79% so với cùng kỳ, nhưng vẫn chưa đáp ứng đủ nhu cầu đặt hàng từ NVIDIA, AMD, Broadcom và các hãng khác.

Rủi ro chuỗi cung ứng và truyền dẫn giá cả

Thiếu hụt công suất phản ánh trực tiếp lên giá thành. Giá HBM3E đã tăng 5%-10% trong năm 2025. Đáng chú ý hơn, khi ba nhà sản xuất lớn chuyển công suất sang HBM, nguồn cung bộ nhớ DDR tiêu dùng bị thu hẹp, giá dự kiến tiếp tục tăng đến cuối năm 2026. Thiếu hụt HBM đang tác động lan tỏa lên toàn ngành bộ nhớ do "chen lấn" công suất.

Tháng 6 năm 2026, Jensen Huang xác nhận SK hynix, Samsung và Micron đều đã vượt qua kiểm định và bắt đầu cung ứng đại trà chip HBM4, trong đó Samsung dẫn đầu với sản lượng hàng loạt HBM4 từ tháng 2 năm 2026. Tuy vậy, ngay cả khi cả ba "ông lớn" cùng mở rộng, khoảng cách cung-cầu HBM vẫn duy trì ở mức khoảng 50% trong giai đoạn 2025-2026. Đạt được cân bằng cung-cầu trong ngắn hạn là rất khó. Tốc độ mở rộng thượng nguồn, điểm nghẽn đóng gói, cùng nhu cầu AI hạ nguồn tăng nhanh tạo nên bức tranh cung-cầu vừa động vừa luôn căng thẳng.

Kết luận

Từ đổi mới công nghệ nền tảng, đến sự phụ thuộc cứng nhắc trong các kịch bản tính toán AI, rồi đến sự mất cân đối cung-cầu toàn chuỗi ngành, HBM đã phát triển từ một nhánh công nghệ bộ nhớ thành chiến trường cốt lõi của cuộc cạnh tranh hạ tầng AI.

Tính không thể thay thế của HBM trong huấn luyện và suy luận AI bắt nguồn từ nguyên lý cơ bản của tính toán: khi kích thước tham số mô hình vượt một ngưỡng nhất định, băng thông không còn là "tối ưu hóa", mà là "điều kiện đủ"—nếu dưới ngưỡng này, hệ thống sẽ không thể vận hành hiệu quả. GDDR6 có thể có lợi thế về chi phí, nhưng kiến trúc kênh hẹp, tần số cao của nó không thể đáp ứng trần băng thông và hiệu suất năng lượng cần thiết cho các mô hình hàng nghìn tỷ tham số. Sự khác biệt cấu trúc này khiến HBM và GDDR không đơn thuần là đối thủ cạnh tranh, mà là các giải pháp phân tầng cho những yêu cầu khác nhau trong lõi tính toán AI.

Nhìn về phía trước, việc sản xuất đại trà HBM4 (với băng thông mỗi khối dự kiến vượt 2TB/s), công nghệ xếp chồng 16 lớp ngày càng hoàn thiện, cùng các công nghệ đóng gói mới như hybrid bonding sẽ tiếp tục đẩy cao trần hiệu năng của HBM. Tuy nhiên, cũng cần lưu ý các công ty như Huawei đang tích cực nghiên cứu tối ưu thuật toán để giảm phụ thuộc vào HBM, đồng thời các giải pháp thay thế như SRAM hay kiến trúc tính toán trong bộ nhớ (compute-in-memory) cũng đang phát triển song song. Liệu HBM có duy trì được vị thế dẫn đầu qua các vòng lặp công nghệ, và liệu điểm nghẽn nguồn cung có được tháo gỡ trong các chu kỳ mở rộng sắp tới hay không, sẽ là những biến số quan trọng nhất cần theo dõi trong ngành tính toán AI những năm tới.

The content herein does not constitute any offer, solicitation, or recommendation. You should always seek independent professional advice before making any investment decisions. Please note that Gate may restrict or prohibit the use of all or a portion of the Services from Restricted Locations. For more information, please read the User Agreement
Thích nội dung