OpenAI ประกาศเปิดตัวโปรโตคอลเครือข่าย AI ซูเปอร์คอมพิวเตอร์รุ่นใหม่ล่าสุด MRC(Multipath Reliable Connection)และได้ปล่อยโค้ดโอเพนซอร์สผ่าน Open Compute Project(OCP)แล้ว เทคโนโลยีนี้พัฒนาโดย OpenAI ร่วมกับ AMD、Microsoft、NVIDIA、Intel、Broadcom และผู้ให้บริการรายอื่นๆ โดยมีเป้าหมายเพื่อแก้ปัญหาคอขวดในการถ่ายโอนข้อมูลระหว่าง GPU สำหรับคลัสเตอร์ฝึก AI ระดับที่ใหญ่ยิ่งมาก
คอขวดตัวจริงของการฝึก AI คือการสื่อสารระหว่าง GPU
OpenAI ระบุว่า เมื่อจำนวนผู้ใช้งาน ChatGPT เพิ่มขึ้นจนมากกว่า 9 อันดับล้านคนต่อสัปดาห์ AI ระบบกำลังค่อยๆ กลายเป็นบริการระดับโครงสร้างพื้นฐาน เพื่อรองรับความต้องการการฝึกและการประมวลผลของโมเดลยุคถัดไป OpenAI มองว่าไม่เพียงแต่ตัวโมเดลเท่านั้นที่ต้องพัฒนา แต่โครงสร้างเครือข่ายก็จำเป็นต้องได้รับการออกแบบใหม่ด้วย
ในบทความทางเทคนิค OpenAI ชี้ว่า ในการฝึกโมเดล AI ขนาดใหญ่ ขั้นตอนการฝึกครั้งหนึ่งอาจเกี่ยวข้องกับการแลกเปลี่ยนข้อมูลระหว่าง GPU นับเป็นล้านครั้ง หากการส่งถ่ายโอนแม้เพียงหนึ่งในนั้นมีความหน่วง อาจทำให้การซิงก์การฝึกรั้งหยุดทั้งหมด ส่งผลให้ GPU จำนวนมากต้องหยุดทำงาน
และเมื่อขนาดของ AI ซูเปอร์คอมพิวเตอร์ยิ่งใหญ่ขึ้น ปัญหาเครือข่ายคับคั่ง ความผิดพลาดของสวิตช์ ความหน่วงแกว่ง (jitter) จะยิ่งทวีความรุนแรงอย่างรวดเร็ว OpenAI มองว่า นี่คือหนึ่งในความท้าทายทางเทคนิคที่สำคัญที่สุดของแผนงานซูเปอร์คอมพิวเตอร์ Stargate
ในอดีต สถาปัตยกรรมเครือข่ายของดาต้าเซ็นเตอร์ส่วนใหญ่ใช้การส่งข้อมูลผ่านเส้นทางเดียว (single-path) แต่การเปลี่ยนแปลงใหญ่ที่สุดของ MRC คือการทำให้ข้อมูลชุดเดียวกันถูกกระจายและส่งผ่านเส้นทางจำนวนหลายร้อยเส้นพร้อมกัน
MRC คืออะไร?OpenAI:ทำให้เครือข่าย AI กลายเป็นการหลบสิ่งกีดขวางแบบอัตโนมัติ
จากคำอธิบายของ OpenAI และ AMD แก่นของ MRC คือ:
แยกข้อมูลออก แล้ววิ่งผ่านหลายเส้นทางพร้อมกัน
หลบความผิดปกติแบบอัตโนมัติในระดับไมโครวินาที
ลดความหน่วงที่เกิดจากเครือข่ายคับคั่ง
ทำให้ GPU ทำงานแบบซิงก์ต่อเนื่อง
AMD เปรียบเทียบว่า เครือข่าย AI แบบดั้งเดิมเหมือนทางด่วนที่วิ่งเส้นเดียว พอเกิดรถติดหรืออุบัติเหตุก็จะกระทบความคืบหน้าทั้งระบบ ขณะที่ MRC ก็เหมือนระบบขนส่งอัจฉริยะที่มีความสามารถเปลี่ยนเส้นทางได้ทันที AMD ถึงกับระบุว่า “คอขวดที่แท้จริงของการทำให้ AI ขยายขนาดไม่ได้อยู่ที่ GPU และ CPU แล้ว แต่อยู่ที่เครือข่าย”
ทำไม OpenAI ถึงต้องออกแบบโปรโตคอลเครือข่ายเอง?
สัญญาณครั้งนี้ของ OpenAI ชัดเจนมาก:การแข่งขันด้าน AI ไม่ใช่แค่การแข่งขันที่ตัวโมเดลเท่านั้น แต่เป็นการแข่งขันที่ “โครงสร้างพื้นฐานของซูเปอร์คอมพิวเตอร์” ทั้งชุด ในบทความ OpenAI กล่าวไว้ว่า ก่อนที่ Stargate จะเกิดขึ้น พวกเขากับพาร์ทเนอร์ได้ร่วมกันดูแลซูเปอร์คอมพิวเตอร์ AI รุ่นก่อนหน้ามาถึง 3 รุ่น ประสบการณ์เหล่านี้ทำให้ OpenAI สรุปได้ว่า หากต้องการใช้งานพลังการประมวลผลอย่างมีประสิทธิภาพภายใต้ขนาด Stargate ทั้งสแตก (stack) ต้องลดความซับซ้อนลงอย่างมาก ซึ่งรวมถึงชั้นเครือข่ายด้วย
กล่าวคือ ในการแข่งขันของ Frontier Model ในอนาคต ไม่ได้เป็นแค่ใครมีโมเดลที่แข็งแกร่งกว่า แต่เป็นใครที่ทำให้ GPU หลายหมื่นหรือแม้กระทั่งหลายล้านตัวทำงานแบบซิงก์กันได้อย่างมีประสิทธิภาพมากกว่า
เบื้องหลัง MRC คือ Stargate:แผนแมนฮัตตันของ OpenAI
พื้นฐานของ MRC จริงๆ แล้วอยู่ที่ Stargate LLC Stargate เป็นโครงการโครงสร้างพื้นฐาน AI ขนาดใหญ่ที่ OpenAI、SoftBank Group、Oracle Corporation และ MGX ร่วมผลักดัน โดยเริ่มต้นตั้งเป้าจะลงทุนโครงสร้างพื้นฐาน AI ในสหรัฐฯ สูงถึง 500 พันล้านดอลลาร์ OpenAI ระบุว่า ขณะนี้พวกเขาทำได้เกินเป้าหมายชั่วคราวระดับ 10GW แล้ว และในช่วง 90 วันที่ผ่านมาได้เพิ่มกำลังการผลิตโครงสร้างพื้นฐาน AI มากกว่า 3GW
ซูเปอร์คอมพิวเตอร์ Stargate ที่ตั้งอยู่ใน Abilene รัฐเท็กซัส เป็นหนึ่งในพื้นที่ใช้งานหลักของ MRC OpenAI ระบุว่า MRC ได้ถูกรวมเข้ากับอินเทอร์เฟซเครือข่าย 800Gb/s รุ่นล่าสุด และได้เดินระบบจริงในคลัสเตอร์ฝึกขนาดใหญ่
บทความนี้ที่ OpenAI เผยแพร่โปรโตคอลเครือข่ายซูเปอร์คอมพิวเตอร์ MRC!ร่วมมือกับ NVIDIA、AMD、ไมโครซอฟต์เพื่อสร้างโครงสร้างพื้นฐาน Stargate เผยแพร่ครั้งแรกที่ 鏈新聞 ABMedia
btc.bar.articles
Reid Hoffman: NFTs อาจกลับมาอีกครั้งเมื่อ AI Agents จำเป็นต้องใช้ความเชื่อถือด้านคริปโท
Scale AI ได้รับสัญญา $500M จากเพนตากอนสำหรับการประมวลผลข้อมูล AI
xAI ของ Elon Musk จะปรับแบรนด์เป็น SpaceXAI เนื่องจากสถานะบริษัทอิสระสิ้นสุดลง
IBM ขยายชุดซอฟต์แวร์ AI สำหรับองค์กรด้วยเครื่องมือใหม่แบบเอเจนต์ในงาน Think 2026
Hut 8 Shares พุ่ง 30% จากสัญญาเช่าศูนย์ข้อมูล AI มูลค่า 9.8 พันล้านดอลลาร์