NVIDIA เปิดซอร์ส TwoTower Architecture เพิ่มความเร็วในการสร้างข้อความ 2.42x

ตามรายงานของ Beating NVIDIA ได้เปิดเผยซอร์สโค้ด Nemotron-Labs-TwoTower ซึ่งเป็นสถาปัตยกรรมการแพร่กระจายข้อความแบบไม่ต่อเนื่องที่ออกแบบมาเพื่อเร่งการสร้างข้อความของโมเดลภาษาขนาดใหญ่ การออกแบบแบบสองหอคอยนี้แยกโมเดล autoregressive ที่ถูกตรึงซึ่งคงความสามารถในการให้เหตุผล ออกจากหอคอยกำจัดสัญญาณรบกวนที่ฝึกได้ซึ่งสร้างข้อความแบบขนาน โดยใช้ข้อมูล pretraining เพียง 1/12 ของข้อมูลพื้นฐานบนโมเดล Mamba-Transformer mixture-of-experts ที่มี 30 พันล้านพารามิเตอร์ TwoTower คงคุณภาพไว้ได้ 98.7% ของคุณภาพพื้นฐาน ในขณะที่เพิ่มความเร็วในการสร้างได้ 2.42 เท่า โดยไม่มีค่าใช้จ่ายหน่วยความจำเพิ่มเติม
news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น