Xiaomi เปิดตัว ControlFoley เฟรมเวิร์กวิดีโอและเสียงแบบโอเพนซอร์ส รองรับการควบคุมเสียงอย่างแม่นยำ

ตามรายงานของ Beating ทีม AI ของ Xiaomi ได้เผยแพร่และเปิดซอร์ส ControlFoley ซึ่งเป็นเฟรมเวิร์กสำหรับการสร้างวิดีโอและเสียงที่เปิดให้ใช้ โดยมอบผู้สร้างสรรค์สามารถควบคุมรูปแบบเสียงได้อย่างแม่นยำผ่านคำอธิบายข้อความหรือเสียงอ้างอิง ไม่เหมือนระบบพากย์เสียงด้วย AI แบบดั้งเดิมที่คาดเดาเสียงจากภาพเพียงอย่างเดียว ControlFoley ช่วยให้ผู้สร้างสามารถปรับเปลี่ยนลักษณะเสียงได้ เช่น เปลี่ยนเสียงเคาะประตูให้เป็นการกระแทกแบบโลหะ หรือใส่โทนกลองให้กับจังหวะที่ลูกเทนนิสกระทบ ขณะเดียวกันยังคงการซิงโครไนซ์ระหว่างเสียงและภาพไว้อย่างถูกต้อง เฟรมเวิร์กนี้ใช้ตัวเข้ารหัสเสียง-ภาพเชิงเวลา-เชิงพื้นที่ พร้อมกลยุทธ์แยกเวลาออกจากไทม์เบร (time-timbre) รายงานทางเทคนิค โค้ด น้ำหนักโมเดล และเดโมของโปรเจกต์พร้อมให้ใช้งานแล้วในขณะนี้
news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น