За даними Beating, компанія Google розгорнула архітектуру Multi-Token Prediction (MTP) на пристроях Pixel 9 та Pixel 10, що значно прискорило роботу моделі Gemini Nano v3 на пристрої. Нова архітектура збільшила швидкість інференції більш ніж на 50%, зберігши безпекове узгодження моделі та якість виведення.
Механізм нульового копіювання дозволяє голові передбачення безпосередньо повторно використовувати кешовані ознаки основної моделі через крос-увагу, усуваючи накладні витрати окремого кешу ключ-значення традиційних чернеткових моделей. Така конструкція зекономила приблизно 130 МБ пам’яті, одночасно зменшивши затримку запуску.
У реальних сценаріях, як-от підсумовування сповіщень і розумні відповіді, MTP досягла 55% збільшення рівня прийняття токенів, зменшивши частоту пробудження процесора та знизивши енергоспоживання системи.