NVIDIA та MIT випускають фреймворк Lightning OPD для покращення ефективності дистиляції моделей у 4 рази та усунення проблем із пам’яттю GPU

За повідомленнями, дослідники NVIDIA та MIT випустили Lightning OPD (Offline On-Policy Distillation) — нову посттренувальну методику для великих мовних моделей, яка усуває потребу тримати модель-вчителя запущеною під час навчання. Завдяки попередньому обчисленню лог-імовірностей моделі-вчителя офлайн фреймворк підвищує ефективність навчання у 4 рази, одночасно звільняючи всі ресурси GPU для тренування моделі-студента.

Під час тестування на 8 GPU NVIDIA H100 Lightning OPD успішно дистилювала Qwen3-30B-A3B-Base (MoE-модель із 30 мільярдами параметрів) і досягла 71,0 на бенчмарку AIME 2024, тоді як стандартна OPD на тій самій апаратній платформі вичерпала пам’ять. Для меншої моделі Qwen3-8B фреймворк вимагав лише 30 GPU-годин, щоб досягти 69,9 бала.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Пов'язані статті

TT Chain інтегрує систему безпеки AegisAI для захисту RWA 11 травня

Згідно з оголошенням TT Chain від 11 травня, мережа L2 блокчейну інтегрувала AI-інфраструктуру безпеки AegisAI, керовану ШІ, у свою екосистему реальних активів. Співпраця підвищує захист токенізованих транзакцій активів і кросчейн-операцій завдяки розширеному виявленню загроз та можливостям аудиту смартконтрактів. Автономні AI-агенти AegisAI виявляють фішингові атаки, запобігають спробам несанкціонованого доступу та в режимі реального часу ідентифікують уразливості в смартконтрактах. TT Chain за

GateNews5хв. тому

AI-стартап Wispr обговорює раунд фінансування за оцінкою $2B станом на 12 травня

За повідомленням PANews, стартап зі штучного інтелекту Wispr проводить переговори про залучення фінансування 12 травня з оцінкою в 2 мільярди доларів.

GateNews11хв. тому

Сем Альтман сьогодні дасть свідчення в позові Маска проти OpenAI $38M

За даними BlockBeats, Сем Альтман має дати свідчення сьогодні (12 травня) у федеральному суді в Окленді, штат Каліфорнія, у справі позову Ілона Маска проти OpenAI. Альтман виступить після того, як голова ради директорів OpenAI Брет Тейлор завершить свої свідчення. Маск подав позов у 2024 році, стверджуючи, що OpenAI, Альтман і президент Грег Брокман порушили первинну неприбуткову та публічну місію компанії. Маск заявляє, що його приблизно $38 мільйонів донатів були використані для несанкціонован

GateNews37хв. тому

Depthfirst виявляє критичні вразливості в інтернеті за витрат у десяту частину бюджету Anthropic «Mythos»

За даними BlockBeats, 12 травня стартап у сфері кібербезпеки на основі ШІ Depthfirst оголосив, що його власнорозроблена модель виявлення вразливостей на основі ШІ знайшла кілька критичних проблем безпеки, яких Mythos від Anthropic не помітив, стверджуючи, що загальні витрати становили лише одну десяту від витрат останнього. CEO Depthfirst Qasim Mithani заявив, що компанія може «завершити роботу за $1,000, яку Mythos мав би виконувати за $10,000», оптимізувавши архітектуру моделі для продуктивнос

GateNews57хв. тому

Cerebras цього тижня проводитиме IPO за оцінкою в 55 мільярдів доларів, надаючи OpenAI потенційний пакет акцій на 11%

За даними Odaily, виробник чипів для штучного інтелекту Cerebras вийде на біржу цього тижня з оцінкою IPO на суму 55 мільярдів доларів. Інвестиційне зобов’язання OpenAI на 200 мільярдів доларів може дати йому частку в 11% у компанії.

GateNews1год тому

Cerebras виходить на біржу цього тижня за оцінки в 5,5 мільярда доларів; частка OpenAI у 11% може принести понад 5 мільярдів доларів

За даними The Information, виробник AI-чипів Cerebras вийде на біржу цього тижня з оцінкою IPO у 5,5 мільярда доларів. Зобов’язання OpenAI інвестувати 20 мільярдів доларів може дати їй 11% частки в компанії, потенційно забезпечивши понад 5 мільярдів доларів у вигляді виручки.

GateNews1год тому
Прокоментувати
0/400
Немає коментарів