Нещодавно звернув увагу на дослідження безпеки з використанням отпечатків моделі LLM і виявив цікаве явище.
Ми зазвичай вважаємо, що деякі рішення для ідентифікації ознак LLM досить надійні, але в реальних умовах протидії ситуація значно складніша. Це дослідження використовує дуже реалістичну гіпотезу — припускаючи, що хостингова сторона має злісні наміри. У сценарії розгортання відкритих моделей зловмисний сервер цілком може вжити цілеспрямованих заходів.
Ключ у чому? Атакуючому не потрібно руйнувати функціональність самої моделі, достатньо тихо видалити або змінити ті ознаки відбитків, що використовуються для ідентифікації.
Дослідницька команда протестувала 10 основних схем розпізнавання відбитків пальців, і результати були досить значними — під час цілеспрямованих атак 9 з цих схем були успішно зламані. Це показує, що більшість існуючих моделей технології відбитків пальців мають стабільність значно нижчу, ніж очікувалося, коли стикаються з реальними загрозами. Це дійсно заслуговує на переосмислення поточних стратегій захисту для розробників, які прагнуть до відстеження моделей і перевірки особи.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Нещодавно звернув увагу на дослідження безпеки з використанням отпечатків моделі LLM і виявив цікаве явище.
Ми зазвичай вважаємо, що деякі рішення для ідентифікації ознак LLM досить надійні, але в реальних умовах протидії ситуація значно складніша. Це дослідження використовує дуже реалістичну гіпотезу — припускаючи, що хостингова сторона має злісні наміри. У сценарії розгортання відкритих моделей зловмисний сервер цілком може вжити цілеспрямованих заходів.
Ключ у чому? Атакуючому не потрібно руйнувати функціональність самої моделі, достатньо тихо видалити або змінити ті ознаки відбитків, що використовуються для ідентифікації.
Дослідницька команда протестувала 10 основних схем розпізнавання відбитків пальців, і результати були досить значними — під час цілеспрямованих атак 9 з цих схем були успішно зламані. Це показує, що більшість існуючих моделей технології відбитків пальців мають стабільність значно нижчу, ніж очікувалося, коли стикаються з реальними загрозами. Це дійсно заслуговує на переосмислення поточних стратегій захисту для розробників, які прагнуть до відстеження моделей і перевірки особи.