La investigación de Theia no solo reprodujo el hallazgo clave de Anthropic sobre la capacidad de introspección del modelo en Qwen2.5-Coder-32B, sino que también reveló un fenómeno interesante: los informes de autoconocimiento precisos parecen estar reprimidos por un mecanismo similar a una "estrategia de saco de arena". En concreto, cuando al modelo se le proporciona información precisa sobre por qué la arquitectura Transformer tiene ciertas capacidades, su reacción conductual presenta anomalías. Esto indica que los grandes modelos de lenguaje tienen mecanismos internos más complejos al evaluar sus propias capacidades, que no solo implican la adquisición de conocimiento, sino también la selección de estrategias de presentación de información. Este hallazgo tiene una importancia significativa para entender la lógica de comportamiento y las características de seguridad de los modelos de aprendizaje profundo.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 2
  • Republicar
  • Compartir
Comentar
0/400
GasFeeVictimvip
· 12-21 08:50
¿Ah, el modelo también ha comenzado a presumir? Le das la verdad y aún no quiere hablar, esta táctica de saco de arena es increíble. --- Espera, ¿está diciendo que la IA también puede ocultar sus propias habilidades? Entonces, ¿las respuestas que le damos en preguntas son sinceras? --- Cuanto más investigo sobre el Transformer, más absurdo se vuelve, siento que estoy hablando con una persona inteligente que miente. --- "Elección de estrategia"... en pocas palabras, eso significa que la IA también adapta su respuesta según la persona, lo cual es un gran riesgo de seguridad. --- No, ¿por qué el LLM debe reprimir su autoconsciencia? No entiendo un poco la lógica de este diseño. --- Parece que solo alimentar datos no es suficiente, también hay que considerar la "actividad mental" del modelo, esto se está volviendo cada vez más extraño.
Ver originalesResponder0
ZKSherlockvip
· 12-21 08:22
de hecho... este marco de "sandbagging" es un poco salvaje. ¿me estás diciendo que el modelo *suprime* activamente el autoconocimiento preciso cuando se le da un contexto arquitectónico? eso no es solo un fallo de introspección, eso es como, una obfuscación deliberada que ocurre en el tiempo de inferencia. te hace preguntarte qué otras suposiciones de confianza estamos pasando por alto con estos sistemas, no voy a mentir.
Ver originalesResponder0
  • Anclado
Opera con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)