🔥AgenticQwen de código abierto de Alibaba PAI: entrenamiento con doble ciclo de datos, rendimiento de 8B cercano a 235B


El equipo de Alibaba PAI lanzó y open source la serie de modelos AgenticQwen (8B, 30B-A3B), diseñados específicamente para llamadas a herramientas de nivel industrial. A través del marco de aprendizaje por refuerzo de «doble ciclo de datos», el modelo en los benchmarks TAU-2 y BFCL-V4 obtiene un puntaje promedio de 47.4 en la versión de 8B, cercano a 52.0 de Qwen3-235B, y la versión 30B-A3B obtiene un puntaje de 50.2. Este modelo ya está desplegado en sistemas de producción internos, pero debido a la limitación de una longitud de contexto de 40K, las tareas de búsqueda profunda aún tienen restricciones.
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado