Cloudflare integra Kimi K2.5 y procesa 7 mil millones de tokens diarios, reduciendo costos de auditoría de seguridad en 77%

動區BlockTempo

La plataforma Workers AI de Cloudflare ha integrado oficialmente Kimi K2.5 de Moonshot AI, soportando contextos de 256K, llamadas a múltiples herramientas y entrada visual. El agente de auditoría de seguridad interno de Cloudflare procesa más de 7 mil millones de tokens al día, y tras el cambio, el costo se redujo un 77% en comparación con modelos comerciales de nivel medio.
(Resumen previo: Cursor entrenó modelos con Kimi K2.5 sin divulgarlo, registros de captura de paquetes, eliminación de recomendaciones y cambios de última hora por parte del equipo oficial)
(Información adicional: Cloudflare, que protege contra crawlers, lanzó la API de rastreo de sitios completa con un clic, soportando RAG, actualizaciones incrementales y entrenamiento de modelos)

Índice del artículo

Alternar

  • Agente de seguridad que procesa 7 mil millones de tokens al día
  • Tres mejoras lanzadas por Cloudflare
  • Motor de inferencia subyacente: Infire, no un marco predefinido

La plataforma Workers AI de Cloudflare ha hecho un gran avance silencioso, según su blog oficial, estableciendo a Kimi K2.5 de Moonshot AI como el modelo predeterminado para el SDK de Agents. Los ingenieros de Cloudflare también lo usan para auditorías de seguridad reales, ahorrando mucho dinero.

Kimi K2.5 es uno de los pocos modelos en código abierto que cumple con las especificaciones de vanguardia, soportando ventanas de contexto de 256K, llamadas a múltiples herramientas, entrada visual y salida estructurada. Para tareas de agentes que requieren razonamiento con textos largos, estos números son bastante útiles.

Agente de seguridad que procesa 7 mil millones de tokens al día

Los ingenieros de Cloudflare usan Kimi K2.5 como el principal agente de programación en el entorno OpenCode, además de desplegar un agente de revisión de código público llamado “Bonk”, integrado en pipelines automatizados.

Lo más destacado es en escenarios de auditoría de seguridad internos. Este agente procesa más de 7 mil millones de tokens diarios. Si se usara un modelo comercial estándar para la misma carga, el costo anual sería aproximadamente 2.4 millones de dólares. Con Kimi K2.5, el costo se redujo en un 77%, ahorrando casi 1.85 millones de dólares.

Este número no es publicidad, sino una cifra revelada directamente por los ingenieros en el blog oficial.

Tres mejoras lanzadas por Cloudflare

Solo cambiar el modelo no basta; Cloudflare también lanzó tres mejoras a nivel de plataforma, enfocadas en reducir costos y mejorar la eficiencia en escenarios de diálogos prolongados:

  • Descuento por caché de prefijos (Prefix Caching): Los tokens de entrada ya procesados en diálogos múltiples no se vuelven a cobrar, y los tokens en caché disfrutan de tarifas con descuento. Para tareas largas, esto ahorra una cantidad significativa de dinero.
  • Encabezado de afinidad de sesión (Session Affinity Header): Se añadió el cabecero x-session-affinity en las solicitudes, que enruta la misma sesión al mismo modelo, aumentando la tasa de acierto en caché. OpenCode y el SDK de Agents ya lo soportan de forma nativa.
  • API de inferencia en lotes asíncronos: Las solicitudes que superan los límites de velocidad síncrona pueden encolarse y ejecutarse de forma asíncrona, con pruebas internas que generalmente terminan en 5 minutos. Ideal para escaneo de código y tareas de agentes que no requieren respuestas inmediatas.

Motor de inferencia subyacente: Infire, no un marco predefinido

Cloudflare no utilizó frameworks de inferencia preexistentes, sino que desarrolló su propio motor de inferencia, Infire, con un núcleo personalizado. Usa paralelismo de datos, paralelismo de tensores y paralelismo de expertos, junto con una arquitectura de procesamiento de prefijos separada.

Actualmente, Kimi K2.5 es el primer caso de inferencia de modelos grandes en Workers AI, demostrando la ambición de Cloudflare en infraestructura de IA, compatible con plataformas web y a un costo muy bajo.

Ver originales
Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.
Comentar
0/400
Sin comentarios