Segundo o monitorizamento da 1M AI News, a Tongyi Lab lançou o modelo multimodal Qwen3.5-Omni, que suporta entradas de texto, imagem, áudio e vídeo, e consegue gerar legendas de vídeo e áudio com carimbos de tempo, de nível fino. A versão oficial afirma que o Qwen3.5-Omni-Plus obteve 215 SOTA em tarefas como análise de áudio e vídeo, raciocínio, conversação, tradução, etc., e que as capacidades relevantes superam o Gemini-3.1-Pro.
O incremento mais especial desta vez não é a tabela de rankings, mas sim a “capacidade de Audio-Visual Vibe Coding com emergência natural”. A Tongyi afirma que o modelo não foi submetido a treino específico e já consegue, com base em instruções de áudio e vídeo, gerar código executável diretamente. A equipa oficial também afirma que o modelo suporta contexto de 256K, reconhecimento de 113 línguas, consegue processar até 10 horas de áudio ou 1 hora de vídeo e tem suporte nativo para WebSearch e chamadas de função complexas.
O Qwen3.5-Omni dá continuidade à arquitetura de divisão de tarefas Thinker-Talker, com as duas partes também atualizadas para Hybrid-Attention MoE. A Tongyi já disponibilizou três tamanhos — Plus, Flash e Light — através do Alibaba Cloud Bailian e lançou a versão em tempo real Qwen3.5-Omni-Plus-Realtime.