Messages de BlockBeats, le 30 mars : Alibaba Qianwen annonce le lancement du modèle de langage multimodal complet Qwen3.5-Omni. La série Qwen3.5-Omni comprend trois tailles — Plus, Flash et Light — dans des versions Instruct, prend en charge un contexte long de 256k, et le modèle supporte une entrée audio de plus de 10 heures ainsi qu’une entrée audio-vidéo 720P (1FPS) de plus de 400 secondes. Le modèle est pré-entraîné nativement en multimodalité sur de grandes quantités de données textuelles, visuelles et audio-vidéo dépassant 100 millions d’heures, et il fait preuve de capacités remarquables de perception et de génération multimodales. Par rapport à Qwen3-Omni, les capacités multilingues de Qwen3.5-Omni sont considérablement renforcées : il peut prendre en charge la reconnaissance vocale de 113 langues et dialectes, ainsi que la génération vocale de 36 langues et dialectes. (Jin10)