في أعقاب إطلاق نموذج توليد الصور MAI-Image-2 في 18 مارس، أصدرت Microsoft مجددًا في 2 أبريل نموذجين مرتبطين بالصوت هما MAI-Transcribe-1 وMAI-Voice-1، لتستكمل قدرات الصورة والصوت على نحو متتابع خلال فترة قصيرة، ويُنظر إلى ذلك بوصفه دفعًا مهمًا لاستراتيجيتها في مجال الذكاء الاصطناعي متعدد الوسائط. لا تُعد هذه النماذج الثلاثة تحديثات متفرقة، بل هي أحجية كاملة متكاملة تمتد من توليد الصور البصري، وفهم الصوت، وحتى إخراج الصوت، ما يبين أن مايكروسوفت تحاول بناء قدرات أساسية للذكاء الاصطناعي يمكن دمجها مباشرة داخل سير العمل الخاص بالشركات.
MAI-Image-2 من Microsoft يستهدف توليد الصور للاستخدام التجاري
في 18 مارس، أطلقت Microsoft أولاً MAI-Image-2، ومن الواضح أن التركيز منصب على “قابلية الاستخدام التجاري” بدلًا من كونه مجرد توليد إبداعي. وبالمقارنة مع نماذج الصور السابقة التي كانت تميل إلى الترفيه أو الطابع التجريبي، تضع MAI-Image-2 مزيدًا من الاهتمام على ثبات المخرجات ودقة المعنى، إذ يمكنها الحفاظ على اتساق التكوين واكتمال التفاصيل حتى في ظل الأوامر المعقدة. وهذا يجعلها أكثر ملاءمة لاستخدامها في سيناريوهات مثل مواد التسويق للعلامات التجارية، والمرئيات الخاصة بالمنتجات، وتصميم الإعلانات.
بالنسبة للشركات، لا تتمثل قيمة هذه النماذج في ما إذا كانت قادرة على توليد صور مدهشة، بل في ما إذا كانت تستطيع مواصلة إنتاج محتوى “قابل للاستخدام وقابل للتحكم”، وهذه هي جوهر تعزيز MAI-Image-2.
Clipto 挫勒但!微軟推會議逐字稿模型 MAI-Transcribe-1
وعقب ذلك، في 2 أبريل، أطلقت MAI-Transcribe-1 التي تركز على قدرات فهم الصوت. يتميز هذا النموذج بتحديد واضح لدوره؛ إذ إنه يشكل طبقة تقنية أساسية لتحويل الصوت إلى بيانات نصية منظمة. يمكنه التعامل مع إدخال الصوت في الوقت الحقيقي، والحفاظ على دقة عالية للتعرف في سياقات لغات متعددة ولهجات مختلفة، كما يمتلك قدرًا من القدرة على مقاومة التشويش الناتج عن ضوضاء الخلفية.
هذه القدرات حاسمة بشكل خاص في بيئات الشركات؛ سواء كانت تفريغ اجتماعات حرفيًا، أو سجلات مكالمات خدمة العملاء، أو تنظيم محتوى وسائل الإعلام. تعتمد هذه السيناريوهات على جودة ثابتة لتحويل الصوت إلى نص. وبمجرد تحويل بيانات الصوت بدقة إلى نص، يمكن لأعمال البحث والملخص والتحليل اللاحقة أن تُؤتمت بالكامل، وهذا ما يجعل MAI-Transcribe-1 يلعب دورًا محوريًا ضمن البنية الكاملة للذكاء الاصطناعي.
باستخدام نموذج MAI-Voice-1 لخدمة العملاء وPodcast الصوتية
أما المقابل له MAI-Voice-1، فهو يتولى جانب إخراج الصوت. يتمحور تركيز هذا النموذج حول جعل الصوت الذي يولده الذكاء الاصطناعي أقرب إلى أداء الإنسان الحقيقي، بما يشمل الطبيعية في النبرة والإيقاع وتعبير المشاعر. وهذا يتيح استخدامه في سيناريوهات مثل مكالمات خدمة العملاء الصوتية، ومساعدي الذكاء الاصطناعي، وتعليق الفيديوهات، وحتى إنتاج podcast. وبالمقارنة مع التخليق الصوتي الأكثر “ميكانيكية” في الماضي، تضع MAI-Voice-1 تركيزًا أكبر على النبرة وأنماط قابلة للتعديل، بحيث لا يعود الصوت مجرد أداة لنقل المعلومات، بل يصبح واجهة تمتلك القدرة على التواصل والتعبير.
ملخص شامل لنماذج الذكاء الاصطناعي الثلاثة من Microsoft “الَنظر، السَّمع، القَول”
عند النظر إلى الثلاثة في سياق واحد، يمكن ملاحظة أن توجّه Microsoft ليس مجرد اختراق بنقطة واحدة، بل تسارع لبناء تكامل متعدد الوسائط. تتولى MAI-Image-2 توليد المحتوى البصري، وتقوم MAI-Transcribe-1 بفهم الصوت، بينما تكمّل MAI-Voice-1 توليد الصوت، لتشكل معًا بنية القدرات الأساسية لـ “الَنظر، السَّمع، القَول”.
وبمجرد دمج هذه القدرات مع نماذج اللغات القائمة وخدمات السحابة، يمكن أن تتشكل سير عمل كامل للذكاء الاصطناعي، من إدخال البيانات، إلى الفهم، إلى التوليد، وصولًا إلى الإخراج، وكل ذلك يتم ضمن منظومة واحدة.
الميزات
MAI-Transcribe-1
(تحويل الكلام إلى نص)
MAI-Voice-1 (تحويل النص إلى كلام) MAI-Image-2 (توليد صورة من نص) الوظائف الأساسية
تحويل الكلام إلى تفريغ حرفي
توليد صوت طبيعي وسلس مع إحساس بالمشاعر
توليد صور بناءً على وصف نصي
تاريخ النشر
2026 أبريل 2
2026 أبريل 2
2026 مارس 18
التقنيات والخصائص الرئيسية
مقاومة عالية للضوضاء، التعرف التلقائي على اللغة
التحكم في المشاعر، نسخ الصوت (Voice Prompting)
بنية نماذج الانتشار (Diffusion-based)، واقعيتها عالية
دعم اللغات
الإنجليزية، الصينية، الإسبانية وغيرها من 25 لغة
حالياً مقصور على الإنجليزية (ويجري توسيعه إلى 10+ أنواع)
يعتمد بشكل أساسي على إدخال النص (دون تحديد خاص لدعم لغات متعددة عبر دول)
طريقة التسعير
لكل ساعة من الصوت $0.36 دولار
لكل مليون كلمة $22.00 دولار
تختلف حسب منصة النشر (مثل MAI Playground)
قيود الإدخال/الإخراج
الإدخال: WAV, MP3, FLAC
الإدخال: نص صِرف أو SSML
الإخراج: أقصى حد 1024×1024 بكسل
ظهرت هذه المقالة الأولى عن:مايكروسوفت تطلق ثلاث نماذج ذكاء اصطناعي “الَنظر، السَّمع، القَول” تستهدف سير العمل الخاص بالشركات على مستوى تجاري للذكاء الاصطناعي في وقتها الأول على موقع 鏈新聞 ABMedia.