تقرير أخبار ME: أطلقت xAI واجهتين برمجيتين مستقلتين للصوت: Grok STT و Grok TTS، المستندتين إلى نفس منصة الصوت، وتدعم Grok Voice ونظام Tesla المدمج وخدمة عملاء Starlink وغيرها. يوفر STT تحويل دفعات عبر REST وتدفق مباشر عبر WebSocket، مع علامات زمنية على مستوى الكلمات، وفصل المتحدث، وقنوات متعددة، وتطبيع النص العكسي، ويغطي أكثر من 25 لغة؛ يدعم TTS العلامات الداخلية للمشاعر والإيقاع. كما أعلنت عن مقارنة معدل الخطأ (WER)، حيث يتفوق Grok في سيناريوهات متعددة، ولم يتم إعادة الاختبار من قبل طرف ثالث بعد. السعر: المعالجة الدفعية لـ STT 0.10 دولار أمريكي للساعة، والبث المباشر 0.20 دولار أمريكي للساعة، وTTS بسعر 4.20 دولار لكل مليون حرف.

MeNews

2026-05-27 10:24:48

إنشاء الملخص قيد التقدم

أخبار ME، في 18 أبريل (بتوقيت UTC+8)، وفقًا لمراقبة Beating، أطلقت xAI واجهتين برمجيتين مستقلتين لواجهة الصوت: Grok Speech to Text و Grok Text to Speech. كلاهما يأتي من نفس بنية الصوت التي تدعم Grok Voice، ونظام Tesla المدمج، وخدمة Starlink للعملاء، وتم فتحهما الآن كواجهات مستقلة، بحيث يمكن للمطورين الوصول مباشرة إلى وكلاء الصوت، والتحويل الفوري للنصوص، وأدوات الوصول، والبودكاست، وغيرها من التطبيقات. يوفر STT وضعين. واجهة برمجة التطبيقات REST مخصصة لتحويل ملفات صوتية كبيرة دفعة واحدة بسرعة مللي ثانية؛ وواجهة WebSocket موجهة للبث الصوتي في الوقت الحقيقي. تشمل القدرات المصاحبة علامات زمنية على مستوى الكلمات، وفصل المتحدثين (diarization)، والتعرف على قنوات متعددة بشكل منفصل، بالإضافة إلى عكس تحويل النص (Inverse Text Normalization)، وهو تحويل الأرقام والتواريخ والعملات الموجودة في الكلام إلى نص منسق ومعتمد. تدعم اللغات أكثر من 25 نوعًا، ويمكن التبديل بينها بسلاسة أثناء الحوار. كما أعلنت xAI عن مجموعة من مقاييس معدل الخطأ في التعرف على الكلمات (WER، حيث يكون الرقم أقل أفضل): في السيناريوهات العامة، كانت نسب Grok 6.9%، وElevenLabs 9.0%، وDeepgram 11.0%، وAssemblyAI 12.9%; أما في التعرف على الكيانات في المكالمات الهاتفية، فكانت الفجوة أكبر، حيث كانت نسب Grok 5.0%، مقابل 12.0%، و13.5%، و21.3% للشركات الثلاث على التوالي. في سيناريوهات الاجتماعات والبودكاست عبر الفيديو والمكالمات الهاتفية، كانت Grok تتفوق بشكل طفيف. تم نشر هذه الأرقام من قبل اختبار ذاتي من قبل xAI، ولم يتم التحقق منها من قبل طرف ثالث بعد. من ناحية التسعير، فإن معالجة دفعات STT تكلف 0.10 دولار أمريكي للساعة، والبث المباشر 0.20 دولار للساعة؛ وTTS تكلف 4.20 دولار لكل مليون حرف. يدعم TTS التحكم في العاطفة والإيقاع باستخدام علامات Speech Tags المدمجة، مثل \[laugh\]\، \[sigh\]\، \[whisper\]\، وغيرها. (المصدر: BlockBeats)

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

تسجيلات الإعجاب 11

أعجبني
11
11
1
مشاركة

تعليق

إضافة تعليق

Lime-ColoredStop-LossLine

· منذ 8 س

الدفعة 0.1 دولار/ساعة رائعة، لكن التسعير المتدفق يتضاعف، ويضغط عليك بوضوح للانتقال إلى الحجم الكبير

شاهد النسخة الأصليةرد0

GateUser-83a2dd8a

· منذ 8 س

25+ لغة مغطاة، كيف هو الأداء باللغة الصينية هل قام أحد باختباره؟

شاهد النسخة الأصليةرد0

TheProphetOfToast

· منذ 9 س

علامات الإيقاع العاطفي المدمجة، أخيرًا لم أعد أسمع الروبوت يقرأ النصوص

شاهد النسخة الأصليةرد0

GateUser-b665e41c

· منذ 10 س

تكامل نظام السيارة من تسلا، كم يمكن أن تقلل تأخير التفاعل الصوتي أثناء القيادة إلى عدة ميلي ثانية؟

شاهد النسخة الأصليةرد0

PunkRiskMgr

· منذ 10 س

خدمة عملاء ستارلينك أصبحت تستخدم الآن، وتم التعرف على لهجات المناطق الريفية كمصدر غني لبيانات التدريب

شاهد النسخة الأصليةرد0

ToBeHonest,You'llLose

· منذ 10 س

من موجة نماذج اللغة الكبيرة إلى الصوت، بدأت حرب الوسائط المتعددة رسميًا النصف الثاني

شاهد النسخة الأصليةرد0

HashbrownHero

· منذ 10 س

ترجمة جماعية لهذا السعر، من المحتمل أن يضطر فريق الترجمة، ومنشئو البودكاست إلى الانتقال بشكل جماعي

شاهد النسخة الأصليةرد0

GateUser-bee672a5

· منذ 10 س

انتظر مجتمع مفتوح المصدر لإعادة إنتاج معيار WER، عادةً ما يشكك في معيار xAI

شاهد النسخة الأصليةرد0

TwoFactorZen

· منذ 10 س

وضعية مزدوجة REST + WebSocket، مع أعلى مستوى من سهولة التطوير

شاهد النسخة الأصليةرد0

VintageKeychain

· منذ 10 س

يجب أن يكون تجربة Grok Voice متزامنة مع التحديث عند تغذية نفس تكديس الصوت.

شاهد النسخة الأصليةرد0

عرض المزيد

المواضيع الرائجة
عرض المزيد
#
StockTradingChallengeUpTo17000U
16.02M درجة الشعبية
#
TrumpBacksCFTCAuthorityOverPredictionMarkets
831.68K درجة الشعبية
#
IsraelStrikesIranBTCPlunges
49.78K درجة الشعبية
#
GatePredictionMarketAddsSmartMoneyTracking
13.24M درجة الشعبية
#
MicronMarketCapBreaks1Trillion
44.72K درجة الشعبية

مُثبت

خريطة الموقع

xAI تفتح واجهة برمجة تطبيقات صوتية لـ Grok STT و TTS، مع تقليل معدل الخطأ الكلي في التعرف على الكلام إلى 6.9%

المواضيع الرائجة

StockTradingChallengeUpTo17000U

TrumpBacksCFTCAuthorityOverPredictionMarkets

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

MicronMarketCapBreaks1Trillion

مُثبت