xAI 本周正式推出独立的 Grok 语音转文字(STT)与文字转语音(TTS)API,这套技术栈已在 Grok Voice、特斯拉车辆与 Starlink 客服系统中实际运行。STT 定价为批次每小时 0.10 美元、串流每小时 0.20 美元,支持 25 种以上语言。 (前情提要:Grok 4.3 beta 开放 Heavy 订阅用户!马斯克:真正旗舰版本初训 5 天后完成) (背景补充:Google 上线 Gemini 3.1 Flash TTS:音频标签让 AI 配音更生动、支持 70+ 语言,Google AI Studio 免费体验)
本文目录
切换
同一套让特斯拉车辆开口说话、让 Starlink 客服回应用户的语音技术,现在通过 API 对外开放了。xAI 17 日正式宣布推出独立的 Grok 语音转文字(STT)与文字转语音(TTS)API,让外部开发者得以直接调用这套已在 xAI 旗下产品中运作的语音基础设施。
根据官方说明,Grok STT API 提供两种接入模式:通过 REST API 进行批处理,以及通过 WebSocket API 进行低延迟实时串流。定价方面,批处理为每小时 0.10 美元、串流为每小时 0.20 美元,官方表示相较 ElevenLabs 和 Deepgram 等主流竞争对手,定价具有显著优势。
功能方面,Grok STT 支持 25 种以上语言,具备词级时间戳、说话者区分(speaker diarization),以及多声道音频和智能反向文字规范化。适合会议转录、法律与医疗记录、客服通话日志等需要高精确度的企业场景。
在实体识别基准测试中,Grok STT 展现出优势。在电话通话中识别姓名、账号、日期等关键实体时,Grok STT 的错误率为 5.0%,而 ElevenLabs 为 12.0%、Deepgram 为 13.5%、AssemblyAI 则高达 21.3%。
Grok TTS API 提供五种各具风格的语音选项:Ara(女声,温暖亲切)、Eve(女声,活泼积极)、Leo(男声,权威有力)、Rex(男声,自信清晰)、Sal(中性,流畅均衡)。
API 自动检测输入语言,原生支持 20 种以上语言,并通过 BCP-47 语言代码控制发音。
音频输出格式涵盖 MP3、WAV、PCM(Linear16)、G.711 μ-law 以及 G.711 A-law,后两者为电话系统常见的电话编解码格式,显示 xAI 对电信业整合的布局。
TTS API 的特色功能是“语音标签”,开发者可以在文字中内嵌指令,精细控制停顿、笑声、耳语、语调强调、语速与音高,让合成语音更贴近人类自然表达。定价为每百万字符 4.20 美元。
xAI 强调,两项 API 背后并非全新研发的技术,而是已在 Grok Voice、特斯拉车辆语音互动,以及 Starlink 客户支持系统中实际执行的相同基础设施。
这套基础设施首先在 2025 年底以 Grok Voice Agent API 的形式亮相,当时提供即时语音对话代理能力,并在 Big Bench Audio 基准测试中排名第一,首次音频响应时间低于 1 秒,约为最近竞争对手的 5 倍速度。
此次推出的 STT 和 TTS 独立端点,等于将这套整合式语音管道的个别元件拆分开放,让开发者可以依需求组合。
62.68万 热度
5881.89万 热度
106.02万 热度
4.88万 热度
1021.54万 热度
喜欢特斯拉声音?xAI 正式开放 Grok 语音 API,TTS 每百万字符 4.2 美元、识别率击败 ElevenLabs
xAI 本周正式推出独立的 Grok 语音转文字(STT)与文字转语音(TTS)API,这套技术栈已在 Grok Voice、特斯拉车辆与 Starlink 客服系统中实际运行。STT 定价为批次每小时 0.10 美元、串流每小时 0.20 美元,支持 25 种以上语言。
(前情提要:Grok 4.3 beta 开放 Heavy 订阅用户!马斯克:真正旗舰版本初训 5 天后完成)
(背景补充:Google 上线 Gemini 3.1 Flash TTS:音频标签让 AI 配音更生动、支持 70+ 语言,Google AI Studio 免费体验)
本文目录
切换
同一套让特斯拉车辆开口说话、让 Starlink 客服回应用户的语音技术,现在通过 API 对外开放了。xAI 17 日正式宣布推出独立的 Grok 语音转文字(STT)与文字转语音(TTS)API,让外部开发者得以直接调用这套已在 xAI 旗下产品中运作的语音基础设施。
STT:词级时间戳+说话者区分,批次转录每小时仅 0.1 美元
根据官方说明,Grok STT API 提供两种接入模式:通过 REST API 进行批处理,以及通过 WebSocket API 进行低延迟实时串流。定价方面,批处理为每小时 0.10 美元、串流为每小时 0.20 美元,官方表示相较 ElevenLabs 和 Deepgram 等主流竞争对手,定价具有显著优势。
功能方面,Grok STT 支持 25 种以上语言,具备词级时间戳、说话者区分(speaker diarization),以及多声道音频和智能反向文字规范化。适合会议转录、法律与医疗记录、客服通话日志等需要高精确度的企业场景。
在实体识别基准测试中,Grok STT 展现出优势。在电话通话中识别姓名、账号、日期等关键实体时,Grok STT 的错误率为 5.0%,而 ElevenLabs 为 12.0%、Deepgram 为 13.5%、AssemblyAI 则高达 21.3%。
TTS:5 种语音个性+语音标签,每百万字符 4.2 美元
Grok TTS API 提供五种各具风格的语音选项:Ara(女声,温暖亲切)、Eve(女声,活泼积极)、Leo(男声,权威有力)、Rex(男声,自信清晰)、Sal(中性,流畅均衡)。
API 自动检测输入语言,原生支持 20 种以上语言,并通过 BCP-47 语言代码控制发音。
音频输出格式涵盖 MP3、WAV、PCM(Linear16)、G.711 μ-law 以及 G.711 A-law,后两者为电话系统常见的电话编解码格式,显示 xAI 对电信业整合的布局。
TTS API 的特色功能是“语音标签”,开发者可以在文字中内嵌指令,精细控制停顿、笑声、耳语、语调强调、语速与音高,让合成语音更贴近人类自然表达。定价为每百万字符 4.20 美元。
同一技术栈已驱动特斯拉与 Starlink
xAI 强调,两项 API 背后并非全新研发的技术,而是已在 Grok Voice、特斯拉车辆语音互动,以及 Starlink 客户支持系统中实际执行的相同基础设施。
这套基础设施首先在 2025 年底以 Grok Voice Agent API 的形式亮相,当时提供即时语音对话代理能力,并在 Big Bench Audio 基准测试中排名第一,首次音频响应时间低于 1 秒,约为最近竞争对手的 5 倍速度。
此次推出的 STT 和 TTS 独立端点,等于将这套整合式语音管道的个别元件拆分开放,让开发者可以依需求组合。