10,000 USDT 悬赏,寻找Gate广场跟单金牌星探!🕵️♀️
挖掘顶级带单员,赢取高额跟单体验金!
立即参与:https://www.gate.com/campaigns/4624
🎁 三大活动,奖金叠满:
1️⃣ 慧眼识英:发帖推荐带单员,分享跟单体验,抽 100 位送 30 USDT!
2️⃣ 强力应援:晒出你的跟单截图,为大神打 Call,抽 120 位送 50 USDT!
3️⃣ 社交达人:同步至 X/Twitter,凭流量赢取 100 USDT!
📍 标签: #跟单金牌星探 #GateCopyTrading
⏰ 限时: 4/22 16:00 - 5/10 16:00 (UTC+8)
详情:https://www.gate.com/announcements/article/50848
谷歌DeepMind,发布'Gemini 3.1 Flash TTS'…可通过文本调整语气语速
谷歌的人工智能组织DeepMind公开了新的语音合成模型"Gemini 3.1 Flash TTS"。其核心在于不仅能比现有的机械语音更自然地说话,用户还能仅通过文本指令细致调整语气、速度和氛围。
通过文本指令控制语气·语调·速度
谷歌有限责任公司近期通过博客宣布推出了Gemini 3.1 Flash TTS。该模型在将聊天机器人响应转换为语音的过程中,能够反映"热情的"、“惊喜的”、"信息传达型"等指令词来改变语调和音色。
根据公开的演示视频,用户不仅能选择声音,还能调节语音的传达方式和氛围。如果说上一代TTS有些"像机器人",那么这一代模型则侧重于实现更接近人类的表达力。
支持从英语地区口音到播客形式
Gemini 3.1 Flash TTS还提供多种主要语言的地区口音。以英语为例,不仅可以选择美式"Valley"和"Southern"口音,还能选择英式"Brixton"、"RP"等多种变体。此外还包括"跨大西洋"等特殊口音选项。
谷歌还为该模型加入了"导演级控制"功能。用户可以更精细地调整说话风格和速度,并能利用播客对话、有声书旁白、语言导师、语音助手、健康指南、新闻主播、客户支持专员等形式模板。
特别值得一提的是,当用户设定场景和环境,甚至输入台词指导时,该模型被设计成能让角色进行多次对话的同时保持一致的说话风格。谷歌解释说,可以将完成的设置值导出为Gemini API代码,从而在多个项目和平台中重现相同的声音。
支持70多种语言…并应用水印
据谷歌介绍,Gemini 3.1 Flash TTS的目标是提供更自然的语音体验。支持语言超过70种,包括日语、印地语、德语等。
此外,所有输出内容都嵌入了SynthID水印。此举被视为旨在便于识别AI生成的语音内容,以应对未来可能出现的深度伪造或虚假信息传播的担忧。
盲测排名第二…开发者可立即使用
其性能也得到了一定程度的验证。在反映数千次盲测人类偏好的"Artificial Analysis TTS排行榜"上,Gemini 3.1 Flash TTS以1211分位列总榜第二。谷歌表示,这意味着它获得了比多个热门TTS模型更高的评价。
目前,开发者可以立即通过Gemini API和谷歌AI工作室使用该模型。企业客户可通过Vertex AI访问,普通用户则可以在谷歌Biz中试用该功能。
此次发布表明,生成式AI的竞争正从文本和图像迅速扩展到语音领域。特别是在企业客户支持、媒体制作、教育、数字内容制作市场对"自然的AI语音"需求日益增长的情况下,Gemini 3.1 Flash TTS很可能将进一步提升相关市场的竞争激烈程度。
TP AI 注意事项 使用基于TokenPost.ai的语言模型对文章进行了摘要。正文的主要内容可能被省略或与事实不符。