文生牛B配音

影视、游戏、短剧、短视频人物配音，情感自然；语音合成大模型提供能力。 · 按台词字数计费 0.00 元/字（免费测试中）· 版本 2.5

未登录时请点击页面上方「试听生成效果」，可在弹窗内切换两则官方试听样本。登录后可选合成方式、填台词与生成自己的配音。预置标准模式选系统音色；「声音设计」用文本描述声线；「声音克隆」需上传参考音频。生成后点消息中「播放」在弹窗中看波形与试听。

0 / 200

风格控制

模型的指令遵循能力足以 cover 以下这些复杂控制（一条自然语言指令即可生效）：

多风格切换：同一角色在同一段语音内完成播报 → 低语 → 嘶吼的风格转场，过渡自然不突兀。
多情绪混合：支持「压抑的愤怒」、「带着哽咽的笑意」、「温柔但疲惫」、「狂躁中的温柔」等复合情绪，而非只能选单一情绪。
多粒度控制：从段落级（整体基调）→ 句子级（节奏）→ 词级（重音）→ 字粒度（某一个字的哽咽、拖音、气音），都可在指令中指定。

我们目前提供两种控制方法：自然语言控制 和 标签控制。两种方式的内容在 messages 中的放置位置不同：

自然语言控制 → 放在 role: user 的 content 中
音频标签控制 → 放在 role: assistant 的 content 中

自然语言控制

通过自然语言描述，让模型理解并生成对应风格的语音。内容放在 messages 中 role: user 的 content 字段。可以直接用一句话描述想要的语音风格。

示例

用轻快上扬的语调向领导报喜，语速稍快，带着查到成绩后压抑不住的激动与小骄傲，声音明亮有活力。
看着刚解决的难题成果忍不住得意忘形地惊呼，声音高亢明亮，语速偏快，语气中带着满满的自信与难以置信。
用明亮活泼的青少年嗓音，带着恶作剧得逞后的得意与戏谑，语速偏快且咬字轻巧，在强调赌注时语气微微上扬。

在此基础上，我们还支持一种更复杂、更精细的导演模式——像给演员写剧本一样，从角色、场景、指导三个维度全方位刻画人物与声线，模型能据此生成更富层次、更具演绎感的语音。

【角色】写清人物的身份、性格底色、外形气质与说话习惯。

【场景】交代此刻发生了什么、和谁说话、情绪处在什么位置。越具体越好——时间、地点、事件、对方反应都可以写进来。

【指导】像导演给演员下达演绎要领：语速、气息、停顿、重音、共鸣位置、音色质感、情绪起伏。可以写得细腻，模型会按这些「舞台提示」来演。

导演模式 · 示例

角色：百年门阀岑家的现任大当家。自出生便被过继给祖庙的守门老人抚养，被塑造成一尊完美无瑕、绝情断欲的家族图腾。常年深居简出，对人有着极强的阶级疏离感。

场景：在祠堂的阴影里，看着那个不顾一切冲破保安防线来找她、企图带她私奔的男人。她要用最冷硬的阶级壁垒，绞杀对方，也绞杀自己刚刚萌芽、却足以燎原的感情。

指导：
冰冷、慵懒却极具威压的低音御姐。发声通道非常松弛，没有任何剑拔弩张，却有着让人骨里生寒的压迫感。

语速与顿挫：极慢，每个字都像是在舌尖滚过才吐出来，带着上位者漫不经心的傲慢。句与句之间留下极长的、令人不安的空白。

气声与实声：大部分时间，她的声音没有明显的声调起伏，实音重且硬，像是一条平缓却冰冷的暗河。但一定要在某些尾音处（如「真心」），加入极其轻微的气音收束，透出一丝连她自己都没察觉到的疲惫与渴望。

咬字肌理：文白杂糅的用词带着旧时代的痕迹，唇齿音发得极轻但极清晰（如「冲撞」「廉价」），显得既清雅又锋利，刀刀见血。

导演模式适合对语音表演要求较高的场景，例如角色配音、影视级内容生成等。

音频标签控制

通过在文本中嵌入风格标签与音频标签，直接对语音进行精细控制。开头是整体风格标签，中间可以插入细粒度控制标签。所有标签控制内容放在 messages 中 role: assistant 的 content 字段。

在目标文本开头添加 (风格) 标签，即可指定语音的发音风格。支持同时设置多种风格，将多个风格名称置于同一对括号内，分隔符不限。

支持的括号格式：可使用半角 ()、全角（）或 []。

格式示例： (风格1 风格2)待合成内容

以下是一些推荐风格，同时也支持使用未在列表中的自定义风格。

注意事项

如需体验更佳的唱歌风格，必须在目标文本最开头添加 (唱歌) 标签，格式为：(唱歌)歌词。歌词建议采用中文，可获得更优合成效果。标签内标识支持以下取值，效果等效：唱歌、sing、singing

风格类型	风格示例
基础情绪	开心/悲伤/愤怒/恐惧/惊讶/兴奋/委屈/平静/冷漠
复合情绪	怅然/欣慰/无奈/愧疚/释然/嫉妒/厌倦/忐忑/动情
整体语调	温柔/高冷/活泼/严肃/慵懒/俏皮/深沉/干练/凌厉
音色定位	磁性/醇厚/清亮/空灵/稚嫩/苍老/甜美/沙哑/醇雅
人设腔调	夹子音/御姐音/正太音/大叔音/台湾腔
方言	东北话/四川话/河南话/粤语
角色扮演	孙悟空/林黛玉
唱歌	唱歌

样例

(怅然)这么多年过去了，再走过那条街，心里一下子空了一块。
(慵懒)再让我睡五分钟……就五分钟，真的，最后一次。
(磁性)夜已经深了，城市还在呼吸。我是今晚陪你的人，欢迎收听《午夜电台》。
(东北话)哎呀妈呀，这天儿也忒冷了吧！你说这风，嗖嗖的，跟刀子似的，割脸啊！
(粤语)呢个真係好正啊！食过一次就唔会忘记！
(唱歌)原谅我这一生不羁放纵爱自由，也会怕有一天会跌倒，Oh no。背弃了理想，谁人都可以，哪会怕有一天只你共我。

在此基础上，我们还支持在文本中任意位置插入 [音频标签]。通过 [音频标签] ，你可以对声音进行细粒度控制，精准调节语气、情绪和表达风格——无论是低声耳语、放声大笑，还是带点小情绪的小吐槽，也可以灵活插入呼吸声，停顿，咳嗽等，都能轻松实现。语速同样可以灵活调整，让每句话都有它该有的节奏。

风格类型	风格示例
语速与节奏	吸气/深呼吸/叹气/长叹一口气/喘息/屏息
情绪状态	紧张/害怕/激动/疲惫/委屈/撒娇/心虚/震惊/不耐烦
语音特征	颤抖/声音颤抖/变调/破音/鼻音/气声/沙哑
哭笑表达	笑/轻笑/大笑/冷笑/抽泣/呜咽/哽咽/嚎啕大哭

样例

（紧张，深呼吸）呼……冷静，冷静。不就是一个面试吗……（语速加快，碎碎念）自我介绍已经背了五十遍了，应该没问题的。加油，你可以的……（小声）哎呀，领带歪没歪？
（极其疲惫，有气无力）师傅……到地方了叫我一声……（长叹一口气）我先眯一会儿，这班加得我魂儿都要散了。
如果我当时……（沉默片刻）哪怕再坚持一秒钟，结果是不是就不一样了？（苦笑）呵，没如果了。
（寒冷导致的急促呼吸）呼——呼——这、这大兴安岭的雪……（咳嗽）简直能把人骨头冻透了……别、别停下，走，快走。
（提高音量喊话）大姐！这鱼新鲜着呢！早上刚捞上来的！哎！那个谁，别乱翻，压坏了你赔啊？！

使用预置音色进行语音合成

内置多种精品音色，无需额外配置即可直接使用。

支持通过在 user message 中传入自然语言指令来控制合成语音的风格
支持通过音频标签来控制合成语音的风格

预置音色列表

使用时，可在 {"audio": {"voice": "mimo_default"}} 中设置预置音色。

音色名	Voice ID	语言	性别
默认	default	中国默认为冰糖，其他默认为Mia	—
冰糖	冰糖	中文	女性
茉莉	茉莉	中文	女性
苏打	苏打	中文	男性
白桦	白桦	中文	男性
Mia	Mia	英文	女性
Chloe	Chloe	英文	女性
Milo	Milo	英文	男性
Dean	Dean	英文	男性