充值方式
- 在会员中心使用充值卡:点击「充值」按钮,输入卡号完成兑换。
- 充值记录与更多说明可在「充值管理」页面查看。
影视、游戏、短剧、短视频人物配音,情感自然;语音合成大模型提供能力。 · 按台词字数计费 0.00 元/字(免费测试中)· 版本 2.5
官方示例 · 正在加载波形…
音质与登录后本工具生成结果同链路;登录即可输入自己的台词与参数。
未登录时请点击页面上方「试听生成效果」,可在弹窗内切换两则官方试听样本。登录后可选合成方式、填台词与生成自己的配音。预置标准模式选系统音色;「声音设计」用文本描述声线;「声音克隆」需上传参考音频。生成后点消息中「播放」在弹窗中看波形与试听。
0 / 200
模型的指令遵循能力足以 cover 以下这些复杂控制(一条自然语言指令即可生效):
我们目前提供两种控制方法:自然语言控制 和 标签控制。两种方式的内容在 messages 中的放置位置不同:
role: user 的 content 中role: assistant 的 content 中通过自然语言描述,让模型理解并生成对应风格的语音。内容放在 messages 中 role: user 的 content 字段。可以直接用一句话描述想要的语音风格。
在此基础上,我们还支持一种更复杂、更精细的导演模式——像给演员写剧本一样,从角色、场景、指导三个维度全方位刻画人物与声线,模型能据此生成更富层次、更具演绎感的语音。
【角色】写清人物的身份、性格底色、外形气质与说话习惯。
【场景】交代此刻发生了什么、和谁说话、情绪处在什么位置。越具体越好——时间、地点、事件、对方反应都可以写进来。
【指导】像导演给演员下达演绎要领:语速、气息、停顿、重音、共鸣位置、音色质感、情绪起伏。可以写得细腻,模型会按这些「舞台提示」来演。
角色:百年门阀岑家的现任大当家。自出生便被过继给祖庙的守门老人抚养,被塑造成一尊完美无瑕、绝情断欲的家族图腾。常年深居简出,对人有着极强的阶级疏离感。
场景:在祠堂的阴影里,看着那个不顾一切冲破保安防线来找她、企图带她私奔的男人。她要用最冷硬的阶级壁垒,绞杀对方,也绞杀自己刚刚萌芽、却足以燎原的感情。
指导:
冰冷、慵懒却极具威压的低音御姐。发声通道非常松弛,没有任何剑拔弩张,却有着让人骨里生寒的压迫感。
- 语速与顿挫:极慢,每个字都像是在舌尖滚过才吐出来,带着上位者漫不经心的傲慢。句与句之间留下极长的、令人不安的空白。
- 气声与实声:大部分时间,她的声音没有明显的声调起伏,实音重且硬,像是一条平缓却冰冷的暗河。但一定要在某些尾音处(如「真心」),加入极其轻微的气音收束,透出一丝连她自己都没察觉到的疲惫与渴望。
- 咬字肌理:文白杂糅的用词带着旧时代的痕迹,唇齿音发得极轻但极清晰(如「冲撞」「廉价」),显得既清雅又锋利,刀刀见血。
导演模式适合对语音表演要求较高的场景,例如角色配音、影视级内容生成等。
通过在文本中嵌入风格标签与音频标签,直接对语音进行精细控制。开头是整体风格标签,中间可以插入细粒度控制标签。所有标签控制内容放在 messages 中
role: assistant 的 content 字段。
在目标文本开头添加 (风格) 标签,即可指定语音的发音风格。支持同时设置多种风格,将多个风格名称置于同一对括号内,分隔符不限。
支持的括号格式:可使用半角 ()、全角 () 或 []。
格式示例: (风格1 风格2)待合成内容
以下是一些推荐风格,同时也支持使用未在列表中的自定义风格。
如需体验更佳的唱歌风格,必须在目标文本最开头添加 (唱歌) 标签,格式为:(唱歌)歌词。歌词 建议采用中文,可获得更优合成效果。标签内标识支持以下取值,效果等效:唱歌、sing、singing
| 风格类型 | 风格示例 |
|---|---|
| 基础情绪 | 开心/悲伤/愤怒/恐惧/惊讶/兴奋/委屈/平静/冷漠 |
| 复合情绪 | 怅然/欣慰/无奈/愧疚/释然/嫉妒/厌倦/忐忑/动情 |
| 整体语调 | 温柔/高冷/活泼/严肃/慵懒/俏皮/深沉/干练/凌厉 |
| 音色定位 | 磁性/醇厚/清亮/空灵/稚嫩/苍老/甜美/沙哑/醇雅 |
| 人设腔调 | 夹子音/御姐音/正太音/大叔音/台湾腔 |
| 方言 | 东北话/四川话/河南话/粤语 |
| 角色扮演 | 孙悟空/林黛玉 |
| 唱歌 | 唱歌 |
在此基础上,我们还支持在文本中任意位置插入 [音频标签]。通过 [音频标签] ,你可以对声音进行细粒度控制,精准调节语气、情绪和表达风格——无论是低声耳语、放声大笑,还是带点小情绪的小吐槽,也可以灵活插入呼吸声,停顿,咳嗽等,都能轻松实现。语速同样可以灵活调整,让每句话都有它该有的节奏。
| 风格类型 | 风格示例 |
|---|---|
| 语速与节奏 | 吸气/深呼吸/叹气/长叹一口气/喘息/屏息 |
| 情绪状态 | 紧张/害怕/激动/疲惫/委屈/撒娇/心虚/震惊/不耐烦 |
| 语音特征 | 颤抖/声音颤抖/变调/破音/鼻音/气声/沙哑 |
| 哭笑表达 | 笑/轻笑/大笑/冷笑/抽泣/呜咽/哽咽/嚎啕大哭 |
内置多种精品音色,无需额外配置即可直接使用。
使用时,可在 {"audio": {"voice": "mimo_default"}} 中设置预置音色。
| 音色名 | Voice ID | 语言 | 性别 |
|---|---|---|---|
| 默认 | default | 中国默认为冰糖,其他默认为Mia | — |
| 冰糖 | 冰糖 | 中文 | 女性 |
| 茉莉 | 茉莉 | 中文 | 女性 |
| 苏打 | 苏打 | 中文 | 男性 |
| 白桦 | 白桦 | 中文 | 男性 |
| Mia | Mia | 英文 | 女性 |
| Chloe | Chloe | 英文 | 女性 |
| Milo | Milo | 英文 | 男性 |
| Dean | Dean | 英文 | 男性 |
快捷预设(点击填入上方描述)
自定义音色:保存多段描述,便于切换;数据仅存于本机浏览器。
将请求浏览器使用麦克风。请在安静环境录制约 5~15 秒清晰人声(最长 90 秒),录音会转为 WAV 后提交,与「声音设计」无关。
预置标准模式用系统音色;「声音设计」仅文字描述;「声音克隆」需参考样本,二者不同。