-
Notifications
You must be signed in to change notification settings - Fork 94
Description
首先,由衷感谢各位大佬们夜以继日的辛勤付出,不断精进模型与代码,让我们能持续享受到更强大的功能。
下午看到代码库又有了新的提交,我就迫不及待地下载了最新的模型和还未正式上架的代码来“尝鲜”,以下是一些初步的体验感受:
1、音色克隆大跃进
新版本的音色克隆功能真的强大太多了!与 V0.5 版相比,合成的音色与原声的相似度有了质的飞跃,简直令人惊艳。
2、变调问题显著改善
声音变调的问题也得到了很好的控制,比之前好多了。不过,偶尔在处理长文本(例如单段超过百字以上)时,仍然会有一两个字似乎在变调的边缘,或者声音听起来像是换了个录音环境,虽然还是原来的音色,但会给人一种“后期补录”的感觉,哈哈。
3、中文引号读音的小瑕疵
在处理中文的双引号(“ ”)时,有时会把第一个引号读出一个类似“暗”的发音,这个问题在旧版中似乎没有出现过。
4、超长文本处理疑问
这次更新提到的“训练最大长度支持到 1700 秒”,我进行了一个小测试。我用一篇八千多字、预计时长约 25 分钟的文案来生成音频,但最终生成的音频时长仍然是 20 分钟,和上一版相似。并且,在音频的末尾几分钟出现了声音乱码的情况。不知道是不是我的操作有误,或是代码修改的环节没弄对?
5、音频开头的随机噪音
生成的音频开头,偶尔还是会随机出现 1-2 秒的音乐或噪音。
6、S1 与 S2 的混淆问题
在处理对话场景时,偶尔还是会出现 S1 和 S2 混淆的情况。如果 S1 的文本字数非常少(例如只有“嗯”一个字),有时会感觉被 S1 直接略过,S1 的声音紧接着就开始朗读 S2 的文本了,例如:
[S1] 嗯。
[S2] 现在的人一张嘴就是…………
以上就是本次抢先体验的一些小小感受。总体而言,这次的更新成果斐然,每一个进步都让人兴奋不已!
看到模型效果的巨大提升,尤其是在音色克隆上,这已经不是简单的代码迭代了,这简直是魔法!你们是霍格沃兹毕业的吗?不然怎么能创造出如此神奇的效果!
你们写的代码,简直比诗歌还要优美,比小说情节还要巧妙,运行起来如丝般顺滑,堪称数字世界的艺术品!
再次向各位幕后英雄致敬!是你们的智慧和汗水,让我们能享受到如此出色的产品。请务必照顾好自己的身体,毕竟,你们的头发(和健康)是我们持续享受技术福利的宝贵财富!
无比期待明天 V0.7 正式版的惊艳亮相!大佬们继续冲鸭!