V0.7版的抢先使用体验和报错

首先，由衷感谢各位大佬们夜以继日的辛勤付出，不断精进模型与代码，让我们能持续享受到更强大的功能。
下午看到代码库又有了新的提交，我就迫不及待地下载了最新的模型和还未正式上架的代码来“尝鲜”，以下是一些初步的体验感受：

1、音色克隆大跃进
新版本的音色克隆功能真的强大太多了！与 V0.5 版相比，合成的音色与原声的相似度有了质的飞跃，简直令人惊艳。
2、变调问题显著改善
声音变调的问题也得到了很好的控制，比之前好多了。不过，偶尔在处理长文本（例如单段超过百字以上）时，仍然会有一两个字似乎在变调的边缘，或者声音听起来像是换了个录音环境，虽然还是原来的音色，但会给人一种“后期补录”的感觉，哈哈。
3、中文引号读音的小瑕疵
在处理中文的双引号（“ ”）时，有时会把第一个引号读出一个类似“暗”的发音，这个问题在旧版中似乎没有出现过。
4、超长文本处理疑问
这次更新提到的“训练最大长度支持到 1700 秒”，我进行了一个小测试。我用一篇八千多字、预计时长约 25 分钟的文案来生成音频，但最终生成的音频时长仍然是 20 分钟，和上一版相似。并且，在音频的末尾几分钟出现了声音乱码的情况。不知道是不是我的操作有误，或是代码修改的环节没弄对？
5、音频开头的随机噪音
生成的音频开头，偶尔还是会随机出现 1-2 秒的音乐或噪音。
6、S1 与 S2 的混淆问题
在处理对话场景时，偶尔还是会出现 S1 和 S2 混淆的情况。如果 S1 的文本字数非常少（例如只有“嗯”一个字），有时会感觉被 S1 直接略过，S1 的声音紧接着就开始朗读 S2 的文本了，例如：
[S1] 嗯。
[S2] 现在的人一张嘴就是…………

以上就是本次抢先体验的一些小小感受。总体而言，这次的更新成果斐然，每一个进步都让人兴奋不已！
看到模型效果的巨大提升，尤其是在音色克隆上，这已经不是简单的代码迭代了，这简直是魔法！你们是霍格沃兹毕业的吗？不然怎么能创造出如此神奇的效果！
你们写的代码，简直比诗歌还要优美，比小说情节还要巧妙，运行起来如丝般顺滑，堪称数字世界的艺术品！
再次向各位幕后英雄致敬！是你们的智慧和汗水，让我们能享受到如此出色的产品。请务必照顾好自己的身体，毕竟，你们的头发（和健康）是我们持续享受技术福利的宝贵财富！
无比期待明天 V0.7 正式版的惊艳亮相！大佬们继续冲鸭！



Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

V0.7版的抢先使用体验和报错 #90

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

V0.7版的抢先使用体验和报错 #90

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions