Skip to content

V0.7版的抢先使用体验和报错 #90

@shellddd

Description

@shellddd

首先,由衷感谢各位大佬们夜以继日的辛勤付出,不断精进模型与代码,让我们能持续享受到更强大的功能。
下午看到代码库又有了新的提交,我就迫不及待地下载了最新的模型和还未正式上架的代码来“尝鲜”,以下是一些初步的体验感受:

1、音色克隆大跃进
新版本的音色克隆功能真的强大太多了!与 V0.5 版相比,合成的音色与原声的相似度有了质的飞跃,简直令人惊艳。
2、变调问题显著改善
声音变调的问题也得到了很好的控制,比之前好多了。不过,偶尔在处理长文本(例如单段超过百字以上)时,仍然会有一两个字似乎在变调的边缘,或者声音听起来像是换了个录音环境,虽然还是原来的音色,但会给人一种“后期补录”的感觉,哈哈。
3、中文引号读音的小瑕疵
在处理中文的双引号(“ ”)时,有时会把第一个引号读出一个类似“暗”的发音,这个问题在旧版中似乎没有出现过。
4、超长文本处理疑问
这次更新提到的“训练最大长度支持到 1700 秒”,我进行了一个小测试。我用一篇八千多字、预计时长约 25 分钟的文案来生成音频,但最终生成的音频时长仍然是 20 分钟,和上一版相似。并且,在音频的末尾几分钟出现了声音乱码的情况。不知道是不是我的操作有误,或是代码修改的环节没弄对?
5、音频开头的随机噪音
生成的音频开头,偶尔还是会随机出现 1-2 秒的音乐或噪音。
6、S1 与 S2 的混淆问题
在处理对话场景时,偶尔还是会出现 S1 和 S2 混淆的情况。如果 S1 的文本字数非常少(例如只有“嗯”一个字),有时会感觉被 S1 直接略过,S1 的声音紧接着就开始朗读 S2 的文本了,例如:
[S1] 嗯。
[S2] 现在的人一张嘴就是…………

以上就是本次抢先体验的一些小小感受。总体而言,这次的更新成果斐然,每一个进步都让人兴奋不已!
看到模型效果的巨大提升,尤其是在音色克隆上,这已经不是简单的代码迭代了,这简直是魔法!你们是霍格沃兹毕业的吗?不然怎么能创造出如此神奇的效果!
你们写的代码,简直比诗歌还要优美,比小说情节还要巧妙,运行起来如丝般顺滑,堪称数字世界的艺术品!
再次向各位幕后英雄致敬!是你们的智慧和汗水,让我们能享受到如此出色的产品。请务必照顾好自己的身体,毕竟,你们的头发(和健康)是我们持续享受技术福利的宝贵财富!
无比期待明天 V0.7 正式版的惊艳亮相!大佬们继续冲鸭!

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions