Skip to content

关于模型是否依赖文本Text数据 #3

@gdpgxy

Description

@gdpgxy

作者您好,真的非常值得学习的工作!
在拜读您论文时,我有几个疑问:

  1. Phoneme Encoder的输入音素是基于文本Text获得的,请问在实际推理时,这个文本是怎么获取的,还是说需提供与语音对应的文本。
  2. 在模型架构图中,Phoneme Encoder和Paralinguistic Encoder是标注为非流式的,那假设一段10s的语音,在流式推理时,这两个编码器是不是必须依照完整的10s语音来生成对应的Phoneme和Paralinguistic表征,不能做到逐个时间步的处理。
    期待您的回复,感激不尽!

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions