作者您好,真的非常值得学习的工作!
在拜读您论文时,我有几个疑问:
- Phoneme Encoder的输入音素是基于文本Text获得的,请问在实际推理时,这个文本是怎么获取的,还是说需提供与语音对应的文本。
- 在模型架构图中,Phoneme Encoder和Paralinguistic Encoder是标注为非流式的,那假设一段10s的语音,在流式推理时,这两个编码器是不是必须依照完整的10s语音来生成对应的Phoneme和Paralinguistic表征,不能做到逐个时间步的处理。
期待您的回复,感激不尽!
作者您好,真的非常值得学习的工作!
在拜读您论文时,我有几个疑问:
期待您的回复,感激不尽!