关于模型是否依赖文本Text数据

作者您好，真的非常值得学习的工作！
在拜读您论文时，我有几个疑问：
1. Phoneme Encoder的输入音素是基于文本Text获得的，请问在实际推理时，这个文本是怎么获取的，还是说需提供与语音对应的文本。
2. 在模型架构图中，Phoneme Encoder和Paralinguistic Encoder是标注为非流式的，那假设一段10s的语音，在流式推理时，这两个编码器是不是必须依照完整的10s语音来生成对应的Phoneme和Paralinguistic表征，不能做到逐个时间步的处理。
期待您的回复，感激不尽！