语音聊天输出什么意思
输出是一串Subword,和NLP类似,目前Subword是最好的端到端系统的输出单位,一般用sentence piece等工具将文本进行切分输入是 Mel谱(MFCC特征),可以理解为将语音信号经过采样,大约每10毫秒可以得到一个向量,向量的维度一般是80,如果语音有10秒,整个mel input的就是一个 80 * 1000 的矩阵
输出是一串Subword,和NLP类似,目前Subword是最好的端到端系统的输出单位,一般用sentence piece等工具将文本进行切分输入是 Mel谱(MFCC特征),可以理解为将语音信号经过采样,大约每10毫秒可以得到一个向量,向量的维度一般是80,如果语音有10秒,整个mel input的就是一个 80 * 1000 的矩阵