bpe分词 瑞丽范 心理 2.53W 大中小设置文字大小 BPE分词算法的流程BPE算法的核心主要分成三个部分:词表构建语料编码语料解码词表构建是BPE算法的核心,其是“根据训练语料”来构建BPE算法的词表。算法的整体步骤如下所示:准备模型的训练语料确定“期望的词表大小”将训练语料中的所有单词拆分为字符序列,利用这些字符序列构建初始的词表统计训练语料中每一个连续字节对出现的频率,“选择出现频率最高的字节对合并成新的subword,并更新词表”重复第4步,直到词表大小达到我们设定的期望或者剩下的字节对出现频率最高为1 TAG标签:分词 bpe #