bpe分词
来源:魅力女性吧 2.59W
BPE分词算法的流程
BPE算法的核心主要分成三个部分:
词表构建
语料编码
语料解码
词表构建是BPE算法的核心,其是「根据训练语料」来构建BPE算法的词表。算法的整体步骤如下所示:
准备模型的训练语料
确定「期望的词表大小」
将训练语料中的所有单词拆分为字符序列,利用这些字符序列构建初始的词表
统计训练语料中每一个连续字节对出现的频率,「选择出现频率最高的字节对合并成新的subword,并更新词表」
重复第4步,直到词表大小达到我们设定的期望或者剩下的字节对出现频率最高为1