bpe分詞

來源:魅力女性吧 2.59W
bpe分詞

BPE分詞算法的流程

BPE算法的核心主要分成三個部分:

詞表構建

語料編碼

語料解碼

詞表構建是BPE算法的核心,其是「根據訓練語料」來構建BPE算法的詞表。算法的整體步驟如下所示:

準備模型的訓練語料

確定「期望的詞表大小」

將訓練語料中的所有單詞拆分為字符序列,利用這些字符序列構建初始的詞表

統計訓練語料中每一個連續字節對出現的頻率,「選擇出現頻率最高的字節對合併成新的subword,並更新詞表」

重複第4步,直到詞表大小達到我們設定的期望或者剩下的字節對出現頻率最高為1

熱門標籤