BPE归档 - 林清扬的博客

account_circle 林清杨 schedule2025年1月9日folder_openAI

大型语言模型（LLM）所使用的 tokenizer 主要差异来自于子词切分算法（BPE、WordPiece、SentencePiece 等）、多语言支持程度、词表规模及 OOV（未登录词）处理方式。选…