数据脱敏归档 - 林清扬的博客

在大规模语言模型（LLM）训练的数据集构建过程中，必须对海量的原始语料进行去重（去除重复文本）和脱敏（去除或变形敏感信息）处理。这不仅能提升语料质量，减少模型记忆无用信息，还能避免隐私泄露等风险 📌。…