中文语料与通用语料的数据去重与脱敏方法综述

在大规模语言模型(LLM)训练的数据集构建过程中,必须对海量的原始语料进行去重(去除重复文本)和脱敏(去除或变形敏感信息)处理。这不仅能提升语料质量,减少模型记忆无用信息,还能避免隐私泄露等风险 📌。…

close
arrow_upward