标签：数据集构建

account_circle 林清杨 schedule2025年8月16日folder_open2025

最近接了个活儿，要做一个针对北京周边“农家乐”用户评价的情感分析模型。需求不复杂，就是把用户的评论分成积极、消极和中性/建议三类。我心想这不就是个文本分类任务嘛，挺常规的。第一反应当然是去“军火库”…

在大规模语言模型（LLM）训练的数据集构建过程中，必须对海量的原始语料进行去重（去除重复文本）和脱敏（去除或变形敏感信息）处理。这不仅能提升语料质量，减少模型记忆无用信息，还能避免隐私泄露等风险 📌。…