从零开始,在北京“手搓”一个NLP数据集的全记录

最近接了个活儿,要做一个针对北京周边“农家乐”用户评价的情感分析模型。需求不复杂,就是把用户的评论分成积极、消极和中性/建议三类。我心想这不就是个文本分类任务嘛,挺常规的。 第一反应当然是去“军火库”…

中文语料与通用语料的数据去重与脱敏方法综述

在大规模语言模型(LLM)训练的数据集构建过程中,必须对海量的原始语料进行去重(去除重复文本)和脱敏(去除或变形敏感信息)处理。这不仅能提升语料质量,减少模型记忆无用信息,还能避免隐私泄露等风险 📌。…

close
arrow_upward