从零开始,在北京“手搓”一个NLP数据集的全记录
最近接了个活儿,要做一个针对北京周边“农家乐”用户评价的情感分析模型。需求不复杂,就是把用户的评论分成积极、消极和中性/建议三类。我心想这不就是个文本分类任务嘛,挺常规的。 第一反应当然是去“军火库”…
目标 路径 时间 结果 信息 定位 闭环 复盘 精力 极限 稳态 框架
最近接了个活儿,要做一个针对北京周边“农家乐”用户评价的情感分析模型。需求不复杂,就是把用户的评论分成积极、消极和中性/建议三类。我心想这不就是个文本分类任务嘛,挺常规的。 第一反应当然是去“军火库”…
在大规模语言模型(LLM)训练的数据集构建过程中,必须对海量的原始语料进行去重(去除重复文本)和脱敏(去除或变形敏感信息)处理。这不仅能提升语料质量,减少模型记忆无用信息,还能避免隐私泄露等风险 📌。…