用句向量构建语义搜索系统:全流程实战与落地指南

这次我们进入实战篇章 🚀——如何用句向量构建一个高性能的语义搜索系统。目标:从用户输入到高相关文本返回,全流程打通,能用能落地! 一、引言 传统的关键词搜索依赖字面匹配,用户输入“不太精确”就很容易搜…

文本相似度计算方法全景解析:从 TF-IDF 到 BERT

一、引言 “如何判断两段文本是否表达了相同的意思?”这是 NLP 世界里的“灵魂三问”之一,出现在搜索引擎、智能问答、推荐系统、对话系统等大量场景中。为此,研究者们提出了许多计算文本相似度的方法。从最…

机器学习学习综述:理论基础与应用实践

此篇文章是为你整理一份由浅入深的完整机器学习学习综述资料,覆盖理论与应用两个角度,涵盖NLP、CV、RAG、Agent等重点领域,并提供推荐学习资料。目标是帮助你在短时间内建立从全局认知到实战技能的完…

中文语料与通用语料的数据去重与脱敏方法综述

在大规模语言模型(LLM)训练的数据集构建过程中,必须对海量的原始语料进行去重(去除重复文本)和脱敏(去除或变形敏感信息)处理。这不仅能提升语料质量,减少模型记忆无用信息,还能避免隐私泄露等风险 📌。…

PEFT 微调:用更少的参数,实现更强的效果

随着大语言模型(LLM,如GPT系列、LLaMA系列)的飞速发展和广泛应用,模型的微调技术也随之备受关注。然而,庞大的模型参数带来的算力消耗、存储需求以及部署难度,也成了使用者的巨大挑战。 为了解决这…

如何设计提示词,让大模型帮我们做短中长摘要总结

可以参考以下结构化设计提示词的方式,让大模型分别产出短、中、长摘要: 1. 提示词通用结构: 你是一名专业的内容摘要专家,请根据提供的内容,分别生成短摘要、中摘要和长摘要,要求如下: 【短摘要】(一句…

close
arrow_upward