标签：信息检索

account_circle 林清杨 schedule2025年12月4日folder_open2025, AI

一、TF-IDF TF-IDF是一种在信息检索、文本挖掘和自然语言处理中广泛使用的统计方法，用于衡量一个词（或术语）对于一份文档集（或语料库）中某一份特定文档的重要性。简单来说，TF-IDF 的核心…

account_circle 林清杨 schedule2025年11月21日folder_open2025

引入在推荐、图文检索、多模态搜索、RAG 等各种“查得准”至关重要的任务里，评价指标就像体检报告，决定了你的系统是否健康。别看名字复杂，其实这些指标背后都是很朴素的数学思想。这篇文章带你从零到一，…

account_circle 林清杨 schedule2025年4月19日folder_open2025, AI

标签：RAG, Rerank, LLM, 检索增强, 检索重排序, 双塔模型, Cross-Encoder, 多阶段检索, 文本相似度, 信息检索优化本篇继续深入检索增强生成（RAG）体系的另一个灵…

account_circle 林清杨 schedule2025年4月19日folder_open2025, AI

标签：RAG, HyDE, LLM, 向量检索, 检索增强, Prompt Engineering, 文档嵌入, 信息检索, AI助手, AI搜索引擎 🪂 前言：RAG 的“检索短板”，终于有人补上了…

RAG（Retrieval-Augmented Generation，检索增强生成）是当前构建强大问答系统和知识对齐模型的核心范式。它结合了「信息检索」和「生成式模型」的优点，极大提升了 LLM（大语…

account_circle 林清杨 schedule2025年3月23日folder_open2025, AI

一、引言在自然语言处理（NLP）和信息检索（IR）领域，我们常常需要对文本进行数字化建模，尤其是在文本分类、相似度计算、关键词提取等任务中。 TF-IDF（Term Frequency-Invers…