分类： AI

从词向量到句向量：语义表示技术的演化之路

account_circle 林清杨 schedule2025年3月23日folder_open2025, AI

这一篇讲的是从词向量到句向量的演化史，这其实是 NLP 中一条“从土路走向高速公路”的演进轨迹，下面正式开始👇 一、引言在自然语言处理中，词（word）是最小的可处理单位，但句子（sentence…

文本相似度计算方法全景解析：从 TF-IDF 到 BERT

account_circle 林清杨 schedule2025年3月23日folder_open2025, AI

一、引言 “如何判断两段文本是否表达了相同的意思？”这是 NLP 世界里的“灵魂三问”之一，出现在搜索引擎、智能问答、推荐系统、对话系统等大量场景中。为此，研究者们提出了许多计算文本相似度的方法。从最…

Word2Vec 全解析：用词向量建构语言的语义空间

account_circle 林清杨 schedule2025年3月23日folder_open2025, AI

一、引言我们都知道“苹果”和“香蕉”是水果，“王者荣耀”和“英雄联盟”是游戏，但计算机要理解它们之间的相似性可不容易。TF-IDF 把词当作离散符号，缺乏语义表达能力。而 Word2Vec 则打破了…

深入理解 n-gram：原理、应用与实践

account_circle 林清杨 schedule2025年3月23日 (Updated 2025年3月23日)folder_open2025, AI

🚀 本文是自然语言处理中基础又核心的知识之一 —— n-gram 的全景式讲解。无论你是 NLP 新手，还是 AI 应用工程师，这篇文章都能帮你用一句话总结 n-gram，又能带你深入挖掘它在深度学习…

深入理解 TF-IDF：从原理到实战应用

account_circle 林清杨 schedule2025年3月23日folder_open2025, AI

一、引言在自然语言处理（NLP）和信息检索（IR）领域，我们常常需要对文本进行数字化建模，尤其是在文本分类、相似度计算、关键词提取等任务中。 TF-IDF（Term Frequency-Invers…

理解与应用：高Jaccard相似度的本质与实践

account_circle 林清杨 schedule2025年3月23日 (Updated 2025年3月23日)folder_open2025, AI

一、引言在文本分析、推荐系统、搜索引擎和图像识别等多个场景中，相似度计算是一项基础而关键的任务。 Jaccard相似度（Jaccard Similarity），也称为Jaccard Index，是一…

局部敏感哈希（LSH）详解：原理、算法、应用与实战

account_circle 林清杨 schedule2025年3月23日 (Updated 2025年3月23日)folder_open2025, AI

局部敏感哈希（Locality-Sensitive Hashing, LSH）是一种经典且高效的近似最近邻搜索（Approximate Nearest Neighbor, ANN）技术，尤其适用于处理…

机器学习学习综述：理论基础与应用实践

account_circle 林清杨 schedule2025年3月23日 (Updated 2025年3月23日)folder_open2025, AI, 机器学习

此篇文章是为你整理一份由浅入深的完整机器学习学习综述资料，覆盖理论与应用两个角度，涵盖NLP、CV、RAG、Agent等重点领域，并提供推荐学习资料。目标是帮助你在短时间内建立从全局认知到实战技能的完…

中文语料与通用语料的数据去重与脱敏方法综述

account_circle 林清杨 schedule2025年3月23日 (Updated 2025年3月23日)folder_open2025, AI

在大规模语言模型（LLM）训练的数据集构建过程中，必须对海量的原始语料进行去重（去除重复文本）和脱敏（去除或变形敏感信息）处理。这不仅能提升语料质量，减少模型记忆无用信息，还能避免隐私泄露等风险 📌。…

RLHF：让大模型真正“听人话”的关键技术

account_circle 林清杨 schedule2025年3月23日folder_open2025, AI

在人工智能时代快速发展的今天，大语言模型（如GPT系列、Claude、Gemini等）虽强大，但如果没有“对齐”，它们就像一匹脱缰的野马——会跑，但不一定往你希望的方向跑。于是，RLHF（Reinfo…

对齐用 RLHF 会不会更好一点？

account_circle 林清杨 schedule2025年3月23日 (Updated 2025年3月23日)folder_open2025, AI

从效果看，目前我这个版本的ChatGPT已经大量使用了RLHF（基于人类反馈的强化学习）进行对齐，它确实能够显著提升我的表现，更好地理解并满足用户的真实需求。但是，这里有几个点可以详细展开说明：一…

PEFT 微调：用更少的参数，实现更强的效果

account_circle 林清杨 schedule2025年3月23日 (Updated 2025年3月23日)folder_open2025, AI

随着大语言模型（LLM，如GPT系列、LLaMA系列）的飞速发展和广泛应用，模型的微调技术也随之备受关注。然而，庞大的模型参数带来的算力消耗、存储需求以及部署难度，也成了使用者的巨大挑战。为了解决这…

Prompt样本过多为何导致模型效果变差？

account_circle 林清杨 schedule2025年3月23日folder_open2025, AI

在使用大型语言模型（LLM）时，我们通常认为给模型提供更多的Prompt样本能提高模型表现，然而，实际应用中却发现，当Prompt样本超过一定数量时，模型的效果反而下降。这种现象看似反直觉，实则有着深…

数据去重：确保数据质量与准确性

account_circle 林清杨 schedule2025年3月23日folder_open2025, AI

数据去重：确保数据质量与准确性在大数据时代，数据的质量对决策和模型训练的影响至关重要。数据去重作为数据预处理的重要环节之一，对于确保数据的准确性和有效性，尤其是在构建机器学习和人工智能模型时具有重要…

深入探讨：调优与优化Prompt过程中的挑战与解决策略

account_circle 林清杨 schedule2025年3月23日folder_open2025, AI

深入探讨：调优与优化Prompt过程中的挑战与解决策略在现代人工智能应用中，prompt（提示词）是与语言模型（如GPT-4）交互的核心要素之一。如何精确地设计和调整prompt，以便从语言模型中获…

如何设计提示词，让大模型帮我们做短中长摘要总结

account_circle 林清杨 schedule2025年3月23日folder_open2025, AI

可以参考以下结构化设计提示词的方式，让大模型分别产出短、中、长摘要： 1. 提示词通用结构：你是一名专业的内容摘要专家，请根据提供的内容，分别生成短摘要、中摘要和长摘要，要求如下：【短摘要】（一句…

FAISS、Qdrant、Milvus 等向量数据库，选项比较与使用

account_circle 林清杨 schedule2025年3月23日folder_open2025, AI, Faiss

一、对比概览特性 FAISS Qdrant Milvus 开发主体 Facebook AI Research (Meta) Qdrant Inc. (创业公司) Zilliz Inc. (创业公司)…

大模型不是“全能选手”：你该何时用 RAG，何时用 Fine-tune？

account_circle 林清杨 schedule2025年3月21日folder_open2025, AI

✅ 一、RAG 与 Fine-tune 的区别？什么时候用？ 📌 1. 本质区别：维度 RAG（Retrieval-Augmented Generation） Fine-tune（微调）方式外接…

4 段超神提示词解锁 Claude 3.7 能力上限

account_circle 林清杨 schedule2025年3月19日folder_open2025, Prompt提示词

转载：https://mp.weixin.qq.com/s/wrXef-Ek7feg76rDGerKdA 橘子推荐语： Claude 在升级到 3.7 之后，能力获得了大幅提升，在前端编程方面已经远远…

一图解释什么是MCP

account_circle 林清杨 schedule2025年3月14日 (Updated 2025年3月14日)folder_openAI

来源