分类： AI

🧠 阶段四：ChatGPT 的秘密武器全解析

account_circle 林清杨 schedule2025年3月24日 (Updated 2025年3月24日)folder_open2025, AIcomment有1条评论

太棒了，现在我们来到了终极阶段! 微调 + RLHF + 多模态 + Agent + RAG 的联合作战 🌐 本阶段内容导航 ChatGPT 背后的训练流程全景图微调：SFT（Supervised …

🚀 阶段三：GPT 架构 + 自回归训练 + 从零实现最小 GPT 模型

account_circle 林清杨 schedule2025年3月24日 (Updated 2025年3月24日)folder_open2025, AIcomment有3条评论

🌐 本阶段目录 GPT 架构简介（vs BERT）自回归语言建模原理（核心公式 + 图解） GPT-2 模型结构详解（Block-by-Block 拆解）最小 GPT 模型实现（PyTorch） …

📚 阶段二：BERT 结构 + 预训练任务 + 微调实战

account_circle 林清杨 schedule2025年3月24日 (Updated 2025年3月24日)folder_open2025, AIcomment有3条评论

好，既然我们已经打下了 Transformer 的基础，现在进入第二阶段： 🌐 目录规划 BERT 是什么？和 Transformer 有什么关系？ BERT 的结构图 + 原理解析预训练任务详解（…

常见的加密与解密算法概览

account_circle 林清杨 schedule2025年3月23日folder_open2025, AIcomment无评论

随着互联网的迅猛发展和数据共享需求的不断增加，信息安全与隐私保护越发受到关注。加密与解密技术作为保障信息安全的核心手段，在传输与存储过程中扮演着不可或缺的角色。本文将系统地介绍对称加解密和非对称加解密…

统计语言模型 vs 神经语言模型：一场语言理解的进化之战

account_circle 林清杨 schedule2025年3月23日folder_open2025, AIcomment无评论

趁热打铁，继续写语言建模系列第 2 篇文章：《统计语言模型 vs 神经语言模型》。一、语言模型的起点：让机器理解语言的概率世界语言模型（Language Model, 简称 LM）本质上是用于计算…

🚀 Transformer → BERT → ChatGPT：一步步走向“语言智能体”

account_circle 林清杨 schedule2025年3月23日folder_open2025, AIcomment有1条评论

这一篇我们就直接硬刚——从 Transformer 开始，整一份全景图式的进化剖析，理清 BERT 和 ChatGPT 的演化脉络，最后揭开 ChatGPT 背后的秘密武器：预训练 + 微调 + RL…

打造更聪明的语义搜索：融合 RAG、Re-ranking 与 Prompt 增强的实战指南

account_circle 林清杨 schedule2025年3月23日folder_open2025, AIcomment无评论

这篇我们就冲进语义搜索 + 大模型的世界，做一件真正「懂用户」的事：引入 RAG（检索增强生成）、Re-ranking 重排序和 Prompt 指令增强，打造一个像 ChatGPT 那样“理解+回答…

用句向量构建语义搜索系统：全流程实战与落地指南

account_circle 林清杨 schedule2025年3月23日folder_open2025, AIcomment无评论

这次我们进入实战篇章 🚀——如何用句向量构建一个高性能的语义搜索系统。目标：从用户输入到高相关文本返回，全流程打通，能用能落地！一、引言传统的关键词搜索依赖字面匹配，用户输入“不太精确”就很容易搜…

📚 NLP 世界里的“灵魂三问”

account_circle 林清杨 schedule2025年3月23日folder_open2025, AIcomment无评论

“NLP 世界里的灵魂三问”，仿佛打开了一本修炼内功心法的小册子。那我们就以“哲学三问”的方式来写吧，对应“我是谁？我从哪里来？我要到哪里去？”这种调调。一、我是谁？——NLP 到底在干啥？自然语…

从词向量到句向量：语义表示技术的演化之路

account_circle 林清杨 schedule2025年3月23日folder_open2025, AIcomment无评论

这一篇讲的是从词向量到句向量的演化史，这其实是 NLP 中一条“从土路走向高速公路”的演进轨迹，下面正式开始👇 一、引言在自然语言处理中，词（word）是最小的可处理单位，但句子（sentence…

文本相似度计算方法全景解析：从 TF-IDF 到 BERT

account_circle 林清杨 schedule2025年3月23日folder_open2025, AIcomment无评论

一、引言 “如何判断两段文本是否表达了相同的意思？”这是 NLP 世界里的“灵魂三问”之一，出现在搜索引擎、智能问答、推荐系统、对话系统等大量场景中。为此，研究者们提出了许多计算文本相似度的方法。从最…

Word2Vec 全解析：用词向量建构语言的语义空间

account_circle 林清杨 schedule2025年3月23日folder_open2025, AIcomment无评论

一、引言我们都知道“苹果”和“香蕉”是水果，“王者荣耀”和“英雄联盟”是游戏，但计算机要理解它们之间的相似性可不容易。TF-IDF 把词当作离散符号，缺乏语义表达能力。而 Word2Vec 则打破了…

深入理解 n-gram：原理、应用与实践

account_circle 林清杨 schedule2025年3月23日 (Updated 2025年3月23日)folder_open2025, AIcomment无评论

🚀 本文是自然语言处理中基础又核心的知识之一 —— n-gram 的全景式讲解。无论你是 NLP 新手，还是 AI 应用工程师，这篇文章都能帮你用一句话总结 n-gram，又能带你深入挖掘它在深度学习…

深入理解 TF-IDF：从原理到实战应用

account_circle 林清杨 schedule2025年3月23日folder_open2025, AIcomment无评论

一、引言在自然语言处理（NLP）和信息检索（IR）领域，我们常常需要对文本进行数字化建模，尤其是在文本分类、相似度计算、关键词提取等任务中。 TF-IDF（Term Frequency-Invers…

理解与应用：高Jaccard相似度的本质与实践

account_circle 林清杨 schedule2025年3月23日 (Updated 2025年3月23日)folder_open2025, AIcomment无评论

一、引言在文本分析、推荐系统、搜索引擎和图像识别等多个场景中，相似度计算是一项基础而关键的任务。 Jaccard相似度（Jaccard Similarity），也称为Jaccard Index，是一…

局部敏感哈希（LSH）详解：原理、算法、应用与实战

account_circle 林清杨 schedule2025年3月23日 (Updated 2025年3月23日)folder_open2025, AIcomment无评论

局部敏感哈希（Locality-Sensitive Hashing, LSH）是一种经典且高效的近似最近邻搜索（Approximate Nearest Neighbor, ANN）技术，尤其适用于处理…

机器学习学习综述：理论基础与应用实践

account_circle 林清杨 schedule2025年3月23日 (Updated 2025年3月23日)folder_open2025, AI, 机器学习comment无评论

此篇文章是为你整理一份由浅入深的完整机器学习学习综述资料，覆盖理论与应用两个角度，涵盖NLP、CV、RAG、Agent等重点领域，并提供推荐学习资料。目标是帮助你在短时间内建立从全局认知到实战技能的完…

中文语料与通用语料的数据去重与脱敏方法综述

account_circle 林清杨 schedule2025年3月23日 (Updated 2025年3月23日)folder_open2025, AIcomment无评论

在大规模语言模型（LLM）训练的数据集构建过程中，必须对海量的原始语料进行去重（去除重复文本）和脱敏（去除或变形敏感信息）处理。这不仅能提升语料质量，减少模型记忆无用信息，还能避免隐私泄露等风险 📌。…

RLHF：让大模型真正“听人话”的关键技术

account_circle 林清杨 schedule2025年3月23日folder_open2025, AIcomment无评论

在人工智能时代快速发展的今天，大语言模型（如GPT系列、Claude、Gemini等）虽强大，但如果没有“对齐”，它们就像一匹脱缰的野马——会跑，但不一定往你希望的方向跑。于是，RLHF（Reinfo…

对齐用 RLHF 会不会更好一点？

account_circle 林清杨 schedule2025年3月23日 (Updated 2025年3月23日)folder_open2025, AIcomment无评论

从效果看，目前我这个版本的ChatGPT已经大量使用了RLHF（基于人类反馈的强化学习）进行对齐，它确实能够显著提升我的表现，更好地理解并满足用户的真实需求。但是，这里有几个点可以详细展开说明：一…