深入理解 n-gram:原理、应用与实践
🚀 本文是自然语言处理中基础又核心的知识之一 —— n-gram 的全景式讲解。无论你是 NLP 新手,还是 AI 应用工程师,这篇文章都能帮你用一句话总结 n-gram,又能带你深入挖掘它在深度学习…
目标 路径 时间 结果 信息 定位 闭环 复盘 精力 极限 稳态 框架
🚀 本文是自然语言处理中基础又核心的知识之一 —— n-gram 的全景式讲解。无论你是 NLP 新手,还是 AI 应用工程师,这篇文章都能帮你用一句话总结 n-gram,又能带你深入挖掘它在深度学习…
一、引言 在自然语言处理(NLP)和信息检索(IR)领域,我们常常需要对文本进行数字化建模,尤其是在文本分类、相似度计算、关键词提取等任务中。 TF-IDF(Term Frequency-Invers…
一、引言 在文本分析、推荐系统、搜索引擎和图像识别等多个场景中,相似度计算是一项基础而关键的任务。 Jaccard相似度(Jaccard Similarity),也称为Jaccard Index,是一…
局部敏感哈希(Locality-Sensitive Hashing, LSH)是一种经典且高效的近似最近邻搜索(Approximate Nearest Neighbor, ANN)技术,尤其适用于处理…
此篇文章是为你整理一份由浅入深的完整机器学习学习综述资料,覆盖理论与应用两个角度,涵盖NLP、CV、RAG、Agent等重点领域,并提供推荐学习资料。目标是帮助你在短时间内建立从全局认知到实战技能的完…
在大规模语言模型(LLM)训练的数据集构建过程中,必须对海量的原始语料进行去重(去除重复文本)和脱敏(去除或变形敏感信息)处理。这不仅能提升语料质量,减少模型记忆无用信息,还能避免隐私泄露等风险 📌。…
在人工智能时代快速发展的今天,大语言模型(如GPT系列、Claude、Gemini等)虽强大,但如果没有“对齐”,它们就像一匹脱缰的野马——会跑,但不一定往你希望的方向跑。于是,RLHF(Reinfo…
从效果看,目前我这个版本的ChatGPT已经大量使用了RLHF(基于人类反馈的强化学习)进行对齐,它确实能够显著提升我的表现,更好地理解并满足用户的真实需求。 但是,这里有几个点可以详细展开说明: 一…
随着大语言模型(LLM,如GPT系列、LLaMA系列)的飞速发展和广泛应用,模型的微调技术也随之备受关注。然而,庞大的模型参数带来的算力消耗、存储需求以及部署难度,也成了使用者的巨大挑战。 为了解决这…
在使用大型语言模型(LLM)时,我们通常认为给模型提供更多的Prompt样本能提高模型表现,然而,实际应用中却发现,当Prompt样本超过一定数量时,模型的效果反而下降。这种现象看似反直觉,实则有着深…
数据去重:确保数据质量与准确性 在大数据时代,数据的质量对决策和模型训练的影响至关重要。数据去重作为数据预处理的重要环节之一,对于确保数据的准确性和有效性,尤其是在构建机器学习和人工智能模型时具有重要…
深入探讨:调优与优化Prompt过程中的挑战与解决策略 在现代人工智能应用中,prompt(提示词)是与语言模型(如GPT-4)交互的核心要素之一。如何精确地设计和调整prompt,以便从语言模型中获…
可以参考以下结构化设计提示词的方式,让大模型分别产出短、中、长摘要: 1. 提示词通用结构: 你是一名专业的内容摘要专家,请根据提供的内容,分别生成短摘要、中摘要和长摘要,要求如下: 【短摘要】(一句…
一、对比概览 特性 FAISS Qdrant Milvus 开发主体 Facebook AI Research (Meta) Qdrant Inc. (创业公司) Zilliz Inc. (创业公司)…
收到!下面是润色后的版本:风格更轻松幽默,带点极客味儿,适合发在博客、公众号、GitHub Pages 等平台。 🧙♂️ 一键切换 Git 身份,你的极客魔法棒已送达! 🍿 开场白:为啥你总 Git…
📌 写在前面 如果你在多个 Git 账号之间频繁切换,比如: 私人 GitHub 账号 公司 GitLab 账号 团队的 Gitee 账号 每次都手动配置 user.name 和 user.email…
✅ 一、RAG 与 Fine-tune 的区别?什么时候用? 📌 1. 本质区别: 维度 RAG(Retrieval-Augmented Generation) Fine-tune(微调) 方式 外接…
转载:https://mp.weixin.qq.com/s/wrXef-Ek7feg76rDGerKdA 橘子推荐语: Claude 在升级到 3.7 之后,能力获得了大幅提升,在前端编程方面已经远远…
2025年的职业建议 作者:Will Larson 昨天,广泛用于GitHub Actions的著名工具库 tj-actions 被黑客攻陷了。观察了Carta公司的基础架构和安全团队处理这个问题的全…