深入理解 Self-Attention:计算流程与维度解析
在现代自然语言处理(NLP)和计算机视觉(CV)的任务中,Self-Attention(自注意力机制)是不可或缺的核心技术。无论是 Transformer 架构,还是各种基于 Attention 的模…
目标 路径 时间 结果 信息 定位 闭环 复盘 精力 极限 稳态 框架
在现代自然语言处理(NLP)和计算机视觉(CV)的任务中,Self-Attention(自注意力机制)是不可或缺的核心技术。无论是 Transformer 架构,还是各种基于 Attention 的模…
趁热打铁,继续写语言建模系列第 2 篇文章:《统计语言模型 vs 神经语言模型》。 一、语言模型的起点:让机器理解语言的概率世界 语言模型(Language Model, 简称 LM)本质上是用于计算…
一、引言 我们都知道“苹果”和“香蕉”是水果,“王者荣耀”和“英雄联盟”是游戏,但计算机要理解它们之间的相似性可不容易。TF-IDF 把词当作离散符号,缺乏语义表达能力。而 Word2Vec 则打破了…