标签： Transformer

account_circle 林清杨 schedule2025年3月24日folder_open2025, AI

在现代自然语言处理（NLP）和计算机视觉（CV）的任务中，Self-Attention（自注意力机制）是不可或缺的核心技术。无论是 Transformer 架构，还是各种基于 Attention 的模…

account_circle 林清杨 schedule2025年3月23日folder_open2025, AI

趁热打铁，继续写语言建模系列第 2 篇文章：《统计语言模型 vs 神经语言模型》。一、语言模型的起点：让机器理解语言的概率世界语言模型（Language Model, 简称 LM）本质上是用于计算…

account_circle 林清杨 schedule2025年3月23日folder_open2025, AIcomment有1条评论

这一篇我们就直接硬刚——从 Transformer 开始，整一份全景图式的进化剖析，理清 BERT 和 ChatGPT 的演化脉络，最后揭开 ChatGPT 背后的秘密武器：预训练 + 微调 + RL…

大模型训练超参数文档数据来源：https://huggingface.co/docs/transformers/v4.41.3/en/main_classes/trainer#transformer…