单项选择题
- n-gram 模型中的“n”通常代表什么?
A. 神经网络的层数
B. 词汇表的大小
C. 上下文中的词数
D. 可选的参数数量
- 最大似然估计在 n-gram 模型中的主要目的是什么?
A. 最小化错误率
B. 优化训练速度
C. 预测下一个词的概率
D. 减少计算复杂度
- Neural Probabilistic Language Model 的主要创新是什么?
A. 使用深度学习方法
B. 引入了 n-gram 概念
C. 将词映射到高维空间
D. 使用最大似然估计
- Word2Vec 的主要特点是什么?
A. 能够处理非结构化数据
B. 将词转换为密集向量表示
C. 基于循环神经网络
D. 使用了自编码器
- 在 Word2Vec 中,CBOW 和 Skip-Gram 模型的主要区别是什么?
A. CBOW 预测上下文,而 Skip-Gram 预测中心词
B. Skip-Gram 使用深度学习,而 CBOW 不使用
C. CBOW 对高频词更有效,而 Skip-Gram 对低频词更有效
D. Skip-Gram 比 CBOW 计算复杂度更高
- 注意力机制(Attention)的主要用途是什么?
A. 优化模型训练速度
B. 提高模型准确率
C. 选择重要的信息并忽略不相关的信息
D. 改进模型的可解释性
- Transformer 模型是基于什么理论构建的?
A. 递归神经网络(RNN)
B. 卷积神经网络(CNN)
C. 注意力机制(Attention)
D. 自组织映射(SOM)
- GPT 和 BERT 的主要区别是什么?
A. GPT 是基于 Transformer 的,而 BERT 不是
B. BERT 是基于 Transformer 的,而 GPT 不是
C. GPT 使用了单向自注意力,而 BERT 使用了双向自注意力
D. GPT 和 BERT 在基本结构上没有区别
- Transformer 模型是如何解决长距离依赖问题的?
A. 通过递归神经网络(RNN)
B. 通过卷积神经网络(CNN)
C. 通过注意力机制(Attention)
D. 通过自组织映射(SOM)
- GPT 主要用于哪种类型的任务?
A. 分类任务
B. 回归任务
C. 生成任务
D. 聚类任务
- 以下哪项是 BERT 的主要创新之处?
A. 引入了自注意力机制
B. 使用了双向自注意力机制
C. 提出了新的优化算法
D. 突破了模型大小的限制
- 在 Transformer 模型中,自注意力机制的主要作用是什么?
A. 加速模型训练
B. 识别输入中的关键信息
C. 生成高质量的词嵌入
D. 提高模型的鲁棒性
- 基于 Transformer 的模型,如 GPT 和 BERT,主要适用于哪些任务?
A. 图像识别
B. 自然语言处理
C. 语音识别
D. 强化学习
- 注意力机制最早是在哪个领域得到应用的?
A. 计算机视觉
B. 语音识别
C. 自然语言处理
D. 推荐系统
- GPT-2 相比于 GPT-1 主要改进了哪些方面?
A. 只改进了训练算法
B. 扩大了模型的规模和数据处理能力
C. 引入了新的神经网络架构
D. 专注于改进图像识别能力
- GPT-3 的主要优势在于其能力的哪个方面?
A. 更小的模型规模和更快的训练速度
B. 更高的能效和更低的计算成本
C. 处理更复杂的任务和更大规模的数据
D. 更准确的语音识别能力
关于课程中未完全理解的概念,建议使用 ChatGPT 帮助解答,示例如下:
Q1:是不是说 bert 模型必须要做下游的任务,写标签?因为它是一个理解语义的模型。而 GPT 是生成式可以直接使用预训练模型。
A1:是的,BERT 模型通常用于下游任务并且需要标签数据。这是因为 BERT 是一个基于 Transformer 的模型,被设计来理解语言而不是直接生成文本。在训练过程中,BERT 模型通过预测句子中被隐去的词来学习语义信息。但为了在特定任务 (如情感分析、问题回答等) 上表现良好,通常需要在对应的有标签数据集上进行微调。
GPT 系列模型则不同,它们是生成式模型,这意味着 GPT 可以直接用于生成文本。GPT 模型在训练时学习预测下一个词,因此在训练完成后就可以直接用于文本生成,不一定需要针对特定任务的微调,尽管在某些情况下微调可以提升性能。
Q2:word2vec 的处理对象是句子,还是经过分词的 token?
A2:Word2Vec 的处理对象是词 (words),而不是整个句子。它通过上下文来学习词的向量表示。在使用 Word2Vec 时,通常首先需要对文本进行分词,将句子分解为独立的词。然后,Word2Vec 模型会使用这些词及其上下文来学习词向量。
Q3:encoder 里的自注意力机制,与 decoder 里的注意力机制有什么区别?
A3:在 Transformer 模型中,encoder 和 decoder 的注意力机制有一些关键区别:
Encoder 的自注意力机制: 在 encoder 中,每人词元只关注输入序列中的其他词元。这种自注意力机制允许模型理解输入序列内各个词元之间的关系 Decoder 的注意力机制: Decoder 包含两种注意力机制。第一种是自注意力,类似于 encoder 中的自注意力,但它被掩蔽以防止未来位置的信息泄露。第二种是交叉注意力 (cross-attention) ,decoder 的这一部分关注整个 encoder 的输出。这种机制允许 decoder 在生成每个词时考虑整个输入序列,从而在翻译或文本生成等任务中更有效地利用输入信息。