一文搞懂 Transformer

一、Transformer的本质

Transformer架构:主要由输入部分(输入输出嵌入与位置编码)、多层编码器、多层解码器以及输出部分(输出线性层与Softmax)四大部分组成。

输入部分:

  • 源文本嵌入层:将源文本中的词汇数字表示转换为向量表示,捕捉词汇间的关系。
  • 位置编码器:为输入序列的每个位置生成位置向量,以便模型能够理解序列中的位置信息。
  • 目标文本嵌入层(在解码器中使用):将目标文本中的词汇数字表示转换为向量表示。

Encoder编码器部分:

  • Transformer中的编码器部分一共6个相同的编码器层组成。
  • 每个编码器层都有两个子层,即多头自注意力层(Multi-Head Attention)层和逐位置的前馈神经网络(Position-wise Feed-Forward Network)。在每个子层后面都有残差连接(图中的虚线)和层归一化(LayerNorm)操作,二者合起来称为Add&Norm操作。

Decoder解码器部分:。

  • Transformer中的解码器部分同样一共6个相同的解码器层组成。
  • 每个解码器层都有三个子层,掩蔽自注意力层(Masked Self-Attention)、Encoder-Decoder注意力层、逐位置的前馈神经网络。同样,在每个子层后面都有残差连接(图中的虚线)和层归一化(LayerNorm)操作,二者合起来称为Add&Norm操作。

输出部分:

  • 线性层:将解码器输出的向量转换为最终的输出维度。

This chapter requires login to view full content. You are viewing a preview.

Login to View Full Content

Course Curriculum

1

LLM

我们将对比确定性编程与概率编程的根本差异,理解从“编写逻辑”到“设计引导”的范式转移。同时,将API设计、参数调试等传统研发直觉,快速映射到提示词工程与生成参数驯化上,让您在AI时代继续发挥工程优势。
2

Transformer

我们将建立从软件模块到模型组件的认知桥梁,把Transformer理解为一个新的“运行时环境”。目标是让您能像分析JVM GC或线程调度一样,洞察注意力机制、Token生成等核心过程的资源消耗与性能瓶颈。
3

Prompt Engineering

我们将建立从软件模块到模型组件的认知桥梁,把Transformer理解为一个新的“运行时环境”。目标是让您能像分析JVM GC或线程调度一样,洞察注意力机制、Token生成等核心过程的资源消耗与性能瓶颈。
4

Fine-tuning

我们将建立清晰的决策框架,像在“使用开源库”和“自研核心组件”之间做权衡一样,在提示工程与模型微调之间做出成本最优解。深入LoRA等关键技术,理解其如同软件工程中的“依赖注入”般高效参数更新原理。
5

RAG

我们将对比传统数据库查询与向量检索的核心差异,构建混合检索的新心智模型。深入文本分块、Embedding选型等生产细节,让RAG系统从“能跑”到“好用”,解决准确性、幻觉治理等实际工程挑战。
6

Agent

我们将智能体架构理解为“一个高度自治的微服务集群”,其工具调用如同服务间API调用,记忆体系如同分布式缓存与数据库。在此基础上,设计能够规划、执行并从容应对失败的鲁棒性AI系统。