Chapter 3: Parallelization in LLM
本节主要介绍大模型训练中的并行化技术,涵盖数据并行、模型并行、流水线并行和张量并行等方法。我们将从 Transformer 的参数量、Flops 以及训练占用显存入手,分析为什么需要并行化技术,并介绍这些技术的基本原理。最后我们将以 Transformer-based LLM 为例,对里面 Attention 以及 FFN or MoE 采用的并行化手段进行分析。
本节主要介绍大模型训练中的并行化技术,涵盖数据并行、模型并行、流水线并行和张量并行等方法。我们将从 Transformer 的参数量、Flops 以及训练占用显存入手,分析为什么需要并行化技术,并介绍这些技术的基本原理。最后我们将以 Transformer-based LLM 为例,对里面 Attention 以及 FFN or MoE 采用的并行化手段进行分析。