cs-self-learning/docs/深度生成模型/大语言模型/CMU15-779.md
Alden cb90db338b
[UPDATE] add CMU 15-779 course pages (#834)
Add CMU 15-779 (LLM systems) notes in CN/EN and link them from the deep generative models roadmap.
2026-02-21 11:19:07 +08:00

2.6 KiB
Raw Permalink Blame History

CMU 15-779: Advanced Topics in Machine Learning Systems (LLM Edition)

课程简介

  • 所属大学Carnegie Mellon University
  • 先修要求:无硬性先修要求;建议具备机器学习入门与深度学习训练经验,熟悉 PyTorch了解 CUDA/GPU 基础会显著提升学习效率
  • 编程语言Python系统与算子层面内容可能涉及 CUDA/硬件概念)
  • 课程难度4/5
  • 预计学时80-120 学时

这门课从系统视角系统性回答一个核心问题:一个用高层框架(例如 PyTorch写出来的模型是如何被分解为底层 kernel并在异构硬件加速器GPU/TPU与分布式环境中高效执行的。课程覆盖 GPU 编程、ML 编译器、图级优化、分布式训练与自动并行化、LLM Serving 与推理加速等主题,强系统导向,适合希望把“框架层经验”向“算子/编译/硬件/集群执行”打通的人。

从教学组织上这门课会要求你持续完成课前论文阅读paper review / reading assignments并以小组形式完成期末系统类课程项目proposal、presentation、report因此自学时建议把它当成一个“按周推进的系统训练营”而不是只看几份 slide。

课程内容

课程内容以 lecture 为主线,主题大致包括:

  1. ML 系统基础:以 TensorFlow/PyTorch 为例理解计算图、执行模型与系统抽象
  2. GPU 架构与 CUDA 编程:硬件与编程模型、内存与性能优化要点
  3. Transformer 与 Attention 案例FlashAttention 等 IO-aware attention 优化思路
  4. 高级 CUDA 编程warp specialization、mega kernel 等低延迟/高吞吐优化技术
  5. ML 编译Tile-based DSLTriton 等、内核自动调优Ansor 等、图级优化TASO/PET 等、超优化Mirage
  6. 并行化与分布式训练ZeRO/FSDP、模型/流水线并行、自动并行化Alpa 等)
  7. LLM 推理与服务批处理、PagedAttention、RadixAttention、推测解码等
  8. 后训练与模型结构参数高效微调LoRA/QLoRA、MoE架构、kernel、并行化

课程资源