cs-self-learning/docs/深度生成模型/大语言模型/CMU11-868.md
Yinmin Zhong a74ddd98d3
[COURSE] Add LLM related courses (#746)
* add CMU11868

* add cmu11-667

* add cmu11711

* update cmu11-868

* update cmu-11667

* nits
2025-06-08 00:16:52 +08:00

2.5 KiB
Raw Blame History

CMU 11-868: Large Language Model Systems

课程简介

  • 所属大学Carnegie Mellon University
  • 先修要求:强烈建议已修读 Deep Learning (11785) 或 Advanced NLP (11-611 或 11-711)
  • 编程语言Python
  • 课程难度:🌟🌟🌟🌟
  • 预计学时120 学时

该课程面向研究生开设,聚焦“从算法到工程”的大语言模型系统构建全过程。课程内容包括但不限于:

  1. GPU 编程与自动微分:掌握 CUDA kernel 调用、并行编程基础,以及深度学习框架设计原理。
  2. 模型训练与分布式系统学习高效的训练算法、通信优化ZeRO、FlashAttention、分布式训练框架DDP、GPipe、Megatron-LM
  3. 模型压缩与加速量化GPTQ、稀疏化MoE、编译技术JAX、Triton、以及推理时的服务化设计vLLM、CacheGen
  4. 前沿技术与系统实践涵盖检索增强生成RAG、多模态 LLM、RLHF 系统,以及端到端的在线维护和监控。

与同类课程相比,本课程的优势在于紧密结合最新论文与开源实现(通过 miniTorch 框架动手扩展 CUDA 支持);项目驱动的作业体系(五次编程作业 + 期末大项目);以及工业嘉宾讲座,能让学生近距离了解真实世界中 LLM 工程实践的挑战与解决方案。

自学建议

  • 提前配置好支持 CUDA 的开发环境NVIDIA GPU + CUDA Toolkit + PyTorch
  • 复习并行计算和深度学习基础(自动微分、张量运算)。
  • 阅读每次课前指定的论文与幻灯片,跟着作业把 miniTorch 框架从纯 Python 拓展到真实 CUDA 内核。

该课程要求你对深度学习有一定的预备知识,不适合纯小白入手,可见 FAQ 的先修要求。 实验总体来说是有难度的,主要内容如下:

  1. Assignment1: 自动微分框架 + CUDA 手写算子 + 基础神经网络构建
  2. Assignmant2: GPT2 模型构建
  3. Assignment3: 通过手写 CUDA 的 Softmax 和 LayerNorm 算子优化模型训练速度
  4. Assignment4: 分布式模型训练,自学的话可能不太好配置环境

课程资源