
你将学到
AI大模型职业发展必备,快速提升职场稀缺算法落地技能,冲击AI高薪岗位。本课手把手带你拆解大模型原理、算法与训练调优(覆盖DeepSeek全新技术生态、Transformer、MoE、GRPO、预训练、微调(Fine-tuning)等),通过20+案例、2大企业级落地项目(政务系统、公文生成),从开发到微调全流程实战,助你快速掌握预训练、微调、部署、融合RAG、Agent的全链路核心技术,提升大模型算法开发与落地能力,增强职场竞争力。
课程目录
第1章 课程导学与环境介绍 试看7 节 | 164分钟
本章让学员对课程有初步认知,包括课程的具体安排、学习建议以及所需的硬件资源,无论是个人学习还是公司开发场景皆有涉及。同时,详细阐述在 AI 时代学习大模型和 DeepSeek 理论知识的重要性,针对中国开发者强调重点学习 DeepSeek 的意义。还会讲解大模型常用网站和开源模型下载方法,以及 Linux Anaconda 等开…
收起列表
视频:
1-1 课程介绍与安排【不要错过】 (30:08)
试看
视频:
1-2 为什么在AI时代要学习大模型及其相关的理论知识 (28:13)
视频:
1-3 中国开发者学习DeepSeek的意义 (16:40)
视频:
1-4 大模型常用学习资源与模型下载 (18:35)
视频:
1-5 Anaconda 介绍及安装 (24:48)
视频:
1-6 pycharm安装与连接远程服务器 (12:56)
视频:
1-7 按图索骥 AI技术全景介绍 (32:07)
试看
第2章 【小试牛刀】DeepSeek认知与体验4 节 | 86分钟
本课帮助学员建立对 DeepSeek 的全面认识,从理论到实践展开。理论部分将对比分析 DeepSeek 与其他大模型的架构特点和技术演进,重点解析其创新设计; 实战部分基于DeepSeek结合提示工程搭建功能强大的翻译机 、几行代码实现DeepSeek蒸馏模型私有化部署实战 。让大家既能直观理解 Deep Seek 的技术优势,又能掌握基…
收起列表
视频:
2-1 ChatGPT的诞生和DeepSeek的追赶 (20:45)
视频:
2-2 DeepSeek能力体验与大模型的影响 (20:46)
视频:
2-3 小试牛刀1-基于DeepSeek结合提示工程搭建功能强大的翻译机 (25:23)
视频:
2-4 小试牛刀2-几行代码实现DeepSeek蒸馏模型私有化部署实战 (18:58)
第3章 【大模型理论】DeepSeek的诞生之路11 节 | 159分钟
本章循序渐进地阐释DeepSeek的技术渊源与发展脉络。从NLP基础理论出发,系统梳理从传统方法到现代模型的演进过程,帮助学习者建立完整的认知框架。内容涵盖自然语言处理核心概念、词向量技术原理与实践、预训练模型发展等关键知识点,通过理论解析与实战演练相结合的方式,让学习者深入理解DeepSeek的技术背景和理论基础,…
收起列表
视频:
3-1 自然语言处理解决的是什么问题 (09:16)
视频:
3-2 规则和统计学的方法 (10:19)
视频:
3-3 为什么要使用词向量以及向量表示的作用 (14:57)
试看
视频:
3-4 如何获得一份表示良好的词向量? (26:35)
视频:
3-5 词向量的价值 (03:04)
视频:
3-6 小试牛刀 词向量实战 (21:19)
视频:
3-7 预训练模型(BERT、GPT) (24:56)
视频:
3-8 小试牛刀 预训练模型实战 (12:35)
视频:
3-9 大语言模型的诞生 (12:34)
视频:
3-10 DeepSeek的诞生 (11:46)
视频:
3-11 大模型产生智能的原因 (11:39)
第4章 【特征编码器Transformer】深入理解大模型的输入输出11 节 | 153分钟
聚焦于大模型输入输出的核心机制。先讲解大模型的文本切分和 Token 概念,深入探讨 Tokenizer 的作用和影响,包括 BPE 算法的训练和编码过程,并通过手撸代码实战加深理解。接着介绍大模型输入中的位置编码原理和实战,以及输出流程和解码过程,最后通过实战寻找模型最佳的解码参数。…
收起列表
视频:
4-1 大模型的文本切分与Token (09:13)
视频:
4-2 大模型的Tokenizer (13:38)
视频:
4-3 深入理解Tokenizer的作用及影响 (12:47)
视频:
4-4 【小试牛刀】Tokenizer实战 (06:58)
视频:
4-5 深入理解BPE算法训练和编码过程 (15:29)
视频:
4-6 【实战】手撸BPE算法训练代码 (27:46)
视频:
4-7 初步了解大模型中的位置编码 (16:28)
视频:
4-8 大模型的输出流程介绍 (07:52)
视频:
4-9 大模型解码原理详细介绍 (17:09)
视频:
4-10 【实战】寻找大模型最佳推理参数实战(1) (13:07)
视频:
4-11 【实战】寻找大模型最佳推理参数实战(2) (11:41)
第5章 【特征编码器Transformer】深入Transfomer中的注意力机制19 节 | 330分钟
围绕 Transformer 中的注意力机制展开。先进行基础知识准备,然后深入剖析注意力机制的原理,通过手撸 attention 实现代码进行实践。介绍大模型中的残差结构与 FFN,探讨多种注意力机制以平衡效率与性能,并手搓多种注意力机制的实现代码,最后通过手撸 Transformer 实现代码深入理解整个架构。…
收起列表
视频:
5-1 Transformer基础知识准备 (24:16)
视频:
5-2 【实战】手撸LayerNorm 代码 (27:28)
视频:
5-3 【实战】手撸softmax代码 (17:01)
视频:
5-4 深入理解注意力机制 (28:06)
视频:
5-5 掩码自注意力机制 (10:47)
视频:
5-6 多头注意力机制 (07:53)
视频:
5-7 【实战】手撸attention机制代码 (21:06)
视频:
5-8 【实战】手撸masked_self_attention (13:25)
视频:
5-9 【实战】手撸MaskedMultiHeadAttention代码(1) (15:22)
视频:
5-10 【实战】手撸MaskedMultiHeadAttention代码(2) (15:09)
视频:
5-11 残差连接和FFN (15:07)
视频:
5-12 【实战】手撸FFN和残差结构实现代码 (18:56)
视频:
5-13 【实战】手撸Transformer Decoder Block实现 (12:44)
视频:
5-14 【实战】手撸Transformer整体代码(1) (17:20)
视频:
5-15 【实战】手撸Transformer整体代码(2) (19:37)
视频:
5-16 attention机制的进化:GQA和MQA (12:11)
视频:
5-17 【实战】手撸MQA注意力机制代码 (25:41)
视频:
5-18 【实战】手撸GQA注意力机制代码(1) (13:59)
视频:
5-19 【实战】手撸GQA注意力机制代码(2) (13:25)
第6章 【特征编码器Transformer】深入Transformer中的位置编码7 节 | 89分钟
专门探讨 Transformer 中的位置编码。介绍相对位置编码的优势和特点,讲解旋转位置编码 RoPE 的理论基础、核心参数及其影响,探讨其变种形式,分析大模型长文本外延与旋转位置编码的关系,最后通过手撸旋转位置编码 RoPE 代码进行实践。…
收起列表
视频:
6-1 相对位置编码介绍 (15:43)
视频:
6-2 旋转位置编码理论 (19:06)
视频:
6-3 手撸旋转位置编码ROPE(1) (10:46)
视频:
6-4 手撸旋转位置编码ROPE(2) (08:49)
视频:
6-5 手撸旋转位置编码ROPE(3) (11:53)
视频:
6-6 旋转位置编码的核心参数及其影响 (09:52)
视频:
6-7 旋转位置编码的变种 (12:43)
第7章 【预训练】大语言模型的预训练13 节 | 132分钟
介绍大语言模型预训练的相关知识。先阐述大模型的经典训练框架,包括预训练和后训练。接着详细讲解大模型预训练的目标、任务、数据和过程。然后介绍常见的大模型评估测试集以及不同方面的评估方法,如代码、数学、长文等,构建大模型的评估体系,最后通过实战进行大模型代码能力评估…
收起列表
视频:
7-1 大语言模型经典训练框架介绍 (10:01)
视频:
7-2 大模型预训练(目标与任务) (09:04)
视频:
7-3 大模型预训练(MTPL多Token预测) (07:41)
视频:
7-4 大模型预训练(预训练数据和处理) (04:14)
视频:
7-5 大模型预训练(预训练过程) (03:58)
视频:
7-6 大模型的评估体系 (12:33)
视频:
7-7 大模型代码能力的评估 (07:49)
视频:
7-8 大模型数学能力的评估 (08:59)
视频:
7-9 大模型阅读理解能力的评估 (08:40)
视频:
7-10 大模型综合评测榜单介绍 (12:52)
视频:
7-11 【实战】DeepSeek代码能力评估实战之(第一步:模型推理) (18:31)
视频:
7-12 【实战】DeepSeek代码能力评估实战之(第二步:模型结果处理) (17:11)
视频:
7-13 【实战】DeepSeek代码能力评估之(第三步:代码执行检查) (09:57)
第8章 【预训练】 预训练的数据工程9 节 | 94分钟
关注大模型预训练的数据工程。介绍大模型的数据搜集和处理过程,阐述动态训练策略,包括数据配比等。探讨大语言模型面临的合规与工程挑战,最后通过实战介绍大模型预训练海量数据的处理和配比。
收起列表
视频:
8-1 大模型预训练的数据搜集过程(数据集1) (12:48)
视频:
8-2 大模型预训练的数据搜集过程(数据集2) (13:43)
视频:
8-3 大模型预训练的数据搜集过程(预训练数据构造流程) (03:16)
视频:
8-4 大模型预训练的数据处理过程(数据处理流程) (03:06)
视频:
8-5 大模型预训练的数据处理过程(数据过滤+去重+审核) (09:27)
视频:
8-6 大语言模型预训练的多领域数据配比与学习顺序 (13:22)
视频:
8-7 大模型安全问题 (08:58)
视频:
8-8 大模型安全挑战:新型攻击与防御 (05:57)
视频:
8-9 LLM预训练领域数据配比DoReMI深度解读 (22:28)
第9章 【预训练】 预训练的硬件体系讲解8 节 | 94分钟
讲解大模型预训练的硬件体系。先介绍大模型训练的算力基础显卡,接着阐述分布式服务器网络架构、硬件 HAL 层、通信硬件抽象 NCCL 以及通信调度框架和拓扑感知通信等内容。
收起列表
视频:
9-1 大模型的分布式训练集群介绍 (08:21)
视频:
9-2 大模型的分布式训练集群(参数服务器架构和去中心化架构) (13:51)
视频:
9-3 大模型的算力基础-显卡结构深度剖析 (13:53)
视频:
9-4 大模型的算力基础-英伟达硬件架构体系(Fermi架构) (06:59)
视频:
9-5 大模型的算力基础-英伟达硬件架构体系(Ampere架构) (16:11)
视频:
9-6 大模型训练通信提效之Nvlink (11:41)
视频:
9-7 大模型训练通信提效之拓扑结构 (11:55)
视频:
9-8 大模型分布式训练通信协议NCCL、GRPC、HTTP (10:47)
第10章 【预训练】 大模型分布式预训练过程18 节 | 205分钟
深入介绍大模型分布式预训练的过程。先概述基本过程,然后分别解析数据并行、3D 混合并行、异构并行等不同并行方式的代码。探讨分布式训练的并行与优化策略,介绍万亿参数预训练的软件框架,最后通过实战详细解析千亿 Token 万卡万亿参数预训练代码。…
收起列表
视频:
10-1 大模型分布式训练概要-预训练任务与损失函数 (19:17)
视频:
10-2 【实战】手撸交叉熵损失函数代码 (14:53)
视频:
10-3 大模型分布式训练之数据并行 (14:34)
视频:
10-4 大模型分布式训练之模型并行概述 (06:47)
视频:
10-5 大模型分布式训练模型并行之Embedding层并行 (09:26)
视频:
10-6 Embedding并行 代码解读 (07:05)
视频:
10-7 模型并行之深入理解矩阵乘法并行原理 (11:34)
视频:
10-8 模型并行之深入理解矩阵乘法并行代码解析 (08:37)
视频:
10-9 模型并行之深入理解交叉熵损失的并行原理 (12:38)
视频:
10-10 模型并行之深入理解交叉熵损失并行的代码 (07:01)
视频:
10-11 模型并行之深入理解流水线并行 (09:26)
视频:
10-12 分布式训练之异构系统并行 (09:09)
视频:
10-13 大模型训练显存占用分析 (14:11)
视频:
10-14 分布式训练软件框架deepspeed (28:10)
视频:
10-15 deepspeed zero dp stage(1) (11:58)
视频:
10-16 deepspeed zero dp stage(2) (07:31)
视频:
10-17 deepspeed zero dp stage(3) (06:52)
视频:
10-18 deepspeed zero offload (05:26)
第11章 【后训练】有监督微调7 节 | 88分钟
围绕有监督微调展开。先说明预训练与后训练的关系,接着介绍指令理解技术模型微调 SFT,包括其评估方法、数据构造方式,如思维链构造模型逻辑推理能力。还会介绍模型微调的软件框架,最后通过实战利用 Deepseek 思维链数据训练模型的推理能力。…
收起列表
视频:
11-1 大语言模型的预训练和后训练 (11:50)
视频:
11-2 大语言模型的指令微调技术 (14:14)
视频:
11-3 大模型微调的评估方法 (17:40)
视频:
11-4 大语言模型微调的数据构造 (11:22)
视频:
11-5 大语言模型中的思维链数据 (08:03)
视频:
11-6 大语言模型微调框架llamafactory (11:09)
视频:
11-7 llama_factory全参数微调实战 (13:24)
第12章 【后训练】参数高效微调5 节 | 44分钟
介绍参数高效微调技术。先概述参数高效微调的概念,然后分别讲解 Adapter Tuning、Prefix/Prompt Tuning、重参数化(Lora 与 QLoRA)等方法,介绍相关软件框架 PEFT,最后通过实战进行大模型生成公文项目的参数高效微调。
收起列表
视频:
12-1 参数高效微调概述 (07:09)
视频:
12-2 深入理解lora参数高效微调的原理 (09:11)
视频:
12-3 深入理解prefix tuning和 prompt tuning (12:24)
视频:
12-4 深入理解Adapter Tuning (06:53)
视频:
12-5 lora参数高效微调实 (08:07)
第13章 【后训练】强化学习基础8 节 | 131分钟
奠定强化学习的基础。介绍马尔可夫决策过程,讲解强化学习的基本概念,如策略、奖励函数、价值函数和 KL 散度等。分别介绍值学习算法和策略梯度算法,最后通过实战进行强化学习算法实践。
收起列表
视频:
13-1 人类反馈式强化学习概述 (11:10)
视频:
13-2 强化学习基本概念+策略 (16:10)
视频:
13-3 强化学习基本概念+值函数 (13:11)
视频:
13-4 贝尔曼方程介绍 (11:20)
视频:
13-5 随机策略梯度算法 (21:21)
视频:
13-6 【实战】强化学习实战之环境建模 (28:20)
视频:
13-7 【实战】强化学习实战之策略评估 (13:39)
视频:
13-8 【实战】强化学习实战之策略优化 (15:12)
第14章 【后训练】人类反馈式强化学习7 节 | 123分钟
专注于人类反馈式强化学习。先介绍强化学习算法中的奖励模型,接着概述人类反馈式强化学习,深入理解 PPO 算法及其简化版 DPO 算法,最后通过实战详细解析 PPO 算法代码。
收起列表
视频:
14-1 奖励模型介绍 (17:03)
视频:
14-2 PPO算法详解(1) (15:51)
视频:
14-3 PPO算法详解(2) (22:51)
视频:
14-4 PPO算法训练过程详解 (10:48)
视频:
14-5 手撸奖励模型代码(1) (17:33)
视频:
14-6 手撸奖励模型代码(2) (19:21)
视频:
14-7 PPO算法代码深入理解 (18:40)
第15章 【DeepSeek核心技术解密】国产AI的崛起 DeepSeek核心技术突破7 节 | 105分钟
介绍国产 AI DeepSeek 的核心技术突破。先分析全球 AI 竞争格局,介绍 DeepSeek 模型的优点与创新。接着详细阐述核心算法架构创新,如 MLA 降低显存占用、GRPO 提升强化学习效率、MOE 优化训练稳定性等。最后介绍训练工程的突破和推理性能的提升…
收起列表
视频:
15-1 DeepSeek模型创新点介绍 (13:29)
视频:
15-2 kv cache (09:24)
视频:
15-3 深入理解MLA机制和原理 (19:54)
视频:
15-4 手撸MLA实现代码(1) (19:23)
视频:
15-5 手撸MLA实现代码(2) (12:12)
视频:
15-6 深入理解MOE机制和原理 (15:36)
视频:
15-7 手撸MOE实现代码 (14:12)
第16章 【大模型逻辑推理能力】DeepSeek V3与DeepSeek R18 节 | 134分钟
聚焦于 DeepSeek V3 和 DeepSeek R1 模型。强调 DeepSeek R1 的逻辑推理能力,从数据和训练两个方面介绍其构建逻辑推理能力的方法。深入理解大模型逻辑推理能力,从应用角度对比两个模型,最后通过多个强化微调实战项目,包括基于蒸馏数据微调、GRPO 算法强化微调等,提升模型性能…
收起列表
视频:
16-1 深入理解大模型逻辑推理能力 (23:38)
视频:
16-2 深入理解思维链技术 (12:11)
视频:
16-3 深入理解GRPO算法 (19:34)
视频:
16-4 GRPO实战项目任务介绍 (03:52)
视频:
16-5 辅助函数实现 (19:41)
视频:
16-6 奖励函数的设计与实现 (16:37)
视频:
16-7 数据加载与处理 (16:00)
视频:
16-8 手撸GRPO训练代码 (21:45)
第17章 【企业落地实战】赋能千行百业:大模型落地应用透析4 节 | 67分钟
探讨大模型在实际应用中的情况。先介绍大模型落地应用所需的核心能力支撑,接着分析大模型落地的现状,从技术验证到价值闭环的转变。介绍典型应用场景和案例,指出大模型落地面临的技术、成本和伦理挑战,最后引发关于大模型时代个人发展的思考…
收起列表
视频:
17-1 大模型落地应用能力详解 (16:46)
视频:
17-2 大模型落地应用核心方法论介绍 (20:13)
视频:
17-3 大模型落地应用典型场景与案例介绍 (15:48)
视频:
17-4 大模型落地应用的挑战 (13:28)
第18章 【企业落地实战】大模型落地应用核心方法论8 节 | 152分钟
介绍大模型落地应用的核心方法。讲解提示工程如何解决业务问题,引入 RAG 技术获取实时业务知识,介绍模型微调技术解决业务问题的方法,包括数据构造、训练技巧和评估方法。还会介绍模型量化和高效推理部署方案,以及大模型 Agent 和 MCP 的相关内容,并通过实战进行模型微调训练…
收起列表
视频:
18-1 深入理解提示工程和方法论 (19:43)
视频:
18-2 深入理解RAG系统 (19:34)
视频:
18-3 理解模型量化的过程 (10:13)
视频:
18-4 大模型推理加速与vLLM (27:29)
视频:
18-5 大模型agent基本原理 (13:29)
视频:
18-6 模型常规推理实战 (26:59)
视频:
18-7 vllm推理加速实战(1) (16:50)
视频:
18-8 vllm推理加速实战(2) (17:17)
第19章 【企业落地实战】Agent智能政务助手:具备十万字长文档理解33 节 | 487分钟
以政务服务智能客服项目为例进行企业级实战剖析。先分享大厂算法工程师的 AI 落地经验,接着介绍项目目标、需求分析、数据处理和知识库构建。设计基于 RAG 的政务智能客服方案,包括召回和排序方案,搭建整体链路并进行效果评估和问题分析。还会介绍模型微调方案及效果评估,最后探讨系统升级引入 Function call 和…
收起列表
视频:
19-1 项目目标与需求 (17:02)
视频:
19-2 源数据搜集 (17:45)
视频:
19-3 文本向量化 (13:40)
视频:
19-4 文本向量化实战1 (09:17)
视频:
19-5 文本向量化实战2 (20:30)
视频:
19-6 数据库ES介绍及其安装 (25:05)
视频:
19-7 ES mapping构造与索引创建 (15:47)
视频:
19-8 ES数据写入 (09:14)
视频:
19-9 ES数据删除 (07:18)
视频:
19-10 写入项目数据,embedding和文本数据 (16:22)
视频:
19-11 深入介绍ES检索DSL(1) (15:46)
视频:
19-12 深入介绍ES检索DSL(2) (12:48)
视频:
19-13 手写naive RAG(1) (14:45)
视频:
19-14 手写naive RAG(2) (09:54)
视频:
19-15 手写naive RAG(3) (19:13)
视频:
19-16 手写naive RAG(4) (14:59)
视频:
19-17 gradio聊天对话框介绍 (03:06)
视频:
19-18 gradio hello (12:35)
视频:
19-19 gradio 大模型对话窗口搭建 (21:14)
视频:
19-20 rag流式输出链路搭建 (16:13)
视频:
19-21 训练数据高效合成(1) (12:21)
视频:
19-22 训练数据高效合成(2) (09:11)
视频:
19-23 训练数据高效合成(3) (10:18)
视频:
19-24 训练数据高效合成(4) (07:53)
视频:
19-25 训练数据高效合成(5) (23:35)
视频:
19-26 训练数据高效合成(6) (16:03)
视频:
19-27 合成政务类训练数据 (21:17)
视频:
19-28 生成政务流程类训练数据及其优化 (22:07)
视频:
19-29 集中处理训练数据 (21:06)
视频:
19-30 模型微调 构造训练集测试集 (26:12)
视频:
19-31 模型微调 开始训练 (05:56)
视频:
19-32 模型训练效果测试(1) (09:32)
视频:
19-33 模型训练结果评测(2) (08:52)
第20章 【企业落地实战】生成公文写作系统:具备层次化多级目录万字长公文写作能力12 节 | 142分钟
围绕大模型生成公文写作产品展开。先进行需求分析,研究知名公文写作产品。接着制定产品方案、数据标注方案、训练方案,进行效果评估和调优
收起列表
视频:
20-1 公文生成项目需求分析 (17:16)
视频:
20-2 项目需求拆解与提示词构造 (13:15)
视频:
20-3 公文数据搜集(1) (04:09)
视频:
20-4 公文数据搜集(2) (04:53)
视频:
20-5 训练数据构造 (09:30)
视频:
20-6 开始训练公文大模型1 (09:55)
视频:
20-7 模型评测集构建与模型评估实战 (12:23)
视频:
20-8 模型训练效果分析实战 (14:18)
视频:
20-9 模型问题解决、优化分析及针对性的数据构造 (22:00)
视频:
20-10 新的训练数据合成及模型训练 (11:56)
视频:
20-11 最终模型效果评估 (13:32)
视频:
20-12 公文写作大模型总结 (08:45)
第21章 【展望与前瞻】 多模态与大模型发展趋势3 节 | 55分钟
介绍大模型未来的发展以及学员的求职指导
收起列表
视频:
21-1 大模型的发展趋势 (23:18)
视频:
21-2 多模态大模型理论介绍 (15:22)
视频:
21-3 课程总结与就业指导 (15:46)
本课程已完结

评论(0)