极客时间多模态大模型训练营-itall6

课程大纲

第一周机器学习与深度学习基础
- 学习目标：
  - 课程梗概：本课程整体的设计背景、设计思路、学习建议、实战环境
  - 常见机器学习任务：监督学习（回归、分类（二/多分类）），非监督学习（聚类、降维）的输入输出
  - 常见机器学习算法：线性/逻辑回归、支持向量机、决策树、随机森林、K-均值、主成分分析的适用场景与优缺点
  - 深度学习任务版图：计算机视觉、自然语言处理、音频（自动语音识别 & 文本转语音）、多模态
  - 深度学习训练要素：神经网络、激活函数、损失函数、学习率/调度器、批大小、epoch/step、早停、优化器
  - 评估指标与可解释性：混淆矩阵、准确率、精确率/召回率/F1、ROC-AUC/PR-AUC
  - 强化学习最小闭环：MDP 五元组、Bellman 递推、值函数/策略梯度/Actor-Critic 的区别与联系
  - 实战：电商 SKU 卡片生成（数据增强 + 图片分类 + 文本摘要）
- 知识点：
  - 权重与激活函数：Sigmoid、Softmax、Tanh、ReLU、GELU
  - 正则化与归一化：L1/L2、Dropout，BatchNorm/LayerNorm/GroupNorm/RMSNorm
  - 数据增强：图像（随机裁剪/翻转/颜色抖动）、文本（同义替换/回译）、音频（SpecAugment）
  - PyTorch 基础：Tensor、Module、Optimizer、Dataset、DataLoader、AMP
第二周大模型微调与落地
- 学习目标：
  - Transformer 机制：多头自注意力机制（QKV 映射与注意力矩阵）、位置编码方式（绝对/相对/旋转）、前馈网络与激活函数、残差连接与 LayerNorm 作用
  - 预训练家族类型：BERT（MLM 任务、理解为主）、T5（去噪 Seq2Seq，兼具生成）、GPT（Causal LM，纯生成）各自在下游任务中的适配边界
  - 指令微调 SFT：样本三元组设计（指令/输入/输出）、模板化与占位符、数据清洗与一次性校验
  - PEFT 体系：LoRA/QLoRA、Prefix-tuning/P-tuning/Prompt-tuning 的取舍与组合策略
  - RAG：适用边界、最小可用流程（检索→重排→生成）、离线/在线评估与故障诊断
  - 多模态 RAG：掌握多模态 RAG 的基本原理和方法，理解其在跨模态检索时的不同方法。
  - 部署压缩方法：常见的基础模型部署优化方法（蒸馏、剪枝、量化），掌握其在低资源通用大模型应用场景下的作用与权衡
  - 安全与鲁棒性：指令污染与数据泄露防范、对抗样例与格式约束的基础做法
  - 实战：可溯源的问答助手（小型领域文档 → RAG 管线 + LoRA 轻量微调，回答附带来源片段与页码）
- 知识点：
  - 训练链路：Pre-training、SFT、Alignment（RLHF/RLAIF/DPO/GRPO）的责任划分与常见误区
  - 预训练任务细化：MLM、Denoising、Causal LM、多任务混合与指令分布对齐
  - SFT 数据规范：样本三元组与模板化、哈希/近重复去重、脏样本与格式校验、脱敏与标注一致性
  - LoRA 细节：r/alpha/dropout 选择、目标层（q/k/v/o/MLP）与冻结策略、冻结比例设置、权重合并与导出
  - RAG 组件与评测：嵌入器（文本/多模态）、向量数据库与索引、Cross-Encoder 重排，检索/生成双通道指标（Recall@K、nDCG、Faithfulness）
  - Prompt 基要：system/user/examples 的分工，temperature/长度控制/停止词与输出格式约束
第三周多模态全景认知
- 学习目标：
  - 多模态的定义与边界：理解模态的概念及常见类型（视觉、文本、语音、传感器数据等），区分单模态、多模态与跨模态任务，明确多模态与 AIGC 的关系与差异
  - 多模态数据与表征：理解多模态数据的常见组织形式（成对、成组、序列），掌握跨模态特征空间对齐的概念与常见方法，熟悉相似度计算指标（余弦相似度、欧氏距离）
  - 多模态任务类型：生成类（图像生成、视频生成）、理解类（图像描述、视觉问答）、检索类（以图搜图、跨模态检索）、推理与控制类（多模态推理、具身智能决策）
  - 多模态模型架构：双塔架构（CLIP）、融合-解码架构（Step3）、统一 Transformer 架构（Chameleon）
  - 跨模态对齐核心思想：让不同模态的相同语义在特征空间中接近（对比学习、特征回归与投影、多任务联合训练）
  - 多模态应用场景：虚拟人、电商、科研、翻译、智驾/机器人感知、医疗、游戏
  - 实战：拍照找同款 + 图像问答式商品客服
- 知识点：
  - 视觉编码器的作用与常见结构，ViT 的基础原理（patch 切分、Transformer 编码、位置编码、特征抽取方式）
  - 双塔架构与融合-解码架构的特点
  - 语音编码与合成的基础流程：端到端 ASR、TTS（Fish Speech）
  - 工业界多模态检索的两阶段方案：粗排-精排
第四周虚拟人生成与交互技术
- 学习目标：
  - 虚拟人的基本组成与数据流：理解从图像生成、语音合成、视频驱动到最终输出的完整流程
  - 图像生成与条件控制：掌握扩散模型（Diffusion Models）和条件生成（ControlNet）的核心原理与应用方式
  - 国内开源大语言模型基座：Qwen3、DeepSeek-R1、GLM-4.5、Kimi-K2 等的特点和差异
  - 语音合成（TTS）：主流语音合成技术（Fish Speech）的应用技巧
  - 声音克隆（Voice Cloning）：主流开源（OpenVoice 或 MetaVoice）克隆技术介绍
  - 虚拟人口型驱动：Wav2Lip、VASA-1、LivePortrait 等特点和差异
  - 扩展知识：了解生成对抗网络（GAN）的结构及其在小样本生成（StyleGAN、DreamBooth-GAN）、图像超分辨率（ESRGAN）、图像翻译（CycleGAN、Pix2Pix）等场景中的应用
  - 实战：虚拟人直播带货 + 直播答疑
- 知识点：
  - 扩散模型的数学原理、采样流程与模型架构，ControlNet 在生成中的精准控制
  - 虚拟人直播的多任务调度：产品介绍与回答用户问题之间的优先级管理
  - 问题识别与分类：产品问题、闲聊问题、无关问题、恶意提问等检测与应答策略
  - 上下文衔接与恢复：回答后回到原讲解节奏的上下文管理技术
  - GAN 在生成中的常见问题及性能优化方案
第五周多模态 OCR 与智能翻译链路
- 学习目标：
  - 理解 OCR 任务在多模态AI中的角色，掌握从图像感知、版面结构解析到文本生成的完整流程
  - 传统 OCR 技术（序列识别模型 CRNN、文字检测模型 DBNet）的工作原理与局限性
  - 多模态 OCR 架构（生成式 Donut、Transformer 式 TrOCR、结构感知式 LayoutLMv3）的输入处理、特征融合和生成机制
  - 表格与版面结构建模方法（TAPAS、TableFormer）及复杂表格解析策略
  - 多语种 OCR 与手写识别技术（多语言预训练、字体风格差异处理、数据增强方法）
  - OCR 到翻译的衔接链路（多语言生成模型 NLLB），实现不同语言的自动转换
  - 拓展知识：OCR 在 RAG 问答系统中的落地价值（AnythingLLM）
  - 实战：中英文混排文档的结构化识别与翻译
- 知识点：
  - OCR 的检测与识别流程及典型模型原理
  - 主流 OCR 数据集（文档类 FUNSD、DocVQA，票据类 SROIE，表格类 TableBank，街景/车牌类 ICDAR，手写类 IAM）的特点与应用
  - OCR 与翻译链路的评估方法及常用指标（CER/WER、BLEU、chrF）
  - 多场景 OCR 的泛化与数据增强（光照变化、旋转畸变、字体多样化、噪声注入）对模型鲁棒性的提升作用
第六周视觉定位与跨模态融合感知
- 学习目标：
  - 理解视觉-语言任务在多模态 AI 中的定位和应用场景，能够复现和调试从对象检测与定位、跨模态特征对齐到推理输出的完整流程，并将其用于 VQA 与 Grounding 任务的模型搭建
  - 区分视觉问答（VQA）、视觉定位（Grounding）、图像计数（Counting）、视觉推理（Visual Reasoning）的任务定义、边界与互补性
  - 视觉定位与图像计数模型：从 DETR 的查询式检测范式触发，理解 GLIP 的语言-视觉对齐预训练，再聚焦 Grounding DINO 的开集（Open-set）定位方法与评估，对比精度/速度/扩展性
  - 跨模态融合策略（早/中/晚融合）的原理及在不同 VLM 架构中的适配方式
  - 多模态注意力机制（Cross-Attention、Co-Attention）的计算逻辑，分析其对模型解释性的影响
  - Attention 的可视化方法（Attention Maps、Grad-CAM、Attention Rollout）及其在调试和优化中的作用
  - 实战：基于图文内容的跨模态理解
- 知识点：
  - 视觉-语言融合的三种主流模式：交叉注意力（Cross-Attention）、视觉适配器（Visual Adapter）、视觉编码器（ResNet/ViT）
  - VQA 任务：常用数据集（VQAv2、GQA），常用指标（准确率、多选指标）
  - Grounding 任务：常用数据集（Flickr30k Entities、RefCOCO 系列），常用指标（mAP、IoU）
  - Counting 任务：常用数据集（ShanghaiTech、UCF-QNRF、FSC-147），常用指标（MAE、RMSE）
  - 视觉推理任务：常用数据集（CLEVR、GQA），常用指标（多步推理准确率）
第七周文本到 SQL（NL2SQL）与多表推理
- 学习目标：
  - NL2SQL 的任务定义、发展历程与核心挑战
  - 主流 NL2SQL 语义解析的技术路径与实现原理：基于 Seq2Seq、图神经网络、大型语言模型
  - 运用 SQL 语言优化技巧，理解数据库 Schema 与 NL2SQL 模型交互的关键
  - 上下文增强 NL2SQL 的策略，有效提升模型在复杂对话场景下的准确性与泛化能力
  - Few-shot/Zero-shot SQL 生成的核心思想与落地策略，能评估与选择合适的模型
  - NL2SQL 模型的性能评估指标、错误诊断与常见的纠错机制
  - 深入理解文本与数据库 Schema 对齐（Schema Linking）的方法及其在歧义消解中的应用
  - 实战：数据报表智能查询助手
- 知识点：
  - 数据库与 SQL 基础：数据库 Schema 理解与 SQL 查询优化技巧
  - NL2SQL 模型：T5、GPT 等大型语言模型架构在 NL2SQL 中的技术路线与核心实现，Seq2Seq、图神经网络等经典架构原理
  - 语义解析方法：语义解析在 NL2SQL 中的应用，包括端到端与基于中间表示的方法
  - Schema 对齐策略：Schema Linking 技术（实体识别、类型匹配）与实际应用方案、歧义消解策略
  - Few-shot 与 Zero-shot 方法：小样本与零样本SQL生成的实现方法、Prompt Learning 与模型选择策略
  - 上下文增强：多轮对话与历史信息在 NL2SQL 中的利用策略
  - 模型评估与诊断：性能评估指标（执行准确率等）、错误类型分析（预测列错误、谓词表达偏差、子句结构错误等）与纠错机制
第八周医疗影像分析与智能报告生成
- 学习目标：
  - 医疗影像（CT、MRI）的常见任务类型，初步规划其分析技术路线与落地流程
  - 医疗影像中病灶检测与分割的核心技术，运用 UNet、TransUNet 模型进行实现与调优
  - 基于影像和病历数据的医疗报告自动生成原理，分析主流模型路径与医学 Prompt 设计方法
  - 医学影像数据的预处理方法：数据清洗、标准化、增强与常用格式转换（DICOM）
  - 医学知识图谱在多模态影像分析中的作用，识别其构建与辅助影像诊断的应用场景
  - 医疗影像数据隐私保护的核心原则，应用数据脱敏与匿名化等技术方案满足合规要求
  - 医疗影像模型的主流评估指标：Dice、IoU、Hausdorff 距离，能科学评估模型的性能
  - 实战：辅助诊断系统（影像识别+报告生成）
- 知识点：
  - 医疗影像分割与检测：UNet、TransUNet 模型架构细节
  - 医疗报告生成技术：医学 Prompt 设计与生成模型细节
  - 数据预处理方法：医疗影像数据增强与脱敏策略
  - 隐私保护方案：医学数据合规与隐私保护技术路线
第九周多模态模型高效训练与优化
- 学习目标：
  - 多模态模型高效训练的核心挑战（数据、算力、收敛性），整体的应对思路
  - 多模态数据对齐的原理与方法，为训练提供高质量数据基础
  - 主流的分布式训练并行策略（数据并行 DP、模型并行 MP/TP、流水线并行 PP）及其在多模态大模型训练中的应用
  - MoE (Mixture of Experts) 架构及其在多模态模型中的优势，专家并行 EP 的实现思路
  - 多模态预训练和多任务学习的策略，优化模型学习效率与泛化能力
  - 难负例挖掘（Hard Negative Mining）、对抗性负样本生成等高级训练技巧，提升多模态模型的训练效果与鲁棒性
  - 多模态模型高级轻量化技术（深度蒸馏、结构化剪枝、量化感知训练），优化模型规模与推理效率，理解其在多模态数据和架构下的特殊考量
  - 实战：针对特定多模态任务，选择并应用高效训练或优化方法，提升模型性能
- 知识点：
  - 高效训练挑战与策略：涵盖数据、算力、收敛性等挑战，以及相应的概述性应对方案
  - 多模态数据对齐：原理、常用对齐方法
  - 分布式并行训练：DP、MP/TP、PP 等核心并行技术
  - MoE 架构：原理、多模态应用，EP
  - 多模态预训练与多任务学习：核心策略与优化目标
  - 难负例与对抗性负样本：挖掘与生成技术
  - 多模态高级轻量化：模型蒸馏、模型剪枝、模型量化
第十周多模态模型评估体系与推理优化
- 学习目标：
  - 多模态模型评估的基准体系与常用指标：FID、CLIP Score、FVD、CIDEr/SPICE，能选择适用于不同任务的评估方法
  - 针对特定多模态任务构建自定义评估体系，包括指标设计、数据准备与自动化评估流程
  - 多模态大模型推理部署的资源计算方法：GPU 显存、算力 FLOPs、吞吐量和延迟评估，为部署规划提供依据
  - 主流高性能多模态推理框架：vLLM、TensorRT、SGLang 的架构原理与核心优化策略
  - 高级推理优化技巧：KV 缓存优化、动态批处理、模型并行调度，提升多模态模型推理性能
  - 多模态模型服务化部署的设计原则：API 设计、微服务架构、可扩展部署方案
  - 诊断多模态模型推理性能瓶颈，应用实时调优方法解决实际问题
  - 实战：完成一个多模态模型的部署，进行性能优化与评估
- 知识点：
  - 多模态评估体系：常用评测指标（FID、CLIP Score、FVD、CIDEr/SPICE）及其计算方法与适用场景，自定义评估体系构建（指标设计、数据准备、自动化流程）
  - 推理部署资源计算：GPU 显存、FLOPs 估算，吞吐量、延迟定义与评估
  - 高性能推理框架：vLLM（PagedAttention）、TensorRT（图优化）、SGLang 架构原理与核心优化策略（如算子融合、混合精度）
  - 高级推理优化技巧：KV 缓存优化、动态批处理、推理并行调度（TP/PP 在推理中应用），采样解码（greedy/beam search）
  - 模型服务化部署：API 设计原则、微服务架构（容器化、编排）、可扩展部署方案，推理性能瓶颈诊断与实时调优
第十一周具身智能的多模态感知与决策控制
- 学习目标：
  - 具身智能核心概念与前沿：了解具身智能的定义、多模态交互、主流模型（如 EmbodiedGPT）及未来发展趋势（纯理论，深入案例分析）
  - 具身智能仿真平台：NVIDIA Isaac Sim、Habitat
  - 强化学习回顾与进阶：深入理解 MDP、策略梯度、值函数方法（如 Q-learning、SARSA），以及更高级的算法（如 PPO、SAC）
  - 强化学习在游戏中的应用范式：探索强化学习如何解决游戏中的决策、路径规划和角色行为控制问题
  - 游戏环境构建与交互：掌握构建或接入简易游戏环境（如 OpenAI Gym 类环境）的方法
  - 多模态感知在游戏中的体现：理解如何将游戏的视觉、音频等多模态信息作为强化学习的输入
  - 实战：基于强化学习的经典游戏
- 知识点：
  - 具身智能前沿理论：核心概念、挑战与经典模型（EmbodiedGPT）的架构与思想
  - 理解具身智能的感知-控制闭环实现方式与关键组件：Arduino Nano/Raspberry Pi、锂电池、传感器、舵机
  - 强化学习进阶算法：PPO、DQN、SAC 等主流强化学习算法的原理与实现细节
  - 游戏环境接口与构建：OpenAI Gym 接口、游戏状态表示、奖励函数设计
  - 深度强化学习：结合神经网络的强化学习实践
第十二周科研趋势发展与前沿探索
- 学习目标：
  - 多模态技术趋势三大核心发展方向：更深层次的跨模态理解与生成、具身智能与物理世界交互、计算效率与可扩展性以及伦理安全性
  - 多模态视频生成：视频生成模型（如Veo3、Make-A-Video、Video-LDM）的技术原理与最新研究进展
  - 3D 内容生成技术：3D 生成与三维重建技术路线、主流模型与实际落地场景
  - 具身智能（Embodied AI）：Embodied AI 领域的前沿挑战、代表模型与应用实例（PaLM-E、RT-2）
  - 世界模型（World Models）：世界模型的定义、原理与在具身智能中的前沿应用进展
  - 前沿多模态论文精读：2023年-2025年多模态领域顶会论文的关键技术与核心贡献解析
  - 实战：基于最新论文复现部分关键技术
- 知识点：
  - 视频与3D生成技术：视频生成模型 Make-A-Video 与3D生成模型（如3DiM）技术细节
  - 具身智能最新进展：PaLM-E、RT-2 模型技术路线与前沿解析
  - 世界模型技术：世界模型的技术架构与落地方法解析
第十三周多模态大模型安全防护
- 学习目标：
  - 理解多模态大模型安全的核心挑战与风险
  - 掌握多模态红队攻防的基本概念：常见攻击方法（如提示注入、模型逆向、对抗性扰动）及其防御手段
  - 识别多模态视觉-语言模型（VLM）特有的安全漏洞与攻击模式：视觉指令微调的副作用、视觉输入绕过
  - 了解多模态模型鲁棒性的定义、评估方法与提升技术
  - 理解可信 AI（Trustworthy AI）在多模态领域的原则，掌握数据隐私（差分隐私、联邦学习）与数据安全（匿名化、脱敏）的关键技术
  - 探讨多模态模型的伦理风险、合规审查与国际标准（ISO、NIST）
  - 实战：多模态模型安全漏洞分析与防御
- 知识点：
  - 多模态模型常见攻击方法：提示注入攻击 (Prompt Injection)、指令污染与数据泄露防范、模型逆向攻击 (Model Inversion)
  - 对抗性扰动生成技术：FGSM (Fast Gradient Sign Method) 、PGD (Projected Gradient Descent)
  - 数据隐私保护：差分隐私 (Differential Privacy)、联邦学习 (Federated Learning)

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

极客时间多模态大模型训练营

评论(0)

提示：请文明发言取消回复

作者信息

文章展示

极客时间 PostgreSQL进阶训练营

极客时间 Ai算法进阶训练营

极客时间微服务进阶训练营

极客时间大模型高级工程师认证课

极客时间 AIOps训练营

极客时间 AIGC产品经理训练营

排行榜展示

呀这个资源忘记放百度网盘链接了请联系客服直接领取

客服QQ号：3807009482 首次加客服可免费领取本网站一个月的会员

Go进阶 IM系统设计与落地，单体到微服务深度剖析

MQ大牛成长课–从0到1手写分布式消息队列中间件

MCP+A2A 从0到1构建类Manus多Agent全栈应用

Java转 AI高薪领域必备-从0到1打通生产级AI Agent开发

极客时间 多模态大模型训练营

评论(0)

提示：请文明发言 取消回复

相关文章

作者信息

文章展示

排行榜展示

极客时间多模态大模型训练营

提示：请文明发言取消回复