
课程大纲

-
第一周机器学习与深度学习基础
-
学习目标:
-
课程梗概:本课程整体的设计背景、设计思路、学习建议、实战环境
-
常见机器学习任务:监督学习(回归、分类(二/多分类)),非监督学习(聚类、降维)的输入输出
-
常见机器学习算法:线性/逻辑回归、支持向量机、决策树、随机森林、K-均值、主成分分析的适用场景与优缺点
-
深度学习任务版图:计算机视觉、自然语言处理、音频(自动语音识别 & 文本转语音)、多模态
-
深度学习训练要素:神经网络、激活函数、损失函数、学习率/调度器、批大小、epoch/step、早停、优化器
-
评估指标与可解释性:混淆矩阵、准确率、精确率/召回率/F1、ROC-AUC/PR-AUC
-
强化学习最小闭环:MDP 五元组、Bellman 递推、值函数/策略梯度/Actor-Critic 的区别与联系
-
实战:电商 SKU 卡片生成(数据增强 + 图片分类 + 文本摘要)
-
-
知识点:
-
权重与激活函数:Sigmoid、Softmax、Tanh、ReLU、GELU
-
正则化与归一化:L1/L2、Dropout,BatchNorm/LayerNorm/GroupNorm/RMSNorm
-
数据增强:图像(随机裁剪/翻转/颜色抖动)、文本(同义替换/回译)、音频(SpecAugment)
-
PyTorch 基础:Tensor、Module、Optimizer、Dataset、DataLoader、AMP
-
-
-
第二周大模型微调与落地
-
学习目标:
-
Transformer 机制:多头自注意力机制(QKV 映射与注意力矩阵)、位置编码方式(绝对/相对/旋转)、前馈网络与激活函数、残差连接与 LayerNorm 作用
-
预训练家族类型:BERT(MLM 任务、理解为主)、T5(去噪 Seq2Seq,兼具生成)、GPT(Causal LM,纯生成)各自在下游任务中的适配边界
-
指令微调 SFT:样本三元组设计(指令/输入/输出)、模板化与占位符、数据清洗与一次性校验
-
PEFT 体系:LoRA/QLoRA、Prefix-tuning/P-tuning/Prompt-tuning 的取舍与组合策略
-
RAG:适用边界、最小可用流程(检索→重排→生成)、离线/在线评估与故障诊断
-
多模态 RAG:掌握多模态 RAG 的基本原理和方法,理解其在跨模态检索时的不同方法。
-
部署压缩方法:常见的基础模型部署优化方法(蒸馏、剪枝、量化),掌握其在低资源通用大模型应用场景下的作用与权衡
-
安全与鲁棒性:指令污染与数据泄露防范、对抗样例与格式约束的基础做法
-
实战:可溯源的问答助手(小型领域文档 → RAG 管线 + LoRA 轻量微调,回答附带来源片段与页码)
-
-
知识点:
-
训练链路:Pre-training、SFT、Alignment(RLHF/RLAIF/DPO/GRPO)的责任划分与常见误区
-
预训练任务细化:MLM、Denoising、Causal LM、多任务混合与指令分布对齐
-
SFT 数据规范:样本三元组与模板化、哈希/近重复去重、脏样本与格式校验、脱敏与标注一致性
-
LoRA 细节:r/alpha/dropout 选择、目标层(q/k/v/o/MLP)与冻结策略、冻结比例设置、权重合并与导出
-
RAG 组件与评测:嵌入器(文本/多模态)、向量数据库与索引、Cross-Encoder 重排,检索/生成双通道指标(Recall@K、nDCG、Faithfulness)
-
Prompt 基要:system/user/examples 的分工,temperature/长度控制/停止词与输出格式约束
-
-
-
第三周多模态全景认知
-
学习目标:
-
多模态的定义与边界:理解模态的概念及常见类型(视觉、文本、语音、传感器数据等),区分单模态、多模态与跨模态任务,明确多模态与 AIGC 的关系与差异
-
多模态数据与表征:理解多模态数据的常见组织形式(成对、成组、序列),掌握跨模态特征空间对齐的概念与常见方法,熟悉相似度计算指标(余弦相似度、欧氏距离)
-
多模态任务类型:生成类(图像生成、视频生成)、理解类(图像描述、视觉问答)、检索类(以图搜图、跨模态检索)、推理与控制类(多模态推理、具身智能决策)
-
多模态模型架构:双塔架构(CLIP)、融合-解码架构(Step3)、统一 Transformer 架构(Chameleon)
-
跨模态对齐核心思想:让不同模态的相同语义在特征空间中接近(对比学习、特征回归与投影、多任务联合训练)
-
多模态应用场景:虚拟人、电商、科研、翻译、智驾/机器人感知、医疗、游戏
-
实战:拍照找同款 + 图像问答式商品客服
-
-
知识点:
-
视觉编码器的作用与常见结构,ViT 的基础原理(patch 切分、Transformer 编码、位置编码、特征抽取方式)
-
双塔架构与融合-解码架构的特点
-
语音编码与合成的基础流程:端到端 ASR、TTS(Fish Speech)
-
工业界多模态检索的两阶段方案:粗排-精排
-
-
-
第四周虚拟人生成与交互技术
-
学习目标:
-
虚拟人的基本组成与数据流:理解从图像生成、语音合成、视频驱动到最终输出的完整流程
-
图像生成与条件控制:掌握扩散模型(Diffusion Models)和条件生成(ControlNet)的核心原理与应用方式
-
国内开源大语言模型基座:Qwen3、DeepSeek-R1、GLM-4.5、Kimi-K2 等的特点和差异
-
语音合成(TTS):主流语音合成技术(Fish Speech)的应用技巧
-
声音克隆(Voice Cloning):主流开源(OpenVoice 或 MetaVoice)克隆技术介绍
-
虚拟人口型驱动:Wav2Lip、VASA-1、LivePortrait 等特点和差异
-
扩展知识:了解生成对抗网络(GAN)的结构及其在小样本生成(StyleGAN、DreamBooth-GAN)、图像超分辨率(ESRGAN)、图像翻译(CycleGAN、Pix2Pix)等场景中的应用
-
实战:虚拟人直播带货 + 直播答疑
-
-
知识点:
-
扩散模型的数学原理、采样流程与模型架构,ControlNet 在生成中的精准控制
-
虚拟人直播的多任务调度:产品介绍与回答用户问题之间的优先级管理
-
问题识别与分类:产品问题、闲聊问题、无关问题、恶意提问等检测与应答策略
-
上下文衔接与恢复:回答后回到原讲解节奏的上下文管理技术
-
GAN 在生成中的常见问题及性能优化方案
-
-
-
第五周多模态 OCR 与智能翻译链路
-
学习目标:
-
理解 OCR 任务在多模态AI中的角色,掌握从图像感知、版面结构解析到文本生成的完整流程
-
传统 OCR 技术(序列识别模型 CRNN、文字检测模型 DBNet)的工作原理与局限性
-
多模态 OCR 架构(生成式 Donut、Transformer 式 TrOCR、结构感知式 LayoutLMv3)的输入处理、特征融合和生成机制
-
表格与版面结构建模方法(TAPAS、TableFormer)及复杂表格解析策略
-
多语种 OCR 与手写识别技术(多语言预训练、字体风格差异处理、数据增强方法)
-
OCR 到翻译的衔接链路(多语言生成模型 NLLB),实现不同语言的自动转换
-
拓展知识:OCR 在 RAG 问答系统中的落地价值(AnythingLLM)
-
实战:中英文混排文档的结构化识别与翻译
-
-
知识点:
-
OCR 的检测与识别流程及典型模型原理
-
主流 OCR 数据集(文档类 FUNSD、DocVQA,票据类 SROIE,表格类 TableBank,街景/车牌类 ICDAR,手写类 IAM)的特点与应用
-
OCR 与翻译链路的评估方法及常用指标(CER/WER、BLEU、chrF)
-
多场景 OCR 的泛化与数据增强(光照变化、旋转畸变、字体多样化、噪声注入)对模型鲁棒性的提升作用
-
-
-
第六周视觉定位与跨模态融合感知
-
学习目标:
-
理解视觉-语言任务在多模态 AI 中的定位和应用场景,能够复现和调试从对象检测与定位、跨模态特征对齐到推理输出的完整流程,并将其用于 VQA 与 Grounding 任务的模型搭建
-
区分视觉问答(VQA)、视觉定位(Grounding)、图像计数(Counting)、视觉推理(Visual Reasoning)的任务定义、边界与互补性
-
视觉定位与图像计数模型:从 DETR 的查询式检测范式触发,理解 GLIP 的语言-视觉对齐预训练,再聚焦 Grounding DINO 的开集(Open-set)定位方法与评估,对比精度/速度/扩展性
-
跨模态融合策略(早/中/晚融合)的原理及在不同 VLM 架构中的适配方式
-
多模态注意力机制(Cross-Attention、Co-Attention)的计算逻辑,分析其对模型解释性的影响
-
Attention 的可视化方法(Attention Maps、Grad-CAM、Attention Rollout)及其在调试和优化中的作用
-
实战:基于图文内容的跨模态理解
-
-
知识点:
-
视觉-语言融合的三种主流模式:交叉注意力(Cross-Attention)、视觉适配器(Visual Adapter)、视觉编码器(ResNet/ViT)
-
VQA 任务:常用数据集(VQAv2、GQA),常用指标(准确率、多选指标)
-
Grounding 任务:常用数据集(Flickr30k Entities、RefCOCO 系列),常用指标(mAP、IoU)
-
Counting 任务:常用数据集(ShanghaiTech、UCF-QNRF、FSC-147),常用指标(MAE、RMSE)
-
视觉推理任务:常用数据集(CLEVR、GQA),常用指标(多步推理准确率)
-
-
-
第七周文本到 SQL(NL2SQL)与多表推理
-
学习目标:
-
NL2SQL 的任务定义、发展历程与核心挑战
-
主流 NL2SQL 语义解析的技术路径与实现原理:基于 Seq2Seq、图神经网络、大型语言模型
-
运用 SQL 语言优化技巧,理解数据库 Schema 与 NL2SQL 模型交互的关键
-
上下文增强 NL2SQL 的策略,有效提升模型在复杂对话场景下的准确性与泛化能力
-
Few-shot/Zero-shot SQL 生成的核心思想与落地策略,能评估与选择合适的模型
-
NL2SQL 模型的性能评估指标、错误诊断与常见的纠错机制
-
深入理解文本与数据库 Schema 对齐(Schema Linking)的方法及其在歧义消解中的应用
-
实战:数据报表智能查询助手
-
-
知识点:
-
数据库与 SQL 基础:数据库 Schema 理解与 SQL 查询优化技巧
-
NL2SQL 模型:T5、GPT 等大型语言模型架构在 NL2SQL 中的技术路线与核心实现,Seq2Seq、图神经网络等经典架构原理
-
语义解析方法:语义解析在 NL2SQL 中的应用,包括端到端与基于中间表示的方法
-
Schema 对齐策略:Schema Linking 技术(实体识别、类型匹配)与实际应用方案、歧义消解策略
-
Few-shot 与 Zero-shot 方法:小样本与零样本SQL生成的实现方法、Prompt Learning 与模型选择策略
-
上下文增强:多轮对话与历史信息在 NL2SQL 中的利用策略
-
模型评估与诊断:性能评估指标(执行准确率等)、错误类型分析(预测列错误、谓词表达偏差、子句结构错误等)与纠错机制
-
-
-
第八周医疗影像分析与智能报告生成
-
学习目标:
-
医疗影像(CT、MRI)的常见任务类型,初步规划其分析技术路线与落地流程
-
医疗影像中病灶检测与分割的核心技术,运用 UNet、TransUNet 模型进行实现与调优
-
基于影像和病历数据的医疗报告自动生成原理,分析主流模型路径与医学 Prompt 设计方法
-
医学影像数据的预处理方法:数据清洗、标准化、增强与常用格式转换(DICOM)
-
医学知识图谱在多模态影像分析中的作用,识别其构建与辅助影像诊断的应用场景
-
医疗影像数据隐私保护的核心原则,应用数据脱敏与匿名化等技术方案满足合规要求
-
医疗影像模型的主流评估指标:Dice、IoU、Hausdorff 距离,能科学评估模型的性能
-
实战:辅助诊断系统(影像识别+报告生成)
-
-
知识点:
-
医疗影像分割与检测:UNet、TransUNet 模型架构细节
-
医疗报告生成技术:医学 Prompt 设计与生成模型细节
-
数据预处理方法:医疗影像数据增强与脱敏策略
-
隐私保护方案:医学数据合规与隐私保护技术路线
-
-
-
第九周多模态模型高效训练与优化
-
学习目标:
-
多模态模型高效训练的核心挑战(数据、算力、收敛性),整体的应对思路
-
多模态数据对齐的原理与方法,为训练提供高质量数据基础
-
主流的分布式训练并行策略(数据并行 DP、模型并行 MP/TP、流水线并行 PP)及其在多模态大模型训练中的应用
-
MoE (Mixture of Experts) 架构及其在多模态模型中的优势,专家并行 EP 的实现思路
-
多模态预训练和多任务学习的策略,优化模型学习效率与泛化能力
-
难负例挖掘(Hard Negative Mining)、对抗性负样本生成等高级训练技巧,提升多模态模型的训练效果与鲁棒性
-
多模态模型高级轻量化技术(深度蒸馏、结构化剪枝、量化感知训练),优化模型规模与推理效率,理解其在多模态数据和架构下的特殊考量
-
实战: 针对特定多模态任务,选择并应用高效训练或优化方法,提升模型性能
-
-
知识点:
-
高效训练挑战与策略:涵盖数据、算力、收敛性等挑战,以及相应的概述性应对方案
-
多模态数据对齐:原理、常用对齐方法
-
分布式并行训练:DP、MP/TP、PP 等核心并行技术
-
MoE 架构:原理、多模态应用,EP
-
多模态预训练与多任务学习:核心策略与优化目标
-
难负例与对抗性负样本:挖掘与生成技术
-
多模态高级轻量化:模型蒸馏、模型剪枝、模型量化
-
-
-
第十周多模态模型评估体系与推理优化
-
学习目标:
-
多模态模型评估的基准体系与常用指标:FID、CLIP Score、FVD、CIDEr/SPICE,能选择适用于不同任务的评估方法
-
针对特定多模态任务构建自定义评估体系,包括指标设计、数据准备与自动化评估流程
-
多模态大模型推理部署的资源计算方法:GPU 显存、算力 FLOPs、吞吐量和延迟评估,为部署规划提供依据
-
主流高性能多模态推理框架:vLLM、TensorRT、SGLang 的架构原理与核心优化策略
-
高级推理优化技巧:KV 缓存优化、动态批处理、模型并行调度,提升多模态模型推理性能
-
多模态模型服务化部署的设计原则:API 设计、微服务架构、可扩展部署方案
-
诊断多模态模型推理性能瓶颈,应用实时调优方法解决实际问题
-
实战:完成一个多模态模型的部署,进行性能优化与评估
-
-
知识点:
-
多模态评估体系:常用评测指标(FID、CLIP Score、FVD、CIDEr/SPICE)及其计算方法与适用场景,自定义评估体系构建(指标设计、数据准备、自动化流程)
-
推理部署资源计算:GPU 显存、FLOPs 估算,吞吐量、延迟定义与评估
-
高性能推理框架:vLLM(PagedAttention)、TensorRT(图优化)、SGLang 架构原理与核心优化策略(如算子融合、混合精度)
-
高级推理优化技巧:KV 缓存优化、动态批处理、推理并行调度(TP/PP 在推理中应用),采样解码(greedy/beam search)
-
模型服务化部署:API 设计原则、微服务架构(容器化、编排)、可扩展部署方案,推理性能瓶颈诊断与实时调优
-
-
-
第十一周具身智能的多模态感知与决策控制
-
学习目标:
-
具身智能核心概念与前沿:了解具身智能的定义、多模态交互、主流模型(如 EmbodiedGPT)及未来发展趋势(纯理论,深入案例分析)
-
具身智能仿真平台:NVIDIA Isaac Sim、Habitat
-
强化学习回顾与进阶:深入理解 MDP、策略梯度、值函数方法(如 Q-learning、SARSA),以及更高级的算法(如 PPO、SAC)
-
强化学习在游戏中的应用范式:探索强化学习如何解决游戏中的决策、路径规划和角色行为控制问题
-
游戏环境构建与交互:掌握构建或接入简易游戏环境(如 OpenAI Gym 类环境)的方法
-
多模态感知在游戏中的体现:理解如何将游戏的视觉、音频等多模态信息作为强化学习的输入
-
实战:基于强化学习的经典游戏
-
-
知识点:
-
具身智能前沿理论:核心概念、挑战与经典模型(EmbodiedGPT)的架构与思想
-
理解具身智能的感知-控制闭环实现方式与关键组件:Arduino Nano/Raspberry Pi、锂电池、传感器、舵机
-
强化学习进阶算法:PPO、DQN、SAC 等主流强化学习算法的原理与实现细节
-
游戏环境接口与构建:OpenAI Gym 接口、游戏状态表示、奖励函数设计
-
深度强化学习:结合神经网络的强化学习实践
-
-
-
第十二周科研趋势发展与前沿探索
-
学习目标:
-
多模态技术趋势三大核心发展方向:更深层次的跨模态理解与生成、具身智能与物理世界交互、计算效率与可扩展性以及伦理安全性
-
多模态视频生成:视频生成模型(如Veo3、Make-A-Video、Video-LDM)的技术原理与最新研究进展
-
3D 内容生成技术:3D 生成与三维重建技术路线、主流模型与实际落地场景
-
具身智能(Embodied AI):Embodied AI 领域的前沿挑战、代表模型与应用实例(PaLM-E、RT-2)
-
世界模型(World Models):世界模型的定义、原理与在具身智能中的前沿应用进展
-
前沿多模态论文精读:2023年-2025年多模态领域顶会论文的关键技术与核心贡献解析
-
实战:基于最新论文复现部分关键技术
-
-
知识点:
-
视频与3D生成技术:视频生成模型 Make-A-Video 与3D生成模型(如3DiM)技术细节
-
具身智能最新进展:PaLM-E、RT-2 模型技术路线与前沿解析
-
世界模型技术:世界模型的技术架构与落地方法解析
-
-
-
第十三周多模态大模型安全防护
-
学习目标:
-
理解多模态大模型安全的核心挑战与风险
-
掌握多模态红队攻防的基本概念:常见攻击方法(如提示注入、模型逆向、对抗性扰动)及其防御手段
-
识别多模态视觉-语言模型(VLM)特有的安全漏洞与攻击模式:视觉指令微调的副作用、视觉输入绕过
-
了解多模态模型鲁棒性的定义、评估方法与提升技术
-
理解可信 AI(Trustworthy AI)在多模态领域的原则,掌握数据隐私(差分隐私、联邦学习)与数据安全(匿名化、脱敏)的关键技术
-
探讨多模态模型的伦理风险、合规审查与国际标准(ISO、NIST)
-
实战:多模态模型安全漏洞分析与防御
-
-
知识点:
-
多模态模型常见攻击方法:提示注入攻击 (Prompt Injection)、指令污染与数据泄露防范、模型逆向攻击 (Model Inversion)
-
对抗性扰动生成技术:FGSM (Fast Gradient Sign Method) 、PGD (Projected Gradient Descent)
-
数据隐私保护:差分隐私 (Differential Privacy)、联邦学习 (Federated Learning)
-
-
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

评论(0)