你将学到:
- 系统掌握 SRE 实用核心技能
- 掌握可复用大厂服务保障方案
- 提升快速定位与故障处理能力
- 提升容量规划与性能优化技巧
- 倍增全局系统安全可靠性思维
- 具备AIOps服务保障落地经验
课程简介:
SRE,网站可靠性工程师,相较于传统运维,SRE 更注重用软件工程的思维来提高服务的性能、稳定性和扩展性,薪资更高,职业空间更大,是毕业生求职,研发、测试、运维工程师突破职场困境的蓝海岗位。本课程由资深 SRE 专家亲授,以故障事件管理为核心,带你系统构建实用知识体系;收获大厂级可复用的服务保障方案【覆盖监控、容量规划、故障处理、自动化运维及性能优化等关键领域】;打通硬技能的同时,更倍增全局可靠性思维的软技能 ,助你快人一步驶入提升核心竞争力的快车道。
课程目录:第1章 SRE入行第一课
2 节|15分钟
收起
视频:
1-1 跟大牛学大厂经验,轻松开启职业新篇章
试看
10:04
视频:
1-2 就业新蓝海:可靠性工程师前景展望
04:43
第2章 大厂SRE秘籍:颠覆传统运维的速通指南
6 节|51分钟
收起
视频:
2-1 站点可靠性工程基本概念入门
15:00
视频:
2-2 对比运维和DevOps理解SRE
06:52
视频:
2-3 从SRE的方法论了解工作流程
10:22
视频:
2-4 可靠性设计的十个原则
10:51
视频:
2-5 SRE工程师技术栈全貌和成长之路
04:12
视频:
2-6 本章总结
03:33
第3章 拥抱云原生:开启稳定高效的云上运维新篇章
8 节|58分钟
收起
视频:
3-1 微服务:现代化应用的分身术
06:31
视频:
3-2 从可靠性工程师视角设计软件架构
07:31
视频:
3-3 云原生:构筑未来数字世界的底座
04:08
视频:
3-4 容器引擎和容器 编排:封装和运输任何应用的强大引擎
05:14
视频:
3-5 云上网络
06:12
视频:
3-6 docker基础命令实操
10:14
视频:
3-7 容器化实操:基于k8s部署可伸缩的在线服务集群
13:17
视频:
3-8 本章总结
04:04
第4章 久经实战的武器库:大厂SRE如何化解故障无法感知、难于定位的系统难题
10 节|96分钟
收起
视频:
4-1 快速入门APM可观测
试看
13:12
视频:
4-2 如何评估系统的可用性和服务质量
12:09
视频:
4-3 厘清庞大系统的脉络,APM有哪些工具与平台
07:09
视频:
4-4 手动搭建和微服务项目应用skywalking
11:56
视频:
4-5 详解promethues架构设计
04:57
视频:
4-6 promethues+grafana监控golang应用和机器性能
12:44
视频:
4-7 全面掌握promethues的exporter
08:00
视频:
4-8 全面掌握promethues的alertmanager
03:38
视频:
4-9 实战搭建基于阿里云SLS日志服务的nginx网关层监控报警
16:32
视频:
4-10 本章总结
05:12
第5章 SRE新视角:AIOps的探索与实践
5 节|45分钟
收起
视频:
5-1 什么是AIOps
10:27
视频:
5-2 AIOps之故障发现
13:47
视频:
5-3 SREWorks:阿里云的一站式DevOps解决方案
07:37
视频:
5-4 织云 Metis:腾讯怎么做智能运维metis
08:42
视频:
5-5 本章总结
04:04
第6章 未雨绸缪:在故障前打造多维防护网,拒故障于千里之外
13 节|142分钟
收起
视频:
6-1 本章介绍:了解容易被忽视的故障前工作
07:19
视频:
6-2 持续集成、持续交付与持续部署:构建代码审查、质量保证、分级发布的自动化通道-
16:05
视频:
6-3 容灾:冗余设计与容错处理
16:26
视频:
6-4 安全合规:必要的信息保护与数据安全
18:07
视频:
6-5 可观测建设:风险识别、分析、评估和告警
18:38
视频:
6-6 故障预案:应急响应流程设计
09:46
视频:
6-7 反脆弱:环境、产品和人的关系
05:47
视频:
6-8 系统压测:了解系统瓶颈
09:33
视频:
6-9 防患于未然:容量动态规划与预测
09:24
视频:
6-10 系统过载的预防设计
05:58
视频:
6-11 如何合理地建设7✖️24H的oncall机制
09:35
视频:
6-12 混沌工程
09:29
视频:
6-13 本章总结
05:34
第7章 有条不紊:突破传统运维,紧密贴近业务,SRE在故障中的关键角色与应对策略
4 节|40分钟
收起
视频:
7-1 争分夺秒的故障中
10:08
视频:
7-2 故障响应:抓告警,定位,预案执行
10:16
视频:
7-3 各种原因产生故障的应对策略
07:50
视频:
7-4 棘手的连锁故障
11:28
第8章 前事不忘,后事之师: SRE从复盘中收获成长力量,开拓创新迈向卓越
3 节|28分钟
收起
视频:
8-1 失败不是成功之母,复盘才是
16:28
视频:
8-2 复盘模板设计和解析
06:13
视频:
8-3 在沉淀中成长,在实践中改进
05:13
第9章 SRE智慧之鉴:深度剖析近期大型互联网应用故障案例
4 节|37分钟
收起
视频:
9-1 它山之石可以攻玉,盘点近期几大互联网故障复盘报告
13:18
视频:
9-2 2024年4月8日 腾讯云控制台故障
06:24
视频:
9-3 2023年11月27日 滴滴全平台服务中断故障
09:32
视频:
9-4 2024年8月19日 网易网站+云音乐服务中断故障
07:10
第10章 SRE底蕴:团队文化共筑系统可靠性长城
5 节|38分钟
收起
视频:
10-1 SRE可靠性文化的建立
03:08
视频:
10-2 oncall值日生的一天
05:32
视频:
10-3 平衡oncall和日常工作
08:10
视频:
10-4 10.4 新人培养和团队文化
11:22
视频:
10-5 跨职能协作与沟通
09:07
第11章 求职指导与课程总结
2 节|25分钟
收起
视频:
11-1 SRE求职面试辅导
18:37
视频:
11-2 课程总结
06:13
2 节|15分钟
收起
视频:
1-1 跟大牛学大厂经验,轻松开启职业新篇章
试看
10:04
视频:
1-2 就业新蓝海:可靠性工程师前景展望
04:43
第2章 大厂SRE秘籍:颠覆传统运维的速通指南
6 节|51分钟
收起
视频:
2-1 站点可靠性工程基本概念入门
15:00
视频:
2-2 对比运维和DevOps理解SRE
06:52
视频:
2-3 从SRE的方法论了解工作流程
10:22
视频:
2-4 可靠性设计的十个原则
10:51
视频:
2-5 SRE工程师技术栈全貌和成长之路
04:12
视频:
2-6 本章总结
03:33
第3章 拥抱云原生:开启稳定高效的云上运维新篇章
8 节|58分钟
收起
视频:
3-1 微服务:现代化应用的分身术
06:31
视频:
3-2 从可靠性工程师视角设计软件架构
07:31
视频:
3-3 云原生:构筑未来数字世界的底座
04:08
视频:
3-4 容器引擎和容器 编排:封装和运输任何应用的强大引擎
05:14
视频:
3-5 云上网络
06:12
视频:
3-6 docker基础命令实操
10:14
视频:
3-7 容器化实操:基于k8s部署可伸缩的在线服务集群
13:17
视频:
3-8 本章总结
04:04
第4章 久经实战的武器库:大厂SRE如何化解故障无法感知、难于定位的系统难题
10 节|96分钟
收起
视频:
4-1 快速入门APM可观测
试看
13:12
视频:
4-2 如何评估系统的可用性和服务质量
12:09
视频:
4-3 厘清庞大系统的脉络,APM有哪些工具与平台
07:09
视频:
4-4 手动搭建和微服务项目应用skywalking
11:56
视频:
4-5 详解promethues架构设计
04:57
视频:
4-6 promethues+grafana监控golang应用和机器性能
12:44
视频:
4-7 全面掌握promethues的exporter
08:00
视频:
4-8 全面掌握promethues的alertmanager
03:38
视频:
4-9 实战搭建基于阿里云SLS日志服务的nginx网关层监控报警
16:32
视频:
4-10 本章总结
05:12
第5章 SRE新视角:AIOps的探索与实践
5 节|45分钟
收起
视频:
5-1 什么是AIOps
10:27
视频:
5-2 AIOps之故障发现
13:47
视频:
5-3 SREWorks:阿里云的一站式DevOps解决方案
07:37
视频:
5-4 织云 Metis:腾讯怎么做智能运维metis
08:42
视频:
5-5 本章总结
04:04
第6章 未雨绸缪:在故障前打造多维防护网,拒故障于千里之外
13 节|142分钟
收起
视频:
6-1 本章介绍:了解容易被忽视的故障前工作
07:19
视频:
6-2 持续集成、持续交付与持续部署:构建代码审查、质量保证、分级发布的自动化通道-
16:05
视频:
6-3 容灾:冗余设计与容错处理
16:26
视频:
6-4 安全合规:必要的信息保护与数据安全
18:07
视频:
6-5 可观测建设:风险识别、分析、评估和告警
18:38
视频:
6-6 故障预案:应急响应流程设计
09:46
视频:
6-7 反脆弱:环境、产品和人的关系
05:47
视频:
6-8 系统压测:了解系统瓶颈
09:33
视频:
6-9 防患于未然:容量动态规划与预测
09:24
视频:
6-10 系统过载的预防设计
05:58
视频:
6-11 如何合理地建设7✖️24H的oncall机制
09:35
视频:
6-12 混沌工程
09:29
视频:
6-13 本章总结
05:34
第7章 有条不紊:突破传统运维,紧密贴近业务,SRE在故障中的关键角色与应对策略
4 节|40分钟
收起
视频:
7-1 争分夺秒的故障中
10:08
视频:
7-2 故障响应:抓告警,定位,预案执行
10:16
视频:
7-3 各种原因产生故障的应对策略
07:50
视频:
7-4 棘手的连锁故障
11:28
第8章 前事不忘,后事之师: SRE从复盘中收获成长力量,开拓创新迈向卓越
3 节|28分钟
收起
视频:
8-1 失败不是成功之母,复盘才是
16:28
视频:
8-2 复盘模板设计和解析
06:13
视频:
8-3 在沉淀中成长,在实践中改进
05:13
第9章 SRE智慧之鉴:深度剖析近期大型互联网应用故障案例
4 节|37分钟
收起
视频:
9-1 它山之石可以攻玉,盘点近期几大互联网故障复盘报告
13:18
视频:
9-2 2024年4月8日 腾讯云控制台故障
06:24
视频:
9-3 2023年11月27日 滴滴全平台服务中断故障
09:32
视频:
9-4 2024年8月19日 网易网站+云音乐服务中断故障
07:10
第10章 SRE底蕴:团队文化共筑系统可靠性长城
5 节|38分钟
收起
视频:
10-1 SRE可靠性文化的建立
03:08
视频:
10-2 oncall值日生的一天
05:32
视频:
10-3 平衡oncall和日常工作
08:10
视频:
10-4 10.4 新人培养和团队文化
11:22
视频:
10-5 跨职能协作与沟通
09:07
第11章 求职指导与课程总结
2 节|25分钟
收起
视频:
11-1 SRE求职面试辅导
18:37
视频:
11-2 课程总结
06:13
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

评论(0)