极客时间 Spark 性能调优实战-itall6

你将获得

深入浅出的 Spark 核心原理
全面解析 Spark SQL 性能调优
应用开发、配置项设置实操指南
手把手带你实现一个分布式应用

AI 导学

在人工智能迅猛发展的今天，掌握高性能计算框架已成为提升算法效率的关键。本课程《Spark 性能调优实战》深入剖析 Spark 核心机制与调优技巧，助你在海量数据处理中游刃有余。课程涵盖 RDD、DAG、调度系统、内存管理等底层原理，并结合 Shuffle 优化、广播变量、Spark SQL 调优等实战技能，全面提升你的性能调优能力。通过北京市小客车摇号数据的真实项目演练，你将掌握从数据清洗、分布式计算到性能优化的全流程开发技巧。学完本课，你不仅能深入理解 Spark 的运行机制，还能熟练运用 AQE、DPP、Catalyst 优化器等高级特性，显著提升任务执行效率。无论你是 AI 工程师、大数据开发者，还是希望进入高并发计算领域的学习者，这门课都将助你突破性能瓶颈，在职业发展中抢占先机。

课程介绍

目前，Spark 已然成为分布式数据处理技术的事实标准，也在逐渐成为各大头部互联网公司的标配。对于数据领域的任何一名工程师来说，Spark 开发都是一项必备技能；而想要进入大厂，就更得有丰富的 Spark 性能调优经验。

可现实情况是，我们想要快速上手开发应用很容易，把握应用的执行性能却总也找不到头绪，比如：

明明都是内存计算，为什么我用了 RDD/DataFrame Cache，性能反而更差了？
网上吹得神乎其神的调优手段，为啥到了我这就不好使呢？
并行度设置得也不低，为啥我的 CPU 利用率还是上不去？
节点内存几乎全都划给 Spark 用了，为啥我的应用还是 OOM？

为此，我们特意邀请到了吴磊老师，他根据自己多年的数据处理经验，梳理出了一套关于性能调优的方法论，帮助你在有效加速 Spark 作业执行性能的同时，也建立起以性能为导向的开发习惯。

除此之外，他还会手把手教你打造一个分布式应用，带你从不同角度洞察汽油车摇号的趋势和走向，让你对性能调优技巧和思路的把控有一个“质的飞跃”。

课程模块设计

课程按照原理、性能、实战分为三大部分。

原理篇：主要讲解与性能调优息息相关的核心概念，包括RDD、DAG、调度系统、存储系统和内存管理。力求用最贴切的故事和类比、最少的篇幅，让你在最短的时间内掌握其核心原理，为后续的性能调优打下坚实的基础。

性能篇：虽然 Spark 的应用场景可以分为 5 大类，包括海量批处理、实时流计算、图计算、数据分析和机器学习。但它对 Spark SQL 的倾斜和倚重也是有目共睹，所以性能篇主要分两部分来讲。

一部分主要讲解性能调优的通用技巧，包括应用开发的基本原则、配置项的设置、Shuffle 的优化、资源利用率的提升。另一部分会专注于数据分析领域，借助 Spark 内置优化如 Tungsten、AQE 和典型场景如数据关联，总结 Spark SQL 中的调优方法和技巧。

实战篇：以 2011-2019 的《北京市汽油车摇号》数据为例，手把手教你打造一个分布式应用，带你从不同角度洞察汽油车摇号的趋势和走向，帮助你实践我们的方法论和调优技巧，不仅要学得快，也要学得好！

除此之外，课程更新期间，还会不定期地针对一些热点话题进行加餐。比如，和 Flink、Presto 相比，Spark 有哪些优势；再比如，Spark 的一些新特性，以及业界对于 Spark 的新探索。这也能帮助你更好地面对变化，把握先机。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

极客时间 Spark 性能调优实战

你将获得

AI 导学

课程介绍

课程模块设计

评论(0)

提示：请文明发言取消回复

作者信息

文章展示

百战程序员百战程序员

极客时间 AI 数据分析课

极客时间手把手带你搭建推荐系统

极客时间说透元宇宙