Apache Hudi C位！云计算一哥AWS EMR 2020年度回顾

1. 概述

成千上万的客户在Amazon EMR上使用Apache Spark，Apache Hive，Apache HBase，Apache Flink，Apache Hudi和Presto运行大规模数据分析应用程序。Amazon EMR自动管理这些框架的配置和扩缩容，并通过优化的运行时提供更高性能，并支持各种Amazon Elastic Compute Cloud（Amazon EC2）实例类型和Amazon Elastic Kubernetes Service（Amazon EKS）集群。Amazon EMR方便数据工程师和数据科学家通过Amazon EMR Studio（预览版）和Amazon EMR Notebook轻松开发、可视化和调试数据科学应用程序。

可以参考来自客户在2020 AWS re:Invent大会上的一些talk

How Nielsen built a multi-petabyte data platform using Amazon EMR

Contextual targeting and ad tech migration best practices

The right tool for the job: Enabling analytics at scale at Intuit

以下博客提供了更多信息

How the Allen Institute uses Amazon EMR and AWS Step Functions to process extremely wide transcriptomic datasets

How the ZS COVID-19 Intelligence Engine helps Pharma & Med device manufacturers understand local healthcare needs & gaps at scale

Dream11’s journey to building their Data Highway on AWS

Enhancing customer safety by leveraging the scalable, secure, and cost-optimized Toyota Connected Data Lake

回顾2020年，EMR团队致力于以较低的价格提供更好的Amazon EMR性能，并使Amazon EMR在LakeHouse架构中更易于管理和更易于分析，本篇文章总结了过去一年的主要改进。

2. 差异化的引擎性能

Amazon EMR简化了大数据环境和应用程序的构建和运维，可以在几分钟内启动EMR群集，并且无需担心基础架构设置、集群设置、配置或调优。Amazon EMR负责这些任务，可以使得团队集中精力专注业务开发。除了避免构建和管理自己的基础架构来运行大数据应用程序的运维外，Amazon EMR还提供了比开源发行版更好的性能，并提供了100％的API兼容性。这意味着可以以更快速度运行工作负载而无需修改任何代码。

适用于Apache Spark的Amazon EMR运行时是针对Spark进行性能优化的运行时。我们首先在2019年11月在Amazon EMR 5.28.0版中引入了适用于Apache Spark的EMR运行时，并使用TPC-DS基准的查询来衡量相较于开源Spark 2.4的性能提升。测试结果表明相比开源版本查询执行时间的平均快了2.4倍，总查询运行时间快了3.2倍，最新结果表明Amazon EMR 5.30的运行速度是没有运行时的3倍，这意味着运行PB级数据可以以不到传统本地解决方案一半的成本进行规模分析。

我们还改善了Hive和PrestoDB的性能。2020年4月我们宣布从Amazon EMR 6.0开始支持Hive低延迟分析处理（LLAP）服务。测试表明在Amazon EMR 6.0上使用Hive LLAP比Apache Hive快两倍。2020年5月我们在Amazon EMR 5.30中引入了PrestoDB的Amazon EMR运行时，使用TPC-DS基准查询比较了使用运行时的Amazon EMR 5.31与未使用运行时的Amazon EMR 5.29，测试结果表明使用Amazon EMR 5.31和PrestoDB的运行时，查询执行时间的平均值快2.6倍。

3. 更简单的增量数据处理

Apache Hudi （Hadoop Upserts, Deletes and Incrementals）是一个开源数据管理框架，用于简化增量数据处理和数据管道开发，基于Apache Hudi，可以在Amazon Simple Storage Service（Amazon S3）数据湖中执行记录级的插入，更新和删除，从而简化构建变更数据捕获（CDC）管道，借助此功能你可以遵守数据隐私法规并简化数据提取管道，以处理来自流式管道输入和事务系统CDC等来源的迟到或更新的记录。Apache Hudi与开源大数据分析框架（例如Apache Spark，Apache Hive和Presto）集成，并以Apache Parquet和Apache Avro