跳转至

AWS Zero ETL

ETL 是将业务系统的数据经过提取(Extract)、转换清洗(Transform)和加载(Load)到数据仓库、大数据平台的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起。ETL相关工作量可能会占据数据工程师 70% 甚至更多,而 Zero ETL 的出现用于解决这些痛点。

Zero ETL并不是一个单一的服务,而是一个由多种服务组成的解决方案集合。亚马逊云的Amazon Aurora Zero ETL与Amazon Redshift的集成、Amazon Redshift与Apache Spark的集成、Amazon Redshift auto-copy from S3、Amazon AppFlow以及Amazon Athena的Federated Query联邦查询等服务。这些产品或服务为企业提供了高效、便捷的数据融合和分析解决方案,有助于企业从数据中创造价值。

zero ETL

亚马逊云科技的Zero ETL解决方案

  1. Amazon Aurora Zero ETL与Amazon Redshift的集成

    • 功能:无需自定义数据通道,即可分析PB级的数据。
    • 优势:支持将交易数据在写入Amazon Aurora后的几秒钟内自动连续复制,使其在Amazon Redshift中即时可用。客户可以立即开始分析数据,并利用数据共享和Amazon Redshift ML等高级功能获得全面的预测性洞察。
  2. Amazon Redshift与Apache Spark的集成

    • 功能:让客户通过Apache Spark访问Amazon Redshift上的实时数据。
    • 优势:开发人员可以快速而敏捷地实现分析与机器学习。
  3. Amazon Redshift auto-copy from S3

    • 功能:用户可以从Amazon S3平台上自动复制数据,将文件注入到Amazon Redshift当中,自动把新的文档根据客户的解决方案还有第三方的资源整合起来使用。
  4. Amazon AppFlow

    • 功能:完全托管的集成服务,使用户能够在SaaS应用程序与Amazon S3和Amazon Redshift等亚马逊云科技服务之间安全地传输数据,支持50多个连接器。
    • 优势:在本地系统和应用程序、SaaS应用程序和亚马逊云服务之间提供双向数据集成。用户无需编写代码即可在数分钟内设置数据流,帮助客户打破数据孤岛。
  5. Amazon Athena的Federated Query联邦查询

    • 功能:可以对存储在关系数据源、非关系数据源、对象数据源和外部自定义数据源中的数据运行SQL查询,而无需移动数据。
  6. Amazon Redshift Spectrum

    • 功能:无需数据移动,用户即可使用Spectrum来访问数据湖Amazon S3中的数据。
  7. Amazon Redshift streaming ingestion

    • 功能:流式数据接入功能,直接让流式数据接入数据仓库,打造云原生实时数仓。

参考链接:

  1. Zero ETL — 数据工程师的未来照进现实
  2. 现代流式数据分析架构
  3. 游戏数据湖最佳实践

捐赠本站(Donate)

weixin_pay
如您感觉文章有用,可扫码捐赠本站!(If the article useful, you can scan the QR code to donate))