Hero Circle Shape
Hero Moon Shape
Hero Right Shape
imtoken安卓下载app|elt

imtoken安卓下载app|elt

  • 作者: imtoken安卓下载app
  • 2024-03-07 18:29:58

数据同步工具ETL、ELT傻傻分不清楚?3分钟看懂两者区别 - 知乎

数据同步工具ETL、ELT傻傻分不清楚?3分钟看懂两者区别 - 知乎切换模式写文章登录/注册数据同步工具ETL、ELT傻傻分不清楚?3分钟看懂两者区别偶数专注于云数据平台产品和解决方案什么是数据同步工具(ETL、ELT)数据同步工具ETL或者ELT的作用是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。数据同步是BI项目重要的一个环节。通常情况下,在BI项目中数据同步会花掉整个项目至少1/3的时间,数据同步工具设计的好坏直接关接到BI项目的成败。 关于ETL与ELT的区别ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL其实并不是一个新的概念,大家经常使用的像Informatica、Kettle、DataStage等,就是传统的ETL数据同步工具。ETL的理念着重体现在一些数据清洗转化功能,比如空值处理、规范化数据、数据替换、数据验证等等。在数据湖或数据中台则往往会采用ELT的方式进行数据同步。ELT是一个比较新潮的概念,相比于ETL,从功能上来说没有差异,只是换了一个顺序。差别在于,如果采用ELT的方案,首先把数据用一种高效的方式从数据源抽取出来,然后在数据仓库中进行数据的转换处理。这种ELT的方式相比于ETL有很大的优势,而本文介绍的偶数数据中台Lava中的数据同步工具,使用的就是ELT这种理念。关于偶数数据中台里的数据同步工具产品设计作为一个数据同步工具,偶数的数据同步工具支持很多常用数据源比如DB2、Oracle、MySQL、SQLServer、Postgresql等关系型数据库以及HDFS等。偶数的数据同步工具符合ELT的理念,把数据的转换处理交给目标数据仓库来做。并且很好的利用目标数据仓库,例如OushuDB的高效特性来进行数据同步,块级别的并发导入效率远远高于JDBC的方式导入。基于OushuDB的高效性能,ELT的优势更加明显:1.更快的数据同步速度传统的ETL需要将数据加载到临时空间中,而且随着数据大小的增加,转换时间也会增加。但是在ELT过程中,速度不会数据大小的影响,而且仅需加载到目标系统一次,无需使用临时空间。2.更快的清洗、分析速度在ELT的理念下,数据转换依赖强大的目标系统,相比ETL在数据抽取过程中对数据处理的复杂性,ELT的方式更加高效。通过对目标数据仓库的调优,ELT可获得数倍的效率提升。3.更好的维护性和扩展性采用ELT模式,我们可以避免构建一个专有的数据转换集群,而是通过一个通用的、易于创建和维护的分布式计算集群来完成所有的工作。分布式的数据加载、强大的任务监控、简单的操作步骤以及傻瓜式的部署方式,使得偶数数据中台Lava中的数据同步工具可以为构建数据仓库或者搭建数据中台提供强大助力。我们是偶数科技,更多信息请关注我们的公众号:偶数科技发布于 2020-07-06 13:53ETL数据同步数据库​赞同 6​​1 条评论​分享​喜欢​收藏​申请

什么是 ELT(抽取、加载和转换)? | IBM

什么是 ELT(抽取、加载和转换)? | IBM

ELT(抽取、加载和转换)

ETL 是将多个来源的数据抽取、加载和转换到数据仓库或其他统一数据存储库的过程。

什么是 ELT?

ELT 表示“抽取、加载和转换”,是另一种类型的数据集成过程,类似于对应的 ETL,即“抽取、转换和加载”。 这个过程将原始数据从源系统移动到目标资源,例如数据仓库。 虽然与 ETL 相似,但 ELT 是一种完全不同的数据预处理方法,它最近才随着企业向云环境的迁移而逐步受到青睐。

ELT 的工作方式

ELT 包含三个主要阶段:抽取、加载和转换。 接下来我们将详细介绍这其中的每一个阶段。

抽取

在数据抽取期间,会将数据从源位置复制或导出到暂存区。 数据集可包含众多数据类型,来自几乎任何结构化或非结构化数据源,包括但不限于:

SQL 或 NoSQL 服务器

CRM 和 ERP 系统

文本和文档文件

电子邮件

网页

也就是说,它更常用于处理非结构化数据。

加载

在这一步中,转换后的数据从暂存区移动到数据存储区,例如数据仓库或数据湖。

对于大多数组织而言,数据加载过程是明确定义而且持续的自动化批处理过程。 一般情况下,ELT 在上班时间进行,此时源系统和数据仓库上的流量处于峰值,使用者则等待使用数据执行分析或其他任务。

转换

在这个阶段,会采用写时模式 (schema-on-write) 方法,也就是在分析之前,使用 SQL 为数据应用模式,或者转换数据。 这个阶段可能包括以下操作:

对数据进行过滤、清理、去重、验证和认证。

根据原始数据执行计算、转换、数据分析或汇总。 这可能包括满足组织特定的 BI 或分析目标所需的一切操作,例如更改行和列的标头以保持一致性,转换货币或度量单位,编辑文本字符串以及添加值或计算平均值等。

删除、加密、隐藏或以其他方式保护受政府或行业法规管制的数据。

根据数据仓库中部署的模式,将数据格式化为表或联接表。

ETL 与 ELT

ELT 与其首字母缩写几乎相同的姊妹过程很容易混淆。 但 ELT 和 ETL 之间有几个明显的区别,ETL 表示“抽取、转换和加载”。 它是一个数据集成过程,用于将来自多个数据源的数据合并到单个统一的数据存储中,然后加载到 数据仓库 或其他目标系统中。  传统的 ETL 工具旨在创建数据仓储,以支持商业智能 (BI) 和人工智能 (AI) 应用。

ETL 和 ELT – 有何区别?

一个明显的区别就在于,ELT 过程在转换功能之前执行加载功能,这与 ETL 过程的第二步和第三步正好颠倒。 ELT 从源位置复制或导出数据,但不是将其移动到暂存区进行转换,而是将原始数据直接加载到目标数据存储中,然后在这里根据需要进行转换。 ELT 不会在传输中转换任何数据。

然而,步骤的顺序并非唯一的区别。 在 ELT 中,目标数据存储可以是数据仓库,但更多时候则是数据湖,后者是大型中央存储,旨在大规模保存结构化和非结构化数据。

数据湖由大数据平台(如 Apache Hadoop)或分布式 NoSQL 数据管理系统进行管理。 它们可能支持商业智能,但更多时候则是用于支持人工智能、机器学习、预测性分析,以及由实时数据和事件流驱动的应用。

ETL 和 ELT 之间还存在其他差异。 例如,与 ELT 相比,ETL 会在将数据移动到中央存储库之前对其进行转换,因此可以更简单、更系统地实现数据隐私合规性(例如,如果分析师在需要使用敏感数据之前未对其进行转换,那么该数据可能会直接存储到数据湖中而未实施任何保护措施)。 然而,数据科学家可能更喜欢使用 ELT,因为这让他们可以在原始数据的“沙箱”中进行操作,根据特定应用自行执行数据转换。 但在大多数情况下,选择 ETL 还是 ELT 取决于更侧重于可用的业务资源还是需求。

ELT 的优点

对于希望将该过程集成到工作流程中的用户而言,ELT 具有多项优点。 以下是一些比较显著的优点。

能够更快地将数据移动到目的地,从而加快实现可用性

在生成大量流式数据的情况下,ELT 能够立即加载数据,并在数据到达目的地后才对其进行转换。 这可以防止在加载功能之前进行转换时经常会发生的数据性能下降状况,这种情况在 ETL 中比较常见。 由于通常需要根据这些数据做出决策,因此延迟是无法接受的。 股票市场就是这方面的一个例子,该市场会生成海量数据以供实时使用。 在这种场景中,ELT 是首选的解决方案,这是因为在数据到达目的地之后才会进行转换。

隔离各种问题

因为数据在到达目的地之后才进行转换,所以 ELT 使数据接收方能够控制数据操作。 在 ELT 中,转换和加载阶段解耦,这有助于确保转换阶段中的编码错误或其他错误不会影响另一个阶段。

避免服务器扩展问题

ELT 利用数据仓库的强大功能和规模,实现大规模转换或可扩展的计算。 目标数据仓库可以根据需要增加或减少节点,特别是在每个集群中有多个节点以及可以使用多个集群的云场景中。 这样就能够实现随需应变的灵活性和可扩展性。

节约成本

ELT 无需功能强大的服务器即可进行数据转换,并能够充分利用仓库中已有的资源。 这最终可以节约成本并提高资源效率。

灵活性

ELT 支持使用所选的目标存储库,从而能够灵活控制成本和使用资源。 数据仓库使用 MPP(大规模并行处理)架构,包括使用基于内存的列式存储进行海量数据存储。 此外,还支持数据湖流程 — 在接收到数据后立即应用模式(即转换模型),也称为“读时模式”(schema-on-read)。 这些高效的流程为处理海量数据带来了灵活性。

持续运营

对于需要快速访问数据的任何环境,持续运营无疑是理想状态。 ELT 非常适合处理在云环境中使用的数据,这些环境中通常包括持续按需访问的应用。 同样,云原生 ELT 转换也提供了上述的可扩展性和灵活性。

从 ETL 转变为 ELT 架构时所面临的挑战

组织可选择从 ETL 转变为 ELT 架构。 进行这种转变的原因可能是因为其产品或服务的使用方式发生了变化,因而需要实时响应和互动;或者是因为数据量呈指数级增长,由于基础架构上存在大量处理需求,转换过程使得加载阶段一再延迟。 如果组织已迁移到云端,并希望尽快将数据的处理或使用转移到目标位置,那么也可能会选择从 ETL 转变为 ELT。

在转变过程中,当然会遇到一些挑战。 首先,ELT 与 ETL 使用完全不同的逻辑和代码。 这可能需要彻底的重新配置,也可能需要新的基础架构,或者需要新的云基础架构提供商。 此外,ELT 将原始数据发送到目标数据仓库。 因此,安全性是一个考虑因素,必须实施安全措施以保障数据安全。

ELT 的过去和未来

ELT 并不是一项新技术。 登台表以前就用于将数据移动到仓库以进行处理和转换,通常会使用 SQL 脚本。 SQL 脚本是硬编码的,因此可能存在编码错误。 在使用 SQL 时,客户必须在使用 SQL 脚本的本机仓库执行和声明式编程(也称声明式编写)之间做出选择。 声明式编写通过创建代码以描述程序必须实现的目标而不是说明如何实现目标,让用户体验到更为现代的基于云的数据仓库环境的优点。 这个过程可防止其他过程中内在的编码错误,尤其是在加载功能之前进行转换的情况下。

用例

ELT 通常用于海量数据或实时数据的使用环境。 具体例子有:

需要即时访问数据的组织。 例子包括证券交易所或者股票、工业部件和其他材料的大型批发分销商,他们需要实时访问最新数据,以便即时运行商业智能。

拥有海量数据的组织。 例子包括气象系统,比如需要定期收集、整理和使用海量数据的气象服务。 具有海量交易的企业也可归入这一类别。 某些组织,例如拥有超大型望远镜的天文实验室会生成海量数据,需要进行整理和分析。 这两个类别之间可能存在重叠,因为许多行业不仅会产生和使用海量数据,也需要实时访问这些数据。

相关解决方案

IBM Cloud Pak for Data

IBM Cloud Pak for Data 是一个开放式、可扩展的数据平台,提供的 Data Fabric 使所有数据可用于任何云端的 AI 和分析。

探索 IBM Cloud Pak for Data

IBM DataOps

人工智能以全新方式释放数据价值。 借助 DataOps 解决方案整理数据,为迎接 AI 和多云世界做好准备。

探索 IBM DataOps

数据集成

数据集成帮助转换结构化和非结构化数据,然后交付给可扩展的大数据平台上的任何系统。

探索数据集成

采取下一步行动

IBM 提供多种数据集成服务和解决方案,旨在支持面向业务的数据管道,为企业提供有效扩展所需的工具。 在管理大数据项目、应用和机器学习技术等方面,作为数据集成领域领导者的 IBM 可以为企业注入必要的信心。 凭借 IBM Cloud Pak® for Data 等行业领先的平台,组织可以对其 DataOps 流程进行现代化改造,同时能够使用一流的虚拟化工具,实现目前和未来所需的运营速度和可扩展性。

探索 IBM Cloud Pak® for Data

ETL和ELT的区别? - 知乎

ETL和ELT的区别? - 知乎首页知乎知学堂发现等你来答​切换模式登录/注册商业智能(BI)数据仓库ETLETL和ELT的区别?关注者5被浏览4,764关注问题​写回答​邀请回答​好问题​添加评论​分享​1 个回答默认排序数据社​ 关注ETL 和 ELT 有很多共同点,从本质上讲,每种集成方法都可以将数据从源端抽取到数据仓库中,两者的区别在于数据在哪里进行转换。 接下来,我们一起详细地分析一下 ETL 和 ELT各自的优缺点,看看在你们现在的业务中用哪种方式处理数据比较合适。01 ETLETL - 抽取、转换、加载从不同的数据源抽取信息,将其转换为根据业务定义的格式,然后将其加载到其他数据库或数据仓库中。另一种 ETL 集成方法是反向 ETL,它将结构化数据从数据仓库中加载到业务数据库中,如我们常用数据仓库加工好的报表,推送到报表系统的数据库中。02 ELTELT - 抽取、加载、转换同样的从一个或多个数据源中抽取数据,然后将其加载到目标数据仓库中,此时不需要进行数据格式的转换。在 ELT 过程中,数据的转换发生在目标数据仓库中。ELT 对远程资源的要求较少,只需要它们的原始数据即可。03 ELT的演变ELT 已经存在了一段时间,但 Hadoop 等大数据技术出现后,更加活跃了。像以前转换 PB 级原始数据这样的大型任务无法处理,现在可以被分成小作业,进行处理,然后再加载到目标数据库中。同时,处理能力也提高了,尤其是以私有云集群的方式,把处理、加工数据可以在一个数据仓库中完成了。04 ELT的工作原理与 ETL 不同,ELT是从多个数据源收集信息,将其加载到数据仓库(或者数据湖)中,然后将其转换为可操作的商业智能的过程。抽取——在ELT和ETL两种数据管理方法中的原理相似。一般我们会采用增量抽取,对于一些维表数据量比较小的也会采用全量抽取。加载——这是 ELT 和 ETL 开始不同的地方了。ELT 不是在抽取大量原始数据的过程中将其转换,而是将所有数据都加在到湖仓中,然后统一进行转换,这样做加快了抽取的效率,但也意味着数据变得有用之前还有很多工作要做。转换——数据湖或数据仓库对数据进行规范化,将部分或全部数据保留在湖仓中,并可用于定制报告。存储海量数据的开销更高,但也是为了后续能够更加快速的进行数据挖掘和报表展现,也就是我们常说的用空间换时间。05 什么时候我们选择ELT这取决于公司现有的网络和技术架构、预算以及它已经利用云和大数据技术的程度。如果是有下面三个需求场景时,那么ELT就是正确的选择~1. 当抽取速度是第一选择时因为 ELT 不必等待数据在抽取过程中进行转换后再加载,那么抽取过程要快得多。2. 当需要随时访问原始数据时有很多场景,我们需要保留所有历史数据,分析师可以根据时间、销售模式、季节性趋势或任何对业务变得重要的新兴指标进行挖掘。由于数据在加载之前未进行转换,因此您可以访问所有原始数据。比如,数据仓库一般都有一个原始数据层,很多数据科学家更喜欢访问原始数据,而业务用户更喜欢使用分析后的应用层或者模型层数据。3. 当需要随时可扩展数据湖仓时当您使用 Hadoop 或云数据仓库等数据处理引擎时,ELT 可以利用本机处理能力实现更高的可扩展性。06 数据湖是不是很好的ELT落脚点首先,我们思考一下数仓为什么会出现?其实是数据量的飞速增长,以至于当时的数据存储计算引擎,不能很好的满足分析需求;于是数仓概念和经典的理论出现了,很好的解决了当时的问题,用“规范+存储”来解决了当时的问题。那么现在大数据时代,随着技术的不断发展,很多新技术出现了,大批量的存储和计算不再是那么难了,那么我们放弃数仓那一套是否可行呢?从一哥现在处理的业务看,如果你的业务系统相对较单一,没有几十个业务系统每天往数仓里灌数据,那么数据湖可以满足你的需求,并且对于“数据驱动”更“敏捷”。如果一线的业务系统较复杂,那么现在使用数据湖也会一不小心会变成“数据沼泽”。数据湖治理策略没有明确前,还不要急着就上数据湖,并不是适用于每个公司的业务场景的!07 结语ELT和ETL都有各自的应用场景,可以说现在大数据环境下,很多已经是ELT架构了,所以这也是我近几年一直不看好很多厂商在推“拖拉拽”的ETL工具或者平台,未来肯定是需要一种通用语言来实现所有的ELT过程。同样,数据湖是趋势,但现在依然不成熟,不要看网上很多一线大厂的技术文章中提到了很多数据湖的概念和技术应用,但是请结合自己公司的业务场景,暂时先谨慎选择!你真的了解ELT和ETL吗?发布于 2022-03-25 21:39​赞同 9​​添加评论​分享​收藏​喜欢收起​​

ELT(数据仓库)_百度百科

数据仓库)_百度百科 网页新闻贴吧知道网盘图片视频地图文库资讯采购百科百度首页登录注册进入词条全站搜索帮助首页秒懂百科特色百科知识专题加入百科百科团队权威合作下载百科APP个人中心ELT是一个多义词,请在下列义项上选择浏览(共5个义项)添加义项收藏查看我的收藏0有用+10ELT播报讨论上传视频数据仓库ELT是数据仓库中的非常重要的一环,它是承前启后的必要的一步。 [1]中文名数据提取、加载和转换外文名Extraction-Loading-Transformation功    能对临时表中的数据进行转换特    点在转换服务器中进行的目录1区别2架构3优点4工具区别播报编辑在搭建数据仓库的过程中,ETL设计和实施的工作量一般要占总工作量的60%以上,而且业务部门会不断提出新的业务需求,任何前端业务模型的改变都会涉及到ETL设计,数据仓库日常运维效率的好坏也依赖ETL设计,因此ETL工具的选择对于整个数据仓库项目的成功是非常重要的。架构播报编辑ELT是利用数据库的处理能力,E=从源数据库抽取数据,L=把数据加载到目标库的临时表中,T=对临时表中的数据进行转换,然后加载到目标库目标表中。在ELT架构中,ELT只负责提供图形化的界面来设计业务规则,数据的整个加工过程都在目标和源的数据库之间流动,ELT协调相关的数据库系统来执行相关的应用,数据加工过程既可以在源数据库端执行,也可以在目标数据仓库端执行(主要取决于系统的架构设计和数据属性)。当ETL过程需要提高效率,则可以通过对相关数据库进行调优,或者改变执行加工的服务器就可以达到。一般数据库厂商会力推该中架构,像Oracle和Teradata都极力宣传ELT架构。优点播报编辑1. ELT主要通过数据库引擎来实现系统的可扩展性(尤其是当数据加工过程在晚上时,可以充分利用数据库引擎的资源) [2]2. ELT可以保持所有的数据始终在数据库当中,避免数据的加载和导出,从而保证效率,提高系统的可监控性。3. ELT可以根据数据的分布情况进行并行处理优化,并可以利用数据库的固有功能优化磁盘I/O。4. ELT的可扩展性取决于数据库引擎和其硬件服务器的可扩展性。5. 通过对相关数据库进行性能调优,ETL过程获得3到4倍的效率提升一般不是特别困难。工具播报编辑和基于ETL架构的工具(Kettle、Talend、Datastage、Informatica)相比,基于ELT架构的工具目前并不多(OWB、HaoheDI)。新手上路成长任务编辑入门编辑规则本人编辑我有疑问内容质疑在线客服官方贴吧意见反馈投诉建议举报不良信息未通过词条申诉投诉侵权信息封禁查询与解封©2024 Baidu 使用百度前必读 | 百科协议 | 隐私政策 | 百度百科合作平台 | 京ICP证030173号 京公网安备110000020000

什么是ETL和ELT?概念、过程、特性都在这里 - 知乎

什么是ETL和ELT?概念、过程、特性都在这里 - 知乎首发于数据挖掘之机器学习切换模式写文章登录/注册什么是ETL和ELT?概念、过程、特性都在这里二八Data ETL(提取-转换-加载)是最广泛的数据集成方法,是整合来自不同源系统的数据以改善对数据的查询的做法。企业拥有大量的数据,理解这些数据可以推动业务绩效。ETL在这一目标中起着核心作用:它是将原始,混乱的数据转化为干净,新鲜和可靠的数据的过程,可以从中获取业务见解。本文旨在阐明此过程是如何执行的,ETL 工具是如何演变的,以及适用于的最佳工具。 如今,组织从多个不同的业务源系统收集数据:云应用程序,CRM系统,文件等。ETL过程包括汇集来自这些不同来源的数据,以构建唯一的事实来源:数据仓库。ETL管道是具有非常特定角色的数据管道:从其源系统/数据库中提取数据,对其进行转换,然后将其加载到数据仓库(一个集中式数据库)中。数据管道本身是数据基础设施的一个子集,该层支持整个组织的数据编排,管理和使用。 ETL不只是移动数据:凌乱的数据从其原始源系统中获取,通过转换形式变得可用,最后加载到数据仓库中。Extraction(提取) 数据集成过程的第一步是数据提取。这是数据管道从多个数据源和数据库中提取数据并将其整合到暂存区域中的阶段。暂存区的用途如下: 通常不可能同时从所有源系统中提取所有数据。暂存区域允许在不同时间将数据汇集在一起,这是一种不会使数据源不堪重负的方法;它避免了同时执行提取和转换,这也会使数据源不堪重负;最后,当将数据加载到集中式数据库中时,暂存区域很有用,可以允许根据需要回滚和恢复同步。Transform(变换) 数据集成的第二步是转换数据,将其转换成正确的格式以使其适合分析。使数据适合目的有两个部分: 在其原始源系统中,数据通常是混乱的,因此难以解释。转换的一部分包括提高其质量:清理无效数据,删除重复项,标准化测量单位,根据其类型组织数据等。 在转换阶段,数据也会进行结构化和重新格式化,以使其适合其特定的业务目的。很多时候,事务数据与运营数据集成在一起,这使得它对于数据分析和商业智能非常有用。例如,ETL可以将业务运营中使用的名称、地点和定价数据与交易数据(如零售销售或医疗保健索赔)相结合(如果这是最终用户需要执行数据分析的结构)。因此,转换主要由寻求使用数据解决精确业务问题的分析师的特定需求决定。Load(加载) 数据集成的最后一步是在数据仓库中加载转换后且格式正确的数据。可以一次加载(完全加载)或按计划的时间间隔(增量加载)加载所有数据。这是使用批处理或流加载来实现的。批量加载是指 ETL软件通常基于计划(例如每小时)从源系统中提取批量数据。流式处理 ETL(也称为实时ETL或流处理)是一种替代方法,其中数据管道在数据源系统提供信息后立即引入信息。具体的业务用例决定了处理的选择。例如,当您进行高频交易时,您通常更喜欢获取实时数据和建议流处理的工具。为什么我们需要 ETL? 1.ETL将数据库和各种形式的数据组合到一个统一的视图中,这样可以更轻松地查找数据并进行有意义的业务分析。 2. ETL提高了数据人员的工作效率,因为它编纂和重用了移动数据的流程。 3. ETL提供了深厚的历史背景,这促进了对数据的信任。 4. ETL允许在源系统和目标系统之间比较示例数据。有哪些可用的工具? ETL工具已经存在了一段时间,但在过去几年中,作为他们跟上数据基础设施发展的努力的一部分,它们已经发生了相当大的变化。下面是三代ETL/ELT工具: 第 1 代:标准 ETL(提取-转换-加载)工具。它们遵循严格的存储、带宽和计算约束所决定的流程,这些约束是 20 世纪 90 年代的特点。 第二代:ELT(提取-加载-转换)过程源于云数据仓库的到来以及存储和带宽限制的解除。 第三代:第三代ETL工具提供了更多的连接器,这要归功于它们能够标准化连接器并利用其社区。ETL 1.0:构建数据仓库 数据集成(ETL)的标准方法可以追溯到20世纪70年代,当时企业开始使用中央数据存储库。但是,专门用于帮助将数据加载到数据仓库中的工具仅在20世纪90年代初出现,当时数据仓库成为中心舞台。 传统的ETL工具从孤立的系统和数据库中提取数据,根据所需的结构对其进行转换,然后将其加载到集中式数据库中。这是根据以下过程实现的:1. 定义数据项目及其与之相一致的业务需求2. 确定项目的相关数据源3. 定义分析师解决特定业务问题所需的数据模型/结构。4. 构建 ETL 管道(提取、转换和加载函数)5. 进行数据分析并获得业务见解 传统ETL工具的主要特征是执行过程的顺序。具体而言,数据在加载到数据仓库之前进行转换。原因很简单:在 20 世纪 90 年代,存储、计算和带宽极其稀缺且昂贵。因此,在将数据装入仓库之前减少数据量至关重要。 此过程发生的特定顺序是与第一代ETL工具相关的大多数障碍的根源。 首先,它会导致重要的可伸缩性问题。ETL 管道不仅从数据库中提取数据,还执行根据最终用户的特定需求定制的复杂转换。这涉及大量的时间和自定义代码。当数据用户想要在尚不存在的配置中执行需要数据的业务分析时,数据工程师需要为新的用例重写转换代码。当数据量增加时,就无法构建和维护高度自定义的数据管道。 将转换步骤放在加载步骤之前的第二个问题是,它会导致ETL 管道的持续维护。由于管道完全提取和转换数据,因此一旦数据源系统中的架构发生更改,它们就会中断。例如,当字段被删除或添加时。这会使用于将数据转换为预定义模型的代码失效,并且需要由数据工程师重写。 这种可伸缩性问题并不是什么大问题,因为传统的本地数据仓库基础结构无论如何都无法扩展以容纳和处理那么多数据。ETL 2.0:云计算时代 在过去的几十年中,存储和计算成本下降了数百万倍,带宽成本下降了数千倍。这导致了云的指数级增长和云数据仓库(如Amazon Redshift或Google BigQuery**.**)的到来,云数据仓库的特点是它们比传统数据仓库更具可扩展性,能够容纳几乎任何数量的数据。不仅如此,云数据仓库还支持大规模并行处理(MPP),能够以惊人的速度和可扩展性协调海量工作负载。 这些新的云数据仓库要求彻底改变 ETL 流程。传统的 ETL 对于传统的数据仓库来说很好。现在,组织有了可扩展的基础架构,现在是时候获得可扩展的 ETL 管道来处理和转换任何数量的数据了。传统的 ETL 工具性能在云中不会提高,因为可伸缩性问题是用于在仓库中移动数据的流程所固有的。因此,在使用传统 ETL 工具的同时投资云数据仓库,将给您留下与旧数据仓库相同的瓶颈。 ETL流程必须改变,它确实改变了。值得注意的是,数据集成技术不再受到存储、计算和带宽的限制。这意味着组织可以在仓库中加载大量未转换的数据,而不必担心成本和限制。你猜怎么着,他们正是这样做的。 这就是为什么提取-加载-转换 (ELT) 过程已经取代了传统的 ETL。这里的想法是从源系统中提取数据并将其直接加载到云数据仓库中,而无需进行转换。我们现在谈论的是 ELT连接器,它是ELT工具的组件,用于建立与数据源的连接、构建管道并允许执行提取和加载步骤。特定业务用例的转换不是由连接器处理的;一旦数据通过dbt等工具加载到数据仓库中,就会对其进行处理。 在工作流结束时移动转换层具有以下主要优点: 分离加载和转换步骤意味着数据管道不再是高度自定义且耗时的过程。实际上,使用ELT,管道只需将数据从源移动到目标,只需进行一些数据清理/规范化即可。不再为最终用户定制转换。这意味着ELT的提取和加载阶段可以自动化,并根据需要放大或缩小。 在云数据仓库中进行转换时,转换过程要简单得多。转换不再用复杂的语言(如Python)编写。转换和数据建模发生在 SQL 中,SQL 是 BI 专业人员、数据分析师和数据科学家共享的语言。这意味着过去由数据工程师独家拥有的转换现在可以由分析师和技术配置文件处理。 将转换层与提取和加载分离具有另一个有益效果:转换层的故障(当上游架构或下游数据模型更改时)不会阻止数据加载到云数据仓库中。相反,分析师可以在继续提取和加载数据时重写转换。实际。 因此,ETL和ELT在三个层面上有所不同:转换何时发生,发生位置以及由谁执行。到目前为止,转换步骤是 ETL 过程中最复杂的步骤,这就解释了为什么拥有云数据仓库的组织现在使用 ELT 工具。 第二代工具是对传统ETL流程的一大改进,但它们仍然无法完全解决数据集成问题。事实上,市场上的大多数ELT工具都没有破解连接器外壳。性能最高的 ELT 工具建议在数据源和数据目标之间最多有 150-200 个连接器。这已经很棒了。问题是,全球组织使用超过5000种营销/技术工具。这些组织是做什么的?好吧,他们要么不使用任何工具,使用Airflow或Python构建连接器(是的,人们仍然这样做!),要么他们在为Stitch或Fivetran等ETL工具付费的基础上构建和维护自己的自定义连接器。不理想?我们知道,但集成游戏并不容易。ETL 3.0:连接器的商品化 第三代 ETL 工具面临着严峻的挑战:如果它们想要为客户带来价值,就需要在连接器和所需的维护工作方面满足期望。解决方案在于连接器的商品化,但这如何实现?连接器的标准化 ETL工具没有提出超过150/200个开箱即用的连接器的原因是,构建这些连接器真的很痛苦。因此,第三代工具投入了大量精力,使构建新的连接器变得微不足道。但是,如何使连接器易于构建呢?您需要标准化连接器的工作方式。这意味着构建连接器的核心,数据工程师只需调整该核心即可获得所需的自定义连接器。 这又回到了为ETL工具构建戴森吹风机。戴森彻底改变了头发护理,这要归功于一个小型设备,您可以根据头发的心情插入卷发器,吹风机,加热刷,直发器和其他花哨的东西。开发这款设备花费了7100万英镑和数百名工程师,但客户很高兴他们不必根据自己想要的头发外观购买六种不同的设备。对于 ETL 工具来说,这(奇怪的是)是同样的挑战:查找、构建和提供定义连接器核心的内容。然后,它们很容易根据特定的用例进行定制,就像切换吹风机的末端一样。 在连接器未标准化的世界中构建到 Tableau 的连接器需要很长时间。您需要访问源/目标文档,测试帐户,使用最合适的任务语言,定义输入等。这需要时间,而且很烦人。使用标准化连接器,您只需要访问"分析"连接器核心,该核心本身就是通过丰富为所有连接器设计的核心而构建的。在此配置中,构建 Tableau 连接器需要几个小时,而不是几天。开源:利用社区的力量 还有什么比构建连接器更难的呢?维护连接器。值得庆幸的是,开源的ELT工具可能已经破解了这里的情况。ELT工具有一些奇特之处:它们是由使用它们的人构建的:数据工程师。因此,开源ELT工具和发展强大的数据工程师社区可以带来大量伟大的事情。工程师是否想要构建一个不存在的连接器?由于连接器的标准化,它们需要两个小时。更好的是,整个社区以及根据定义,所有其他客户都将从这个新的连接器中受益。一个连接器有问题吗?检测到它的工程师为每个人修复它。让维护变得简单:分担重担。哪种 ETL/ELT 工具适合? 在选择 ETL 工具时,需要考虑各种因素。以下是我们建议关注的几个方面: 内置集成:或者,更准确地说,这些工具是否提供了所关心的集成。最先进的 ETL 工具为 150-200 个最常用的应用提供了开箱即用的连接器。如果你需要与特定应用程序集成,请确保选择建议它的工具。你的 ETL 工具可能无法与所有应用程序/数据库集成。在这种情况下,请确保您选择的工具应与其他 ETL 工具集成,这些工具具有您需要的连接器,连接到可充当原始数据源和 ETL 工具之间的中介的 S3 存储桶,或从手动编码的管道中引入数据。 维护:在寻找数据处理解决方案时,不要忘记维护对流程的重要性。如果需要一个全职的工程团队来保持 ETL 管道正常运行,也许应该考虑另一种解决方案。 可扩展性:选择的工具将根据是企业客户还是中小型市场公司而有所不同。如果是企业客户,则应选择一种可以轻松扩展的 ETL 工具,该工具具有高可用性基础结构,并且能够每天处理数百万个表。 支持:无论你使用哪种工具,你最终都需要帮助。如果你无法获得所需的帮助级别,将无法进行其关键的数据处理活动,这将严重影响业务。 最后欢迎大家关注我,我是拾陆,关注同名"二八Data",更多干货持续为你奉献。参考来源:https://www.analyticsvidhya.com/?s=ETL+and+ELT发布于 2021-12-24 00:03过程管理ETL​赞同 12​​2 条评论​分享​喜欢​收藏​申请转载​文章被以下专栏收录数据挖掘之机器学习介绍机器学习概念、流程、原理、编程实现、面

什么是ELT_ELT简介_ELT的优势以及应用场景-腾讯云开发者社区

LT_ELT简介_ELT的优势以及应用场景-腾讯云开发者社区腾讯云开发者社区文档建议反馈控制台首页学习活动专区工具TVP最新优惠活动技术百科搜索技术百科搜索技术百科搜索关闭发布登录/注册首页学习活动专区工具TVP最新优惠活动返回腾讯云官网技术百科首页 >ELTELT修改于 2023-07-24 16:53:26139概述ELT(Extract, Load, Transform)是另一种数据集成方法,与ETL不同的是,ELT先将数据加载到目标系统中,然后再进行数据转换。这种方法可以充分利用目标系统的计算能力,提高数据集成的性能。什么是ELT?ELT是Extract、Load、Transform的缩写,它是一种数据集成方法,与ETL类似,但在数据处理过程中的顺序不同。ELT与ETL的主要区别在于数据转换的位置和方式。在ETL中,数据通常在提取后经过转换和清洗,然后再加载到目标系统中。而在ELT中,数据首先加载到目标系统中,然后再进行转换和清洗。具体来说,ELT的过程如下: 提取数据:从不同的数据源中提取数据,例如数据库、文件、Web服务等。 加载数据:将提取的数据加载到目标系统中,例如数据仓库、数据集市、关系数据库等。 转换数据:在目标系统中对加载的数据进行转换和清洗,以使其适合目标系统的数据结构和格式。 ELT和ETL的选择取决于组织的需求和情况。ELT适用于大型数据集和分布式系统,可以减少数据传输和处理的时间和成本。而ETL适用于中小型数据集和集中式系统,可以更好地控制数据质量和处理流程。与传统的ETL过程相比,ELT具有什么优势?利用现代数据仓库和数据湖的计算能力与ETL不同,ELT将数据转换过程放在目标系统(如数据仓库或数据湖)中进行。现代数据仓库和数据湖通常具有强大的计算能力和高度优化的存储结构,这使得ELT能够更高效地处理大量数据。更快的数据加载在ELT过程中,数据首先被加载到目标系统,然后再进行转换。这意味着原始数据可以更快地进入目标系统,从而缩短了数据集成的总体时间。更好的数据处理能力由于ELT利用了目标系统的计算资源,因此它可以更好地处理大数据和复杂的数据转换任务。这对于需要处理TB级甚至PB级数据的大型企业尤为重要。灵活性ELT允许用户在数据已经加载到目标系统之后再进行转换,这为数据分析师和数据科学家提供了更大的灵活性。他们可以根据需要对数据进行实时转换和分析,而无需等待整个ETL过程完成。降低数据丢失风险在ELT过程中,原始数据被直接加载到目标系统,而不是在外部进行转换。这有助于降低数据丢失或损坏的风险。更易于扩展由于ELT过程依赖于目标系统的计算能力,因此可以更容易地扩展以满足不断增长的数据需求。随着云计算技术的发展,许多现代数据仓库和数据湖已经具备了弹性扩展的能力,这使得ELT在处理大规模数据时具有更好的性能。 ELT有什么应用场景?大数据量ELT适用于大数据量的场景,例如数据仓库或数据集市。在这种情况下,将数据加载到目标系统中可以减少数据传输和处理的时间和成本,同时利用目标系统的处理能力对数据进行转换和清洗。分布式系统ELT适用于分布式系统的场景,例如云计算环境。在这种情况下,将数据加载到目标系统中可以利用分布式系统的处理能力进行转换和清洗,从而提高处理效率和可扩展性。多源数据ELT适用于多源数据的场景,例如从多个数据库、文件或Web服务中提取数据。在这种情况下,将数据加载到目标系统中可以将不同数据源的数据整合在一起,从而实现数据的一致性和可访问性。数据分析ELT适用于数据分析的场景,例如将数据加载到数据仓库中进行分析。在这种情况下,将数据加载到目标系统中可以减少数据传输和处理的时间和成本,同时利用数据仓库的处理能力对数据进行转换和清洗,从而提高数据分析效率。

词条知识树 (3个知识点)什么是ELT?与传统的ETL过程相比,ELT具有什么优势?ELT有什么应用场景?相关文章ETL为什么经常变成ELT甚至LET?365你真的了解ELT和ETL吗?890ELT优化,让SQL查询飞起来215组件分享之后端组件——开源ELT平台airbyte1.3K数据分析你需要知道的操作:ETL和ELT1.6K社区专栏文章阅读清单互动问答技术沙龙技术视频团队主页腾讯云TI平台活动自媒体分享计划邀请作者入驻自荐上首页技术竞赛资源技术周刊社区标签开发者手册开发者实验室关于社区规范免责声明联系我们友情链接腾讯云开发者扫码关注腾讯云开发者领取腾讯云代金券热门产品域名注册云服务器区块链服务消息队列网络加速云数据库域名解析云存储视频直播热门推荐人脸识别腾讯会议企业云CDN加速视频通话图像分析MySQL 数据库SSL 证书语音识别更多推荐数据安全负载均衡短信文字识别云点播商标注册小程序开发网站监控数据迁移Copyright © 2013 - 2024 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有 深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569腾讯云计算(北京)有限责任公司 京ICP证150476号 |  京ICP备11018762号 | 京公网安备号11010802020287问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归

ETL 与 ELT — 数据处理方法之间的区别 — AWS

ETL 与 ELT — 数据处理方法之间的区别 — AWS

跳至主要内容

单击此处以返回 Amazon Web Services 主页

联系我们

支持 

中文(简体) 

我的账户 

登录

创建 AWS 账户

re:Invent

产品

解决方案

定价

文档

了解

合作伙伴网络

AWS Marketplace

客户支持

活动

探索更多信息

关闭

عربي

Bahasa Indonesia

Deutsch

English

Español

Français

Italiano

Português

Tiếng Việt

Türkçe

Ρусский

ไทย

日本語

한국어

中文 (简体)

中文 (繁體)

关闭

我的配置文件

注销 AWS Builder ID

AWS 管理控制台

账户设置

账单与成本管理

安全证书

AWS Personal Health Dashboard

关闭

支持中心

专家帮助

知识中心

AWS Support 概述

AWS re:Post

单击此处以返回 Amazon Web Services 主页

免费试用

联系我们

re:Invent

产品

解决方案

定价

AWS 简介

入门

文档

培训和认证

开发人员中心

客户成功案例

合作伙伴网络

AWS Marketplace

支持

AWS re:Post

登录控制台

下载移动应用

什么是云计算?

云计算概念中心

分析

ETL 与 ELT 之间有什么区别?

创建 AWS 账户

了解免费的分析产品

查看云端分析服务的免费优惠

查看分析服务

使用最全面的分析服务集更快地创新

浏览分析培训

利用 AWS 专家编写的内容开始分析培训

阅读分析博客

阅读关于 AWS 分析产品的最新新闻和最佳实践

ETL 与 ELT 之间有什么区别?

ETL 和 ELT 有何相似之处?

ELT 和 ETL 流程有何不同?

主要区别:ETL 与ELT

何时使用 ETL 与ELT

差异摘要:ETL 与ELT

AWS 如何支持您的 ETL 和 ELT 要求?

ETL 与 ELT 之间有什么区别?

提取、转换、加载(ETL)和提取、加载、转换(ELT)是两种用于分析的数据处理方法。大型组织拥有来自其运营各个方面的数百个(甚至数千)个数据来源,例如应用程序、传感器、IT 基础设施和第三方合作伙伴。他们必须筛选、整理和清理如此庞大的数据量,使其可用于分析和商业智能。在集中集成之前,ETL 方法使用一组业务规则处理来自多个来源的数据。ELT 方法按原样加载数据,并在稍后阶段对其进行转换,具体取决于应用场景和分析要求。ETL 过程在开始时需要更多的定义。分析必须从一开始就参与定义目标数据类型、结构和关系。数据科学家主要使用 ETL 将遗留数据库加载到数据仓库中,而 ELT 已成为当今的常态。

了解 ETL »

ETL 和 ELT 有何相似之处?

提取、转换、加载(ETL)和提取、加载、转换(ELT)都是准备数据以供进一步分析的流程序列。这两个流程都可以捕获、处理和加载数据,以便在三个步骤中进行分析。 

提取

提取是 ETL 和 ELT 流程的第一步。此步骤旨在从不同来源收集原始数据。这些来源可能是数据库、文件、软件即服务(SaaS)应用程序、物联网(IoT)传感器或应用程序事件。您可以在此阶段收集半结构化、结构化或非结构化数据。

转型

在 ETL 流程中,转换是第二步,而在 ELT 中是第三步。此步骤的重点是将原始数据从其原始结构更改为满足目标系统(即您计划在其中存储数据以供分析的系统)要求的格式。以下是一些转换示例:

更改数据类型或格式

删除不一致或不准确的数据。

删除重复数据。

您可以应用规则和函数在目标系统中清理和准备数据以供分析。

加载

在此阶段,您将数据存储到目标数据库中。ETL 将加载数据作为最后一步处理,因此报告工具可以直接使用它来生成可操作的报告和见解。但是,在 ELT 中,您仍然需要在加载提取的数据后对其进行转换。

ELT 和 ETL 流程有何不同?

接下来,我们将概述提取、转换、加载(ETL)以及提取、加载、转换(ELT)的流程。您还可以了解一些历史背景。

ETL 流程

ETL 有三个步骤:

从各种来源提取原始数据

使用辅助处理服务器来转换该数据

将该数据加载到目标数据库中

转换阶段确保符合目标数据库的结构要求。只有在数据转换完成并准备就绪后,才能移动数据。

 

ELT 流程

以下是 ELT 的三个步骤:

从各种来源提取原始数据

将数据以自然状态加载到数据仓库或数据湖中

在目标系统中根据需要对数据进行转换

使用 ELT,所有数据清理、转换和丰富都发生在数据仓库中。您可以根据需要多次与原始数据进行交互并转换数据。

ETL 和 ELT 的历史

ETL 于 1970 年代问世,随着数据仓库的兴起,ETL 变得特别受欢迎。但是,传统的数据仓库需要为每个数据来源自定义 ETL 流程。

云技术的演变带来了新的可能。公司现在可以大规模存储无限量的原始数据,然后根据需要进行分析。ELT 成为实现高效分析的现代数据集成方法。

主要区别:ETL 与ELT

提取、加载、转换(ELT)在多个方面对提取、转换、加载(ETL)进行了改进。

转换和加载位置

转换和加载发生在不同的位置并使用不同的流程。ETL 流程在辅助处理服务器上转换数据。

相比之下,ELT 流程将原始数据直接加载到目标数据仓库中。在那里,您可以根据需要随时转换数据。 

数据兼容性

ETL 最适用于结构化数据,您可以在包含行和列的表中显示这些数据。它将一组结构化数据转换为另一种结构化格式,然后进行加载。

相比之下,ELT 可以处理所有类型的数据,包括无法以表格式存储的非结构化数据,例如图像或文档。使用 ELT,该流程将各种数据格式加载到目标数据仓库中。在那里,您可以将其进一步转换为所需的格式。

速度

ELT 比 ETL 更快。ETL 在将数据加载到目标之前还需要执行一个步骤,该步骤难以扩展,并且会随着数据大小的增加而减慢系统的速度。

相比之下,ELT 可以将数据直接加载到目标系统,同时并行转换。它利用云数据仓库提供的处理能力和并行化为分析提供实时或近乎实时的数据转换。 

成本

ETL 流程从一开始就需要分析参与。它需要分析师提前计划他们想要生成的报告,并定义数据结构和格式。设置所需的时间增加,进而导致成本增加。用于转换的额外服务器基础设施也会增加成本。

ELT 的系统比 ETL 少,因为所有转换都发生在目标数据仓库内。系统越少,需要维护的就越少,从而使数据堆栈更简单,设置成本更低。

安全性

处理个人数据时,必须遵守数据隐私法规。公司必须保护个人身份信息(PII)免遭未经授权的访问。

在 ETL 中,开发人员必须构建自定义解决方案,例如屏蔽 PII 以监控和保护数据。

另一方面,ELT 解决方案直接在数据仓库中提供许多安全功能,例如精细访问控制和多重身份验证。您可以将更多时间投入到分析上,减少满足数据监管要求所需的时间。

何时使用 ETL 与ELT

提取、加载、转换(ELT)是现代分析的标准选择。但是,在以下情况下,您可以考虑提取、转换、加载(ETL)。

传统数据库

有时,使用 ETL 与传统数据库或具有预定数据格式的第三方数据来源集成会更有益。您只需要转换并将数据加载到您的系统一次即可。转换后,您可以更有效地将其用于未来的所有分析。

试验

在大型组织中,数据工程师会进行实验,例如发现隐藏的数据来源以便分析、尝试新想法来回答业务查询等。ETL 在数据实验中很有用,可以了解数据库及其在特定场景中的用处。

复杂分析

ETL 和 ELT 都可用于使用不同来源、多种格式的数据的复杂分析。数据科学家可能会从某些来源建立 ETL 管道,然后将 ELT 与其他来源一起使用。在某些情况下,这可以提高分析效率以及应用程序性能。

IoT 应用程序

使用传感器数据流的物联网(IoT)应用程序通常受益于 ETL 而不是 ELT。例如,以下是边缘 ETL 的一些常见用例:

您想接收来自不同协议的数据并将其转换为标准数据格式以用于云工作负载

您想要筛选高频数据,对大型数据集执行函数平均,然后以较低的速率加载平均或筛选后的值

您想计算来自本地设备上不同数据来源的值,并将筛选后的值发送到云后端

您想要清理、删除重复数据或填充缺失的时间序列数据元素

差异摘要:ETL 与ELT

类别

ETL

ELT

代表

提取、转换、加载

提取、加载、转换

处理

获取原始数据,将其转换为预定格式,然后加载到目标数据仓库中。

获取原始数据,将其加载到目标数据仓库中,然后在分析之前进行转换。

转换和加载位置

转换发生在辅助处理服务器中。

转换在目标数据仓库中进行。

数据兼容性

最适用于结构化数据。

可以处理结构化、非结构化和半结构化数据。 

速度

ETL 比 ELT 慢。

ELT 比 ETL 快,因为前者可以使用数据仓库的内部资源。

成本

根据所使用的 ETL 工具,设置可能既耗时又昂贵。

更具成本效益,具体取决于所使用的 ELT 基础设施。

安全性

可能需要构建自定义应用程序来满足数据保护要求。

可以使用目标数据库的内置功能来管理数据保护。

AWS 如何支持您的 ETL 和 ELT 要求?

AWS 上的分析描述了 Amazon Web Services(AWS)提供的可满足您所有数据分析需求的广泛分析服务。我们帮助各种规模的行业和组织利用数据重塑业务。

以下是一些可用于满足您的 ETL 和 ELT 要求的 AWS 服务:

Amazon Aurora 支持通过 Amazon Redshift 进行零 ETL 集成。这种集成支持通过 Amazon Redshift 对来自 Aurora 的拍字节(PB)交易数据进行近乎实时的分析和机器学习。

AWS Data Pipeline 是一项托管式 ETL 服务,允许您定义各种 AWS 服务之间的数据移动和转换。

AWS Glue 是一项无服务器数据集成服务,用于事件驱动的 ETL 和无代码 ETL 任务。

AWS IoT Greengrass 通过将云处理和逻辑本地引入边缘设备来支持您在边缘上的 ETL 用例。

Amazon Redshift 允许您设置所有 ELT 工作流并直接查询来自不同来源的数据集。  

立即创建免费账户,开始在 AWS 上使用 ELT 和 ETL。

使用 AWS 的后续步骤

开始使用 ETL 进行构建

了解如何在 AWS 上开始使用 ETL

开始使用 ELT 进行构建

了解如何在 AWS 上开始使用 ELT

登录控制台

了解有关 AWS 的信息

什么是 AWS?

什么是云计算?

AWS 包容性、多样性和公平性

什么是 DevOps?

什么是容器?

什么是数据湖?

AWS 云安全性

最新资讯

博客

新闻稿

AWS 资源

入门

培训和认证

AWS 解决方案库

架构中心

产品和技术常见问题

分析报告

AWS 合作伙伴

AWS 上的开发人员

开发人员中心

软件开发工具包与工具

运行于 AWS 上的 .NET

运行于 AWS 上的 Python

运行于 AWS 上的 Java

运行于 AWS 上的 PHP

运行于 AWS 上的 JavaScript

帮助

联系我们

获取专家帮助

提交支持工单

AWS re:Post

Knowledge Center

AWS Support 概览

法律人员

亚马逊云科技诚聘英才

创建账户

Amazon 是一个倡导机会均等的雇主:

反对少数族裔、妇女、残疾人士、退伍军人、性别认同和性取向歧视。

语言

عربي

Bahasa Indonesia

Deutsch

English

Español

Français

Italiano

Português

Tiếng Việt

Türkçe

Ρусский

ไทย

日本語

한국어

中文 (简体)

中文 (繁體)

隐私

|

网站条款

|

Cookie 首选项

|

© 2023, Amazon Web Services, Inc. 或其联属公司。保留所有权利。

终止对 Internet Explorer 的支持

知道了

AWS 对 Internet Explorer 的支持将于 07/31/2022 结束。受支持的浏览器包括 Chrome、Firefox、Edge 和 Safari。

了解详情 »

知道了

ELT 是什么_如何选择 ELT 和 ETL-亚马逊云科技

ELT 是什么_如何选择 ELT 和 ETL-亚马逊云科技

跳至主要内容

Click here to return to the Amazon Web Services China homepage

全球网站

联系我们

文档

ICP备案

中文(简体) 

我的账户 

免费注册

关于我们

产品

解决方案

定价

客户支持

合作伙伴网络

Marketplace

开发者

初创公司

活动与促销

关闭

English

中文 (简体)

关闭

管理控制台

账户设置

账单与成本管理

安全证书

Click here to return to Amazon Web Services homepage

免费注册

联系我们

关于我们

产品

解决方案

定价

文档

客户支持

合作伙伴

Marketplace

开发者

初创公司

活动与促销

注册/登录

10 分钟上手教程,手把手带您入门产品操作,立即学习 »

10 分钟上手教程,手把手带您入门产品操作,立即学习 »

首页  »  云计算知识  »  ELT 是什么

ELT 是什么

ELT 中的数据处理步骤与传统的 ETL 方法不同,在数据处理的顺序上进行了调整,依次为“Extract(提取)”、“ Load(加载)”和“Transform(转换)”。ELT 将原始数据被保留在目标存储中,允许分析人员根据需求进行多次不同类型的数据处理和分析,使其可以更灵活地处理大规模数据。

了解更多有关 ELT 的信息

立即注册!

联系云计算专家

首页  »  云计算知识  »  ELT 是什么

ELT 是什么

ELT 中的数据处理步骤与传统的ETL方法不同,在数据处理的顺序上进行了调整,依次为“Extract(提取)”、“ Load(加载)”和“Transform(转换)”。ELT 将原始数据被保留在目标存储中,允许分析人员根据需求进行多次不同类型的数据处理和分析,使其可以更灵活地处理大规模数据。

了解更多有关 ELT 的信息

立即注册

联系云计算专家

如何选择 ELT 和 ETL

如何选择 ELT 和 ETL

从数据类型

在选择 ELT 或 ETL 时,需要了解他们要处理的数据类型和格式。如果数据来自多个来源,包括结构化、半结构化和非结构化数据,ELT 方法更适合,因为它能够处理多样化的数据。此外,数据量是一个关键因素。如果处理的数据量非常大,ELT 更具优势,因为它允许原始数据直接加载到目标存储中,减少了中间处理的开销。

从目标存储

在选择 ELT 或 ETL 时,需要考虑目标存储是传统的数据仓库还是数据湖。ETL 通常用于数据仓库架构,需要在提取和加载之间执行复杂的转换。而 ELT 更适用于数据湖,因为它将数据加载后再进行转换。如果目标存储是分布式存储,如Amazon S3,ELT 与分布式计算框架兼容更适用。

从功能需求

ELT 更适合实时或近实时数据分析。因为 ELT 通过将数据加载步骤提前,允许数据在加载后立即查询和分析,并且可以与实时数据流处理技术集成,实时数据流允许数据在源端发生变化时立即进行捕获和处理,无需等待传统批处理周期。而 ETL 通常用于批处理。

从运营角度

在选择 ELT 或 ETL 时,需要评估团队的技能和经验。如果团队更擅长 SQL 和数据分析,ELT 更容易实施。如果团队具备 ETL 工具和数据工程的专业知识,ETL 可能更适合。从成本因素考虑,ELT 通常更便宜,因为它避免了中间存储数据的开销,但由于 ELT 的数据转换发生在目标存储中,则需要更多的计算资源。

ELT 如何支持大数据处理

ELT 如何支持大数据处理

使用 ELT 来处理大数据时,具体步骤如下:

1. 需求分析:明确项目需求,包括所需的数据、数据源、数据处理任务以及分析和报告的目标。

2. 数据提取:识别和连接到各种数据源,选择适当的工具和技术来从这些源中提取数据。对于大规模数据,选择分布式数据提取工具,以确保高效的数据提取过程。

3. 数据加载:将提取的数据加载到数据湖或分布式存储系统中,确保目标存储具备足够的容量和性能,以应对大规模数据的需求。

4. 数据转换:数据加载到目标存储后,使用分布式计算框架执行必要的数据转换和清洗操作,如数据规范化、去重、数据质量控制、数据合并和计算等。

5. 数据处理和分析:当项目需要实时数据处理时,使用流处理引擎来处理数据流,以捕获和处理流数据。使用数据分析工具和编程语言(如Python、R、SQL)来执行数据分析、数据可视化、建模和预测等分析任务。

ELT 有哪些优势

ELT 有哪些优势

1. 保留原始数据:ELT 将数据提取和加载的步骤分开进行,将数据的转换过程延迟到数据已加载到目标存储后再进行。原始数据的完整性得到保留,分析人员可以根据需要执行多次不同类型的数据转换和处理,而不会损害原始数据。

2. 适应大规模数据:ELT 适用于处理大规模数据集。它允许将原始数据直接加载到目标存储中,而不需要在中间存储中保存数据,因此能够有效地处理大数据量。

3. 实时性要求:ELT 支持实时或近实时处理需求。数据加载到目标存储后,可以立即进行查询和分析,使实时数据处理成为可能。

4. 数据湖支持:ELT 与数据湖架构非常契合,它可以将原始数据加载到数据湖中,然后根据需要进行转换和分析。数据湖通常用于存储各种类型和格式的数据,适用于大数据环境。

5. 多源数据处理:大数据环境中通常涉及来自多个数据源的数据。ELT 能够从不同源头提取数据,并将其整合到一个目标存储中,以支持综合分析和处理。

6. 可扩展性:与云基础设施相结合能够动态扩展可利用资源,能够收集并处理 PB 级数据。

7. 降低成本:基于云的 ELT 不需要对硬件设备进行前期投资,可大大节省成本投入。

8. 节约时间:在 ELT 过程中不仅数据交付的时间被大大缩减,而且利用云基础设施的处理能力,数据的转化、分析过程也更加敏捷迅速。

9. 灵活性:ELT 支持从多种源系统中提取数据,并支持非结构化数据的使用。

ELT 的局限性有哪些

ELT 的局限性有哪些

1. 数据质量问题:ELT 将数据加载到目标存储后再进行转换,这会导致数据质量和完整性问题只有在数据加载后才能被发现。如果原始数据中存在错误或不一致性,这些问题可能会传播到目标存储中,需要额外的措施来处理。

2. 复杂的转换需求:在ELT中,数据加载后进行转换,这可能需要更多的计算资源和复杂的 SQL 查询或数据处理操作。对于需要进行复杂的数据转换和清洗的项目,ELT 不如传统的 ETL 适用。

3. 成本高:ELT 通常需要高性能和可扩展的目标存储,用于容纳原始数据和执行转换,导致存储成本较高。同时,ELT 的计算成本较高,尤其是在进行大规模数据转换时,需要在云计算或服务器资源上投入更多的预算。

4. 复杂性管理:ELT 的灵活性会导致数据处理过程变得复杂。随着数据处理流程变得复杂,维护和管理转换规则、脚本和查询等变得具有挑战性,需要谨慎设计和维护数据转换流程,以确保其可维护性和可理解性。

ELT 和数据湖的关系是什么

ELT 和数据湖的关系是什么

数据湖是一种数据存储体系结构,用于存储各种类型和格式的原始数据,而 ELT 则是一种数据集成和处理方法。ELT 和数据湖的结合为现代数据管理和分析提供了强大的支持。

ELT 负责将原始数据从各种数据源提取,将其直接加载到数据湖中,无需在提取和加载之间执行复杂的数据转换。数据湖充当数据的中心存储库,将原始数据以其原始形式存储,提供了天然兼容性。此外,ELT 将数据加载到数据湖中,保持了数据的原始完整性。原始数据的保留意味着分析人员可以根据需要在数据湖中执行多次不同类型的数据转换和分析,并且不会损害数据的完整性。这种灵活性对于应对不断变化的数据分析需求非常有用,并使组织能够更好地应对大规模、多样化的数据。

ELT 有哪些应用场景

ELT 有哪些应用场景

ELT 在数据管理和分析领域有许多典型的应用场景,具体如下:

1. 数据仓库和商业智能:ELT 常用于构建数据仓库,其中数据从各种源头提取和加载到数据仓库中,然后可以进行灵活的数据分析和报告生成,有助于支持商业智能和决策支持系统。

2. 大数据分析:对于大规模数据集的分析,ELT 适用于提取、加载和处理大量的结构化和非结构化数据。并且 ELT 可以与分布式计算框架结合使用,以支持大数据处理和分析。

3. 实时数据处理:ELT 可以与实时数据流处理技术集成,支持实时数据捕获、加载和分析。这对于需要及时洞察的应用程序非常有用,如金融交易监控、网络安全分析等。

4. 数据迁移和数据集成:ELT 在数据迁移和数据集成项目中比较常见。它被用于将数据从一个系统或存储位置迁移到另一个系统或存储位置,或者将数据集成到不同的应用程序和环境中。

5. 日志分析:ELT 可用于提取和加载大量的日志数据,然后进行分析和监视,以检测异常、监视性能或支持安全审计。

ELT 工作流程

ELT 工作流程

ELT 的工作流程可分解为以下三个步骤:

提取: 采用数据提取工具将所需数据从源系统(一个或多个)中导出并存放至暂存区。源系统可以是 SQL/NOSQL 服务器,也可以是文本文档、电子邮件、网页等,从这里也可以看出 ELT 更多地用于非结构化数据。

加载: 在这一步中,数据将会绕过中间处理器,直接被转移至目标存储位置(如数据仓库),因此数据交付的周期被大大缩减。

转换: 将数据集的结构或形式转换为目标位置的结构或形式,转换过程中可能涉及到数据的映射、串联等计算方式。

ELT 和 ETL 的不同之处

ELT 和 ETL 的不同之处

ELT 和 ETL 的区别在于数据转化的位置,在 ELT 过程中,数据进入目标系统内才开始进行转化,这意味着数据交付的时间被大量缩短。并且 ELT 通常与云解决方案联合使用。利用云技术强大的处理能力,数据在数据仓库(或数据湖)中的查询、分析过程也会更加迅速。 在用户友好性方面,ELT 也更占优势。通常 ELT 过程会为用户配备易于使用的图形用户界面,用户无需掌握繁琐的数据库语言即可操作全流程。

亚马逊云科技热门云产品

亚马逊云科技热门云产品

Amazon S3

专为从任意位置检索任意数量的数据而构建的对象存储

了解 Amazon S3

Amazon Glue

简单、可扩展的无服务器数据集成

了解 Amazon Glue

Amazon Redshift

云数据仓库的最高性价比

了解 Amazon Redshift

欢迎加入亚马逊云科技培训中心

从 0 到 1 轻松上手云服务,获取更多官方开发资源及培训教程

了解详情

准备好体验亚马逊云科技提供的云服务了吗?

新用户享受中国区域 12 个月免费套餐

立即注册

联系我们

在线咨询架构师

亚马逊云科技产品入门

产品的用户指南、培训和教程,立即查看 »

亚马逊云科技客户成功案例

亚马逊云科技帮助客户提高交付灵活性、可扩展性和可靠性,立即查看 »

云计算知识合集

一站直达最新对云计算资讯详解,助您尽快掌握和使用云计算服务,立即查看 »

开始使用亚马逊云科技免费构建

开始使用亚马逊云科技免费构建

中国区域免费套餐

全球区域免费套餐

关闭

在线咨询

专家实时解答您的售前、售后问题

热线

1010 0766

由光环新网运营的

北京区域

1010 0966

由西云数据运营的

宁夏区域

联系顾问

让解决方案顾问与您联系

关闭

热线

1010 0766

由光环新网运营的

北京区域

1010 0966

由西云数据运营的

宁夏区域

在线咨询

专家实时解答您的售前、售后问题

联系顾问

让解决方案顾问与您联系

关注西云数据:

关注光环新网:

关注亚马逊云科技:

免费注册

联系我们:

在线咨询

热线

联系顾问

您喜欢新版页脚吗?

关闭

谢谢您的反馈!

关闭

谢谢您的反馈!

关于我们

亚马逊云科技简介

亚马逊云科技中国

产品动态

新闻中心

分析师报告

亚马逊云科技中文博客

客户成功

什么是云计算?

什么是大数据?

什么是云存储?

什么是人工智能?

什么是数据湖?

产品与解决方案

所有产品

计算

存储

数据库

网络和内容分发

管理工具

安全性、身份与合规性

分析

应用程序服务

消息收发

物联网

解决方案

资源与支持

开发人员工具

价格计算器

支持计划

客户支持 FAQ

服务运行状况仪表板

文档

云计算文章

ICP 备案服务

等保合规

管理账户

管理控制台

账单与成本管理

个人信息

支付方法

安全证书

请求提升服务限额

联系我们

亚马逊云科技中国简介

我们致力于为中国的软件开发人员和企业提供安全、灵活、可靠且低成本的 IT 基础设施资源,帮助他们实现创新和快速扩大企业规模。

"AWS" 是"Amazon Web Services"的缩写,在此网站不作为商标展示。

了解客户怎样在中国使用 亚马逊云科技服务 »

关闭

扫码关注

西云数据云计算官方微信公众号

扫码关注

西云数据招聘微信 公众号

关闭

扫码关注

光环新网官方微信公众号

关闭

扫码关注

亚马逊云科技微信公众号

关闭

扫码进入

亚马逊云科技小程序

扫码进入

亚马逊云助手小程序

关闭

10100766 北京区域

由光环新网运营

10100966 宁夏区域

由西云数据运营

关闭

扫码关注

亚马逊云科技抖音官方账号

关注西云数据:

关注光环新网:

关注亚马逊云科技

联系我们

热线

在线咨询

联系顾问

关于我们

亚马逊云科技简介

亚马逊云科技中国

产品动态

新闻中心

分析师报告

亚马逊云科技中文博客

客户成功

什么是云计算?

什么是大数据?

什么是云存储?

什么是人工智能?

什么是数据湖?

产品与解决方案

所有产品

计算

存储

数据库

网络和内容分发

管理工具

安全性、身份与合规性

分析

应用程序服务

消息收发

物联网

解决方案

资源与支持

开发人员工具

价格计算器

支持计划

客户支持 FAQ

服务运行状况仪表板

文档

云计算文章

ICP 备案服务

等保合规

管理账户

管理控制台

账单与成本管理

个人信息

支付方法

安全证书

请求提升服务限额

联系我们

亚马逊云科技中国简介

我们致力于为中国的软件开发人员和企业提供安全、灵活、可靠且低成本的 IT 基础设施资源,帮助他们实现创新和快速扩大企业规模。

"AWS" 是"Amazon Web Services"的缩写,在此网站不作为商标展示。

了解客户怎样在中国使用 亚马逊云科技服务 »

您喜欢新版页脚吗?

关闭

谢谢您的反馈!

关闭

谢谢您的反馈!

关闭

扫码关注

西云数据云计算官方微信公众号

扫码关注

西云数据招聘微信公众号

关闭

扫码关注

光环新网官方微信公众号

关闭

扫码关注

亚马逊云科技微信公众号

关闭

扫码进入

亚马逊云科技小程序

扫码进入

亚马逊云助手小程序

关闭

1010 0766 北京区域

由光环新网运营

1010 0966 宁夏区域

由西云数据运营

关闭

扫码关注

亚马逊云科技抖音官方账号

Language

English

中文 (简体)

网站条款

|

隐私

|

法律条款

|

合规提示

|

网站地图

|

友情链接

宁公网安备 64050202000147号

|

宁ICP备17000743号-11

终止对 Internet Explorer 的支持

知道了

我们对 Internet Explorer 的支持将于 07/31/2022 结束。受支持的浏览器包括 Chrome、Firefox、Edge 和 Safari。

知道了

ELT:提取、加载和转换 - 完整指南

提取、加载和转换 - 完整指南 跳到内容 解决方案Astera 数据栈数据集成非结构化数据管理电子数据交换管理数据仓库API管理 数据解决方案2.0:拥抱AI驱动的自动化时代 详细了解人工智能和自动化对数据管理的变革性影响 Watch Webinar 什么是新的 系统—— Astera 10.5 具有数据治理等功能! Astera 与 Carahsoft 强强联手 为联邦政府机构提供数据管理解决方案 按行业划分金融服务健康防护教学政府保险媒体和通讯便利店 DXC技术 从 6 个月到 1 周:如何 Astera 改变了 DXC 的保险客户迁移 间隙解决方案 零售解决方案提供商使用 Astera 3 分钟内处理发票 服务

专业服务支持登录交钥匙数据仓库解决方案 Astera 数据学院 新课程 提取非结构化数据 API管理 加入数据学院 线上资源部落格电子书 资源库信息图表

产品文档视频在线研讨会白皮书使用案例 从这里开始 通过数据驱动的决策绘制商业价值 了解如何进行数据分析以评估绩效和投资回报率。 数据驱动的金融 Astera 数据栈 了解我们的解决方案如何促进无缝财务数据管理 公司公司简介工作机会 新闻中心活动奖项支持合作伙伴网友评论推荐计划ReportMiner 推荐计划合作伙伴联系我们免费试用 搜索 搜索 解决方案Astera 数据栈数据集成非结构化数据管理电子数据交换管理数据仓库API管理按行业划分金融服务健康防护教学政府保险媒体和通讯便利店服务

专业服务支持登录交钥匙数据仓库解决方案线上资源部落格电子书 资源库信息图表

产品文档视频在线研讨会白皮书使用案例公司公司简介工作机会 新闻中心活动奖项支持合作伙伴网友评论推荐计划ReportMiner 推荐计划合作伙伴联系我们免费试用 部落格 首页 / 部落格 / ELT:提取、加载和转换 – 完整指南 表的内容 自动化, 无代码 数据栈 了解如何 Astera Data Stack 可以简化企业的数据管理。 开始你的免费试用! ELT:提取、加载和转换 – 完整指南 玛丽亚姆·安瓦尔 产品营销人员 21 数字应用和平台的出现导致非结构化数据的盛行,以至于超过80%的企业数据都是非结构化的。 存储和分析这些数据很复杂,因为它不是机器可读的,并且必须进行结构化处理。 因此,现代企业必须重新评估其数据管理实践,以有效利用关键任务洞察。 ELT——一种更新、更有效的方法 几十年来,组织一直在使用 提取、转换和加载 (ETL) 集成跨不同源系统存储的数据。 然而,大数据时代带来的数据量、种类和速度不断增加,需要不同的方法。 许多数据架构师现在倾向于提取、加载和转换(ELT),这更适合现代数据堆栈。 ELT 是现代 数据集成 彻底改变了数据管理流程的方法。 该博客讨论了 ELT 的工作原理、ETL 到 ELT 的演变、为什么后者成为更流行的方法,以及这两种方法是否可以共存。 ELT 与 ETL:有什么区别? ETL和ELT都涉及三个步骤,即 数据提取, 改造,并加载。 然而,两种方法之间的区别在于数据转换和加载到目标系统或数据库的顺序。 在传统的 ETL 中,数据在暂存区(即在加载到目的地之前)进行转换,这显着增加了加载时间并导致效率低下。 在 ELT 中,数据在加载后进行转换,从而消除了与特定数据类型和格式相关的潜在刚性。 ELT 主要用于现代 数据管理 架构,例如数据湖和基于云的数据平台,其中目标系统或数据库具有处理大量数据转换的处理能力和能力。 云数据仓库和数据湖的出现 物联网、社交媒体和卫星图像等非常规数据源的兴起,以及随之而来的数据量、种类和速度的增加,加速了云的采用,因为现代企业希望利用云数据仓库和数据湖来有效地处理和处理数据。存储数据。 Snowflake、Amazon Redshift 或 Google Big Query 等云数据仓库旨在满足现代数据管理要求。 他们可以轻松存储原始数据并大规模处理应用内转换。 这些仓库与云存储平台结合使用,例如 Amazon S3, Azure Blob存储及 Google Cloud平台. 了解无代码 ELT 工具如何加快数据集成 现在就试试! 云时代的英语教学 将 ELT 和云数据仓库结合起来是处理数据的最佳方法。 当数据从源转移到存储平台和数据仓库时,ELT 可确保其完整性保持不变。 此外,它允许更快地摄取非结构化数据并增强其解释以从中获取更多价值。 此外,ELT 还可以更轻松地跟踪数据沿袭,从而使数据分析师能够了解数据的来源并将错误追溯到根本原因。 ELT 非常适合云数据仓库,因为云解决方案可以有效地获取数据、安全地存储数据、处理云托管的转换,然后将其加载到首选数据仪表板中以进行分析和报告。 ELT 的好处 高度灵活 与 ELT 相比,ELT 提供了更大的灵活性。 它允许用户存储任何类型的信息,包括非结构化数据,而无需对其进行转换和结构化。 此外,用户无需在数据摄取之前创建复杂的 ETL 流程。 ELT 在根据用例需求的变化定制管道方面也更加灵活,因为数据转换是最后一步 - 与 ETL 不同,任何后续更改都需要从头开始构建整个数据管道。 迅速的 ELT 有效地解决了与大量数据相关的拥塞问题。 与只能加载和存储预定义模式的数据的 ETL 不同,ELT 通过动态布局和灵活的模式促进数据的存储。 由于ELT将转换逻辑推到最后,数据可以立即加载并实时消费,从而能够更快地做出决策。 可访问性 ELT 是一种以消费者为中心的方法,允许业务用户参与数据管理。 当数据直接加载到数据仓库中时,业务和数据分析师可以根据用例需求直接查看和操作来自云系统的原始数据。 由于大多数云数据仓库都是基于 SQL 的,因此业务用户可以高效地运行查询,而不会在传输过程中丢失任何数据。 ETL 和 ELT——替代品还是补充? 虽然 ETL 和 ELT 被认为是替代方案,但这些方法并不相互排斥。 虽然后者解决了 ETL 的许多问题,但将其称为替代品可能并不准确。 两种方法都有优点和缺点,其有效性取决于数据资产的类型和业务需求。 例如,如果您需要将数据与敏感业务信息集成,ETL 应该是您首选的数据集成方法,因为它允许您在将数据加载到目标目的地之前根据要求构建、转换、操作和保护数据。 另一方面,当您处理来自多个来源的大量数据时,任何速度下降都会对业务绩效产生不利影响,您应该选择 ELT。 因此,可以肯定地说,ELT 和 ETL 可以共存,并且对于组织的成功至关重要。 您不应将两者视为替代品,而应将它们视为对手,以利用对增长至关重要的商业智能。 ELT 工具中需要注意的功能 为您的组织选择正确的 ELT 工具非常重要。 在投资之前,您需要记住以下一些功能: 无代码架构 ELT 工具应该为开发人员和业务用户提供相同级别的可用性,而无需高级技术知识。 无代码 ELT 工具减少了对 IT 团队的依赖,并提供易用性和信息可访问性,从而使企业能够快速有效地利用有价值的见解。 自动化 典型的企业每天都会处理大量数据。 重复执行类似的任务会浪费时间、资源和精力。 ELT 工具应具有自动化和编排功能,以便您可以轻松安排集成和转换作业,无论是简单的数据流还是复杂的工作流程。 与多个数据源的连接 当工具提供与各种来源和目的地的本机连接时,ELT 工作就会变得更加容易。 在购买工具之前,请查看它支持的连接器库。 理想情况下,ELT 工具应具有与流行云数据库和存储平台(例如 Amazon S3、Azure Blob、Snowflake 和 Amazon Redshift 等)的本机连接。 构建 ELT 管道 Astera Centerprise Astera Centerprise 是一款无代码的数据集成工具,具有强大的 ETL/ELT 引擎。 和 Astera的 ELT 或 下推优化模式,当源数据库或目标数据库驻留在同一服务器上时,您可以将转换逻辑下推到它们。 这就是为什么 Astera Centerprise 是完美的 ELT 解决方案: 支持各种云平台,例如 Snowflake、Redshift、Amazon S3 和 Blob 存储,非常适合云环境。 两种下推模式:部分下推和完全下推。 Astera的智能算法会决定两者中哪一个最适合作业的性能。 ELT 模式在目标上执行自动生成的 SQL 查询。 对转换的本机 SQL 支持,包括join、aggregate、union、route、switch、各类查找、数据库写入策略。 最大限度地缩短构建 ELT 管道的时间 Astera Centerprise 查看演示 Astera的 ELT 功能,加上强大的工作流程自动化和编排功能,可加速大量数据的数据集成,同时最大限度地减少延迟。 和 Astera Centerprise,您可以利用 ELT 的强大功能并优化最复杂的数据流的性能。 您可以下载 Astera Centerprise“ 今天14天免费试用 以令人难以置信的速度整合大量数据。 你也许也喜欢 导航人工智能驱动的索赔处理  95% 的保险公司目前正在通过人工智能驱动的理赔处理加速数字化转型。传统上,此过程涉及手动步骤,例如...... 阅读 自动索赔处理:综合指南 索赔处理是保险、医疗保健和金融行业不可或缺的多方面操作。这是一个综合程序,涉及... 阅读 工作场所索赔:仔细审视快速解决的重要性 工作场所索赔是雇员因违反雇佣法而对其雇主提出的法律诉讼或投诉... 阅读 考虑到 Astera 满足您的数据管理需求? 与您的企业应用程序、数据库和云应用程序建立无代码连接,以集成您的所有数据。 现在就联系吧! 客户服务 线上资源 论坛 产品文档 公司

关于我们 Astera 工作机会 联系我们 合作伙伴 合作伙伴计划 技术合作伙伴 经销商 客户 使用案例 网友评论 推荐计划 价钱 获取报价 隐私政策 使用条款 网站地图 版权所有(c)2024 Astera Software 版权所有。 隐私政策 使用条款 网站地图

数据仓库快速入门教程5-ETL与ELT的差异

数据仓库快速入门教程5-ETL与ELT的差异

python自动化测试人工智能

八字

测试

测试框架

common

大数据

风水

机器学习

解梦

linux

python

书籍

数据分析

中草药

中医

数据仓库快速入门教程5-ETL与ELT的差异

Published: 一 29 四月 2019

By andrew

In 大数据.

python测试开发项目实战-目录

python工具书籍下载-持续更新

什么是ETL?

ETL是Extract,Transform和Load的缩写。 在此过程中,ETL工具从不同的RDBMS源系统中提取数据,然后转换数据,如应用计算,连接等,然后将数据加载到数据仓库系统中。

在ETL中,数据是从源流向目标。 在ETL过程中,转换引擎负责数据更改。

什么是ELT?

ELT是用于查看数据移动。 ELT不在数据写入之前转换数据,而是让目标系统进行转换。 数据首先复制到目标,然后转换。

ELT通常与无Sql数据库(如Hadoop集群,数据设备或云)一起使用。

ETL与ELT之间的区别

参数

ETL

ELT

处理

数据在staging服务器上转换,然后传输到Datawarehouse DB。

数据保留在Datawarehouse的DB中。

代码

计算密集型转换;少量数据

用于大量数据

转型

转换在ETL服务器/staging区域中完成。

转换在目标系统中执行

时间负载

数据首先加载到暂存中,然后加载到目标系统中。 时间密集。

数据仅一次加载到目标系统。 更快。

时间转换

ETL过程需要等待转换完成。 随着数据量的增长,转换时间也会增加。

在ELT过程中,速度决不依赖于数据的大小。

时间维护

当您需要选择要加载和转换的数据时,它需要高维护。

数据始终可用,维护成本低。

实施复杂性

在早期阶段,更容易实施。

要实施ELT流程,组织应该具备对工具和专家技能的深入了解。

支持数据仓库

ETL模型用于内部部署,关系数据和结构化数据。

用于可扩展的云基础架构,支持结构化的非结构化数据源。

数据湖支持

不支持。

允许将Data Lake与非结构化数据一起使用。

复杂

ETL过程仅加载在设计时标识的重要数据。

可以加载后续相关数据。

成本

中小型企业的高成本。

在线软件即服务平台,低入门成本,后期成本高

查找

在ETL过程中,事实和维度都需要在临时区域中提供。

所有数据都可用,因为提取和加载只需一次操作即可完成。

聚合

复杂性随着数据集中额外的数据量而增加。

目标平台的强大功能可以快速处理大量数据。

计算

覆盖现有列或需要附加数据集并推送到目标平台。

轻松将计算列添加到现有表中。

成熟

使用了二十多年。 它有详细记录,可以轻松获得最佳实践。

相对较新的概念和复杂的实施。

硬件

大多数工具都具有昂贵的独特硬件要求。

Saas,硬件成本不是问题。

非结构化数据

主要支持关系数据

支持非结构化数据随时可用。

参考资料

python测试开发项目实战-目录

python工具书籍下载-持续更新

python 3.7极速入门教程 - 目录

讨论qq群630011153 144081101

原文地址

本文涉及的python测试开发库 谢谢点赞!

[本文相关海量书籍下载](https://github.com/china-testing/python-api-tesing/blob/master/books.md

http://spark.apache.org/docs/2.1.0/api/python/pyspark.sql.html

小结:

ETL代表Extract,Transform和Load,而ELT代表Extract,Load,Transform

在ETL过程中,数据从源流到分段到目标。

ELT让目标系统进行转换。 没有涉及分期系统。

ELT解决了许多ETL挑战,但价格昂贵,需要利用技能来实施和维护。

参考资料

工作日技术支持QQ群 630011153 144081101

本文最新版本地址

本文涉及的python测试开发库 谢谢点赞!

本文相关海量书籍下载

道家技术-手相手诊看相中医等钉钉群21734177 qq群:391441566 184175668 338228106 看八字、风水、手相、面相、舌相、抽签、体质识别。服务费50元每人次起。请联系钉钉或者微信pythontesting

接口自动化性能测试线上培训大纲

links

自动化性能接口测试线上及深圳培训与项目实战 qq群:144081101 591302926

pandas数据分析scrapy爬虫 521070358 Py人工智能pandas-opencv 6089740

中医解梦看相八字算命qq群 391441566 csdn书籍下载-python爬虫 437355848

Proudly powered by Pelican, which takes great advantage of Python.

The theme is by Smashing Magazine, thanks!