数据虚拟化似乎很有前途. 但是它是否可以根据您的数据和BI需求进行伸缩?

数据工程师和数据架构师致力于为数据消费者提供他们需要的数据和分析用户体验. 数据虚拟化看起来很有前途——可以满足我所有的BI目标,而且不需要移动数据? 是的,请!

然而, 你的数据, 用户, 应用规模也在增长, 新老问题的出现会让你回到你开始的地方——或者更糟. 数据湖与Dremio结合可以满足任何规模的BI需求.

数据虚拟化的前景,以及它在扩展过程中失败的原因.

长期以来,为决策者提供自助式数据和分析服务一直是组织的目标,这样他们就可以做出基于证据的决策,以便更好地运营业务. 为了完全实现这一目标,组织需要提供一些功能:

  • 数据消费者的自助访问
  • 一个存取数据的地方
  • 访问广泛的数据集
  • 对于新的或新请求的数据集的快速可用性
  • 规范KPI定义
  • 从数据工程的角度有效地提供所有这些功能

当试图提供上述内容时,事情就变得棘手了——企业架构是复杂的. 不同数据源的数量可能会增长到惊人的程度. 进一步, 组织中的不同业务单位通常都有自己的某种级别的系统, 通常包括他们自己的数据仓库或数据集市. 有一些工具可以直接连接到这些数据消费者可以使用的不同系统, 允许您根据需要为终端用户提供对所有数据的自助服务访问, 不需要做任何额外的工作移动数据-似乎是一个相当干净的解决困难的问题, 你为什么不想这么做?

这种方法可以在较小的范围内工作. 对于组织或业务单位,在他们的旅程的早期是数据驱动的,或在较小的规模, 数据量, 用户, 他们的应用程序通常都不是很大. 在这些情况下,数据虚拟化工作得相当好. 因为规模很小, 组织能够以相当交互式的响应时间向数据使用者提供对这些数据的自助服务访问. 这使得他们能够快速地做出自助式的数据驱动决策,并更好地运行业务.

了解数据虚拟化大规模失败的原因

开始一段数据虚拟化之旅

然而, 作为数据量, 用户, 应用程序在组织中不断增长, 遇到的第一个问题是性能. 用户无法以所需的速度获得问题的答案. 在某些情况下,这些性能问题会导致用户提出更少的问题,甚至无法等待很长时间才能得到答案. 这通常会导致糟糕的决定,因为它们是基于直觉或猜测做出的, 有时甚至没有数据支持的猜测.

这些性能问题的原因可分为以下一种或多种:

  • 源系统在运行时无法以足够快的速度将数据发送到数据虚拟化平台, 无论是源系统负载还是源存储系统的设计
  • 数据虚拟化平台和源系统之间的网络速度不够快,无法在运行时传输数据
  • 使用的协议, 一般JDBC, 在运行时不能足够快地将数据从源系统传输到数据虚拟化平台
  • 数据通过单个连接从源系统传输到数据虚拟化平台, i.e.,连续
  • 在一定的范围内, 需要在运行时处理的数据数量庞大,这使得进行交互式分析变得不可能, 仅仅是因为读取这么多数据的物理原理

因为所有这些问题都源于运行时传输数据, 这个性能问题的解决方案通常是通过将一些数据集的副本复制到数据仓库,并将数据仓库连接到数据虚拟化工具来提前传输数据. 这种方法还解决了从操作系统中删除分析工作负载的需求, 确保操作系统能够正常发挥其主要功能.

查看这段视频,了解renaissance ere是如何通过其集中的云数据湖和Dremio实现BI现代化的.

看现在
戴尔技术如何通过其集中的云数据湖和Dremio实现BI现代化

然而, 作为数据, 用户, 应用程序规模继续增长, 一般来说,整个组织只有一个数据仓库是不够的, 无论是灵活性, 成本, 复杂性, 或操作的原因. 通常在这一点上,每个业务单元都有自己的数据仓库或数据集市. 再一次, 这些数据仓库连接到数据虚拟化平台, 数据消费者可以自助访问各种数据.

然而, 当在两个数据仓库中连接数据时,运行时传输数据的性能问题仍然适用于相同的原因. So, 当需要在两个系统之间以这种规模连接数据时, 这是通过IT请求和创建ETL管道来将数据复制到目标数据仓库来完成的.

这种通过数据拷贝来解决性能问题的数据虚拟化方法现在导致了一系列新的问题:

  • 缺乏自助服务
  • 数据工程开销
  • 请求的周转时间较慢
  • 数据漂移
  • 法规遵从性问题
  • 基础设施成本

创建数据副本以解决与数据虚拟化相关的性能问题,这是一个值得专门讨论的大主题. 欲了解更多信息,请参阅本白皮书讨论的内容 数据拷贝的意外成本.

数据虚拟化被认为可以帮助解决其中的一些问题. 相反,当大规模使用时,它会加剧这些问题,并引入以前没有的新问题.

数据虚拟化大规模中断

所有这些问题都是数据虚拟化方法中性能不足的后续影响. So, 如果十大网赌靠谱网址平台能解决性能问题, 十大网赌靠谱网址平台可以避免导致这些下游问题的变通方法.

十大网赌靠谱网址平台首先回顾一下数据虚拟化性能问题的原因, 看看十大网赌靠谱网址平台如何解决这些问题:

数据虚拟化性能问题 如何缓解这个问题
源系统在运行时无法以足够快的速度将数据发送到数据虚拟化平台, 无论是源系统负载还是源存储系统的设计. 满足用户请求的处理引擎需要能够直接访问存储和数据.
数据虚拟化平台和源系统之间的网络速度不够快,无法在运行时传输数据. 十大网赌靠谱网址平台需要在处理引擎和存储引擎之间建立一个高性能网络. 当数据太大而无法通过网络吞吐量寻址时, 十大网赌靠谱网址平台需要通过缓存来减少所需的网络带宽,或者通过预计算来减少需要传输的数据量,从而使数据更接近.
使用的协议, 一般JDBC, 无法在运行时将数据从源系统传输到数据虚拟化平台. 满足用户请求的处理引擎需要能够使用协议访问以列格式存储的数据,该协议不需要将列数据序列化为行格式, 只是为了在处理引擎中反序列化回列格式- I.e.,它需要能够在数据保持柱状格式的情况下获取数据进行处理.
数据通过单个连接从源系统传输到数据虚拟化平台, i.e.,连续. 满足用户请求的处理引擎需要能够以高水平的并行性访问存储系统.
在一定的范围内, 需要在运行时处理的数据数量庞大,这使得进行交互式分析变得不可能, 仅仅是因为读取这么多数据的物理原理. 处理引擎需要提供对数据进行各种预计算的能力, 以减少运行时需要处理的数据量.

如果十大网赌靠谱网址平台把上面的要求放在一起看, 结论是, 以达到十大网赌靠谱网址平台的商业分析目标, 大多数数据需要从物理上移出源系统,并移到一个集中的平台上.

数据仓库是有限的和昂贵的

数据仓库变得过于昂贵,速度过快,并导致数据副本无法管理.

现在很清楚,为了实现十大网赌靠谱网址平台的业务目标——提供自助服务, 全面的数据访问, 快速可用性, 和一块玻璃,以确保一致的kpi -十大网赌靠谱网址平台需要物理上集中至少大部分的数据在一个中央平台. 下一个合乎逻辑的问题是——“在哪里??”.

团队通常考虑两种选择:将数据集中在数据仓库或数据湖中.

使用数据仓库方法已经非常流行. 考虑到市场上可用的工具以及数据湖SQL引擎之前的局限性, 这通常被认为是最明智的解决方案.

数据仓库方法解决了在实现数据虚拟化时遇到的一些问题:

  • 数据现在是集中的, 因此,不再需要在查询运行时跨网络传输大量数据
  • 性能不再受到源系统负载或源系统存储设计的限制
  • 此外,数据以柱状格式存储,并为分析用例进行了优化. 用户通常能够跨各种工作负载获得交互性能

然而, 正如大多数组织所经历的那样, 无论是通过单个业务单位使用数据仓库, 或者具有大量数据仓库和数据集市的大规模实现, 这种方法并不能填补数据虚拟化带来的所有空白, 并介绍了它自己的额外挑战:

  • 难以预测或缺乏成本透明度的成本上升,随着规模的扩大而呈指数级增长
  • 经常需要创建和管理复杂的ETL管道
  • 增加数据副本以提高性能并提供不同的数据视图
  • 所有这些数据副本的安全管理负担和风险
  • 数据漂移和KPI漂移
使用基于数据仓库的架构, 过去,即使是BI仪表盘最小的更改,十大网赌靠谱网址平台也不得不等待3-6周,因为十大网赌靠谱网址平台的工程师积压了大量的数据请求. 十大网赌靠谱网址平台不能等那么久才做出关键的业务决定.
-跨国科技公司

进一步, 这些组织遭受数据锁定和无法使用其他引擎,如机器学习平台. 期待, 他们无法引入未来可能出现的新引擎和创新.

许多团队已经选择接受这些挑战, 原因很简单,因为还没有更好的替代方案来解决当前的业务目标和缓解上述挑战.

数据湖生态系统的改善最终为这种传统方法带来了一种可行的替代方案.

SQL查询加速器的RFI示例,作为数据虚拟化的高性能扩展方案

样本RFI

博客

5当今无限数据世界中数据仓库的局限性

阅读更多
数据湖和Dremio的BI规模

Dremio无拷贝数据体系结构提供了近乎无限规模的查询加速, 在一个集中的数据湖.

十大网赌靠谱网址平台回顾一下十大网赌靠谱网址平台想要达到的分析需求, 以及十大网赌靠谱网址平台在数据虚拟化方面的尝试:

  • 数据消费者的自助访问
  • 一个存取数据的地方
  • 访问广泛的数据集
  • 对于新的或新请求的数据集的快速可用性
  • 规范KPI定义
  • 从数据工程的角度有效地提供所有这些功能

数据虚拟化方法在a 小范围内. 十大网赌靠谱网址平台知道 小范围内 当应用程序和用户为满足数据密集型业务流程的需求而增长时,是否代表了目标. 解决这些问题(提取到数据仓库, 数据拷贝)让十大网赌靠谱网址平台陷入同样的混乱中...十大网赌靠谱网址平台需要采取不同的方法.

如果十大网赌靠谱网址平台能让数据湖中的一切与Dremio平台协同工作, 那么十大网赌靠谱网址平台就不需要数据虚拟化了.
——《十大赌博官方正规网址》全球高科技企业50强

开放数据湖是解决现代数据驱动团队需求的最有效的基础. 对象存储非常便宜...它是基础的、大规模的存储层.

是否有一种方法可以将数据放到对象存储中, 尽可能少地移动数据(一次),但仍然及时地将数据交付给下游系统?

以前:数据团队陷入困境

  • 数据消费者以前会受到影响,因为源系统在运行时无法以足够快的速度将数据发送到数据虚拟化平台
    • 十大网赌靠谱网址平台需要使用一个为分析而优化的存储系统(OLAP)——一个可以快速扫描大量数据的系统. 最理想的情况是,存储系统不做任何处理工作,除了响应读请求
  • 数据通过单个连接从源系统传输到数据虚拟化平台, i.e.,连续
    • 十大网赌靠谱网址平台需要一个存储系统,它可以以高度并行的方式向引擎发送数据
  • 在一定的范围内, 需要在运行时处理的数据数量庞大,这使得进行交互式分析变得不可能, 仅仅是因为读取这么多数据的物理原理
    • 为了缓解这种情况, 十大网赌靠谱网址平台需要一种解决方案,可以通过预处理实现优化,而不影响最终用户体验的易用性. (i.e.,实体化视图+透明替换)

数据团队要求:

  • 向终端用户提供所有数据的语义/逻辑视图,以支持自助服务
  • 逻辑上的交互性,不需要将用户指向其他市场或区域

AFTER:实现数据湖和Dremio数据条款交付...

  • 低ETL解决方案
    • 您可以直接在数据湖中分析数据, 不需要编写和管理工作摄取复制到其他地方
  • 低拷贝解决方案,不包括性能或数据集市拷贝
    • Dremio的性能能力(数据反射, Apache箭头, Gandiva, 缓存)足以在数据湖上直接提供交互式BI. 这些加上Dremio的语义层,消除了对性能和数据集市副本的需求
  • 减少对信息技术的依赖..真实自我服务)
    • 由于Dremio的受治理的自助服务功能,LOB用户可以直接解决更多的业务问题和报告
  • 准时数据应用...高管们不再需要等待几天或几周的时间来报告变化
    • 由于Dremio提供的易用性和更高的生产率,数据工程能够更快地构建报告的管道

人们可能认为,任何可以直接查询数据湖的大规模并行处理(MPP) SQL查询引擎都可以实现这一点? 不是……

在考虑大规模解决大数据分析时,性能只是问题的一部分.

SQL查询加速器的概念证明(POC)指南

获取poc指南
客户在G2上说什么
五星级评级

“能够快速、方便地访问历史上分散的企业数据”

五星级评级

“用户友好自助数据湖引擎”

五星级评级

“开放文件格式之上的高效且用户友好的SQL层”

易于优化 允许数据专业人员解锁数据消费者,从他们的数据中获得最大的价值,而不需要到处复制数据. 只有当一个引擎将这两件事结合在一起时,它才会对您组织的数据挑战产生预期的影响.

Dremio为复杂的工作负载(反射)提供了非常简单的优化. 下游的影响是巨大的.g. 无需更改应用程序代码,轻松满足sla要求). 通过数据应用程序的生产化来进行数据探索的过程与使用像Dremio这样的SQL平台在不同的层次上. 用户能够找到数据, 定义它们的逻辑并优化性能,而不将任何数据移出数据湖.

查询性能易于优化查询引擎的价值

其他工具可以作为SQL层,但需要许多其他步骤,并可能需要多个数据副本,以便用户观察他们想要的性能(特别是BI样式的工作负载).

Productionalizing交互式报告/仪表盘

这些优化和令人难以置信的性能提升不需要在应用程序级别(BI工具, 指示板, 报告逻辑, 等.). 这使得广泛的用户可以非常简单地从查询引擎级的这些优化中获益.

BI查询性能图2

图1:Dremio提供了比其他查询引擎更快的响应时间.

图1 BI查询性能

图2:创建反射后, Dremio提供亚秒级响应时间,应用程序没有任何更改.

通过开放格式(Parquet/Iceberg)在数据湖上形成数据基础有很多好处。. 当您引入最先进的SQL引擎(Dremio)时,这些好处会被放大. 为当前和未来的数据成功建立团队...今天试着Dremio!

最大化最小化性能可伸缩性可用性成本副本混乱你的数据Dremio

下一步!

从今天开始直接从你的数据湖获得更多的商业价值. 开始使用Dremio很容易.

文艺复兴时期的客户交谈

客户说

查看这段视频,了解renaissance ere是如何通过其集中的云数据湖和Dremio实现BI现代化的.

看现在
POC指南

POC指南

下载这个免费的POC指南来评估一个分析平台是否满足您的业务分析需求.

现在就下载POC指南

实践教程

想亲眼看看? 动手尝试这个免费的BI仪表盘教程.

现在试一试

数据现代化咨询

与数据分析专家交谈 & BI专家:如何通过云数据湖和湖屋平台实现数据架构的现代化.

了解更多

Dremio如何提供帮助?

Dremio是SQL Lakehouse公司, 使公司能够利用开放的数据架构,从BI和分析数据中驱动更多的价值.

友情链接: 1 2 3 4 5 6 7 8 9 10