您现在的位置: 通信界 >> 物联网 >> 新闻正文  
 
开放式数据湖仓,释放数据分析无限潜能
[ 通信界 / 张一冲 / www.cntxj.net / 2022/7/24 12:10:16 ]
 

Cloudera 客户运行着地球上最大的一些数据湖。这些湖为关键任务大规模数据分析、商业智能 (BI) 和机器学习用例,包括企业数据仓库,提供动力。近年来,创造了“数据湖仓”一词来描述这种对数据湖中的数据进行表分析的架构模式。在匆匆奔向这个术语的过程中,许多厂商忽略了这样一个事实,即数据架构的开放性是其持久性和长盛不衰的保证。

关于数据仓库和数据湖

数据湖和数据仓库将海量的各种类型数据统一到一个中心位置。但是有着截然不同的架构世界观。数仓是为SQL 分析垂直集成的,而数据湖优先考虑 SQL 之外的分析方法的灵活性。

为了能兼得鱼与熊掌——数据湖中分析的灵活性和数仓中简单快速的 SQL,企业经常部署数据湖来补充他们的数仓,在数据提取、转换、加载 (ETL) 或 ELT 管道的最后一步让数据湖为数仓系统提供数据。在这样做的过程中,他们等于接受了数据在仓库中的锁定。

但可以有一个更好的方法:用 Hive 元存储,这是过去十年数据平台一个出人意料的好产品。随着用例的成熟,我们看到高效的交互式 BI 分析和事务语义来修改数据的需求。

数据湖仓的迭代

第一代 Hive元存储试图解决在数据湖上高效运行 SQL 的性能考虑。它提供了数据库、模式和表的概念,用于描述数据湖的结构,让 BI 工具可以有效地充分使用数据。它添加了描述数据逻辑和物理布局的元数据,支持基于成本的优化器、动态分区裁剪以及针对 SQL 分析的一些关键性能改进。

第二代 Hive元存储添加了对使用 Hive ACID 的事务更新的支持。数据湖仓虽然尚未正式命名,但已开始热闹。事务性启用了持续摄取和插入/更新/删除(或合并)的用例,从而打开了数仓样式的查询、功能以及从其他数仓系统到数据湖的迁移。这对我们的许多客户来说非常有价值。

Delta Lake项目采用不同的方法来解决这个问题。Delta Lake为数据湖中的数据添加了事务支持。可以进行数据策管,为数据湖带来了运行数仓式分析的可能性。

渐渐的在某个时刻,“数据湖仓”这个词因为这种架构模式而被造出来了。我们相信湖仓是简洁地定义这种模式的好方法,并很快在客户和行业中获得了共识。

开放数据湖仓满足互操作性需求

在过去几年中,随着新数据类型的诞生和新的数据处理引擎的出现,为了简化分析,企业所期望的两全其美真的需要分析引擎的灵活性。如果企业海量有价值的数据需要被管理,那么企业必须能够开放的选择不同的分析引擎,甚至是供应商。

 湖仓模式在实施过程中存在一个严重的矛盾:虽然数据湖是开放的,但湖仓却不是。

在能够添加 Impala、Spark 等引擎之前,Hive元存储一直遵循 Hive为先的演进。Delta lake是Spark为主的演进;如果客户想要自由选择不同的引擎而不只是表格式,他们的选择极为有限。

客户从一开始就要求更多。更多格式、更多引擎、更多互操作性。今天,Hive 元存储被多个引擎和多个存储选项使用。除了 Hive 和 Spark,还有 Presto、Impala 等等。Hive元存储是有机地演进支持这些用例,因此集成通常很复杂且容易出错。

为满足互操作性需求而设计的开放数据湖仓从根本上解决了这一架构问题。它会让那些全押在一个平台上的人感到不安,但社区驱动的创新能帮助解决现实世界的问题,以务实的方式帮助使用同类最佳工具,并克服供应商的锁定。

开放湖仓Apache Iceberg的诞生

Apache Iceberg 从一开始构建时,其目标就是在多个分析引擎在云原生规模上轻松实现互操作。这项创新的诞生之地 Netflix 需要将 100 PB 规模的 S3 数据湖构建到数仓中,这可能是最佳示例了。云原生表格式由其创建者开源到 Apache Iceberg 中。

Apache Iceberg 真正的超级力量是它的社区。在过去三年中,Apache Iceberg 社区有机地蓬勃发展,增加了一系列令人赞叹的优异集成:

 · 数据处理和 SQL 引擎 Hive、Impala、Spark、PrestoDB、Trino、Flink

· 多种文件格式:Parquet、AVRO、ORC

· 社区中的大型采用者:Apple、LinkedIn、Adobe、Netflix、Expedia 等

· AWS Athena、Cloudera、EMR、Snowflake、腾讯、阿里巴巴、Dremio、Starburst 的托管服务

使这个多样化的社区蓬勃发展的原因是数千家公司的集体需求,以确保数据湖可以演变为包含数据仓库,同时保持跨引擎的分析灵活性和开放性。这使得开放式湖仓成为可能:为未来提供无限的分析灵活性。

Cloudera拥抱Iceberg模式

在 Cloudera,我们为我们的开源根基感到自豪,并致力于社区贡献。自 2021 年以来,我们为日益壮大的 Iceberg 社区在 Impala、Hive、Spark 和 Iceberg 上做出了数百项贡献。我们扩展了 Hive 元存储将集成添加到我们的许多开源引擎中以充分利用 Iceberg 表。2022 年初,我们在 Cloudera Data Platform (CDP) 中提供了 Apache Iceberg 的技术预览,使 Cloudera 客户能够在我们的数据仓库、数据工程和机器学习服务中实现 Iceberg 的模式和时间旅行能力。

我们的客户一直告诉我们,无论是现代 BI、AI/ML、数据科学还是更多,分析需求都在迅速发展。选择由 Apache Iceberg 提供支持的开放数据湖仓让企业可以自由选择分析。

 

作者:张一冲 合作媒体:通信界 编辑:顾北

 

 

 
 热点新闻
普通新闻 开放式数据湖仓,释放数据分析无限潜能
普通新闻 英特尔推出开源AI参考套件,简化多行业AI开发
普通新闻 2022百度世界定档7.21,看硬核AI如何“上九天揽月、下五洋捉鳖”
普通新闻 搭平台促集群化发展 安徽人工智能产业领先一个“声”位
普通新闻 人工智能与开源新趋势 | 2022开放原子全球开源峰会人工智能分论坛即
普通新闻 爱立信携手OPPO、高通成功完成5G企业网络切片测试
普通新闻 爱立信张广焯:2022年将开启爱立信中国新征程
普通新闻 爱立信、高通和泰雷兹将5G带入太空
普通新闻 国内折叠屏手机市场份额公布:华为一家独大 小米垫底
普通新闻 华为数字金融军团副总裁饶争光:四大科技能力推动金融行业数字化发
普通新闻 华为鸿蒙HarmonyOS3官宣:7月27 日见
普通新闻 数字化打开第二增长曲线,华为总结运营商云转型三大场景
普通新闻 中国发布高清无线音频标准,无线音频产业迎来新的里程碑跨越
普通新闻 绿色发展,共建能效最优的ICT基础设施
普通新闻 可维节碳专家对话:聚焦数据中心高效制冷——全变频氟泵技术
普通新闻 华为联合浙江移动和精友科技发布新通话解决方案
普通新闻 评论:收购魅族吉利不只是造手机
普通新闻 财报临近苹果目标价遭集中下调!两家投行解释:主要是外部原因
普通新闻 工业和信息化的2022年上半年答卷
普通新闻 上海推进5G测试最新标准,更注重市民感知度和获得感
  版权与免责声明: ① 凡本网注明“合作媒体:通信界”的所有作品,版权均属于通信界,未经本网授权不得转载、摘编或利用其它方式使用。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:通信界”。违反上述声明者,本网将追究其相关法律责任。 ② 凡本网注明“合作媒体:XXX(非通信界)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。 ③ 如因作品内容、版权和其它问题需要同本网联系的,请在一月内进行。
通信视界
爱立信中国区总裁方迎:将在中国市场重点做好
华为胡厚崑:5G+工业互联网 数据驱动是关键
普通对话 华为丁耘:绿色ICT,共创新价值
普通对话 爱立信中国区总裁方迎:将在中国市场重点做好
普通对话 中国联通买彦州:广电5G商用对行业竞争格局不
普通对话 中国联通陈忠岳:从“提速降费”向“提速提质
普通对话 华为胡厚崑:5G+工业互联网 数据驱动是关键
普通对话 华为郭平:每个人磨好自己的豆腐,就会有一个
普通对话 中国移动杨杰:加快推进新型平台用工模式规范
普通对话 中国移动简勤:5G引领数字化转型 终端承载应用
普通对话 专访GSMA刘鸿:5G专网谁来建?运营商是最佳选
普通对话 华为甘斌:预计2021年5G用户将超5亿
普通对话 郄勇志:小米被美拉黑事件启示:实现科技自立
普通对话 闻库:要有打造“数字中国 光网底座”的使命感
普通对话 中兴通讯CTO王喜瑜:5G为新媒体注入底层“心”
普通对话 任正非谈剥离荣耀:无意拖人下水 未来是竞争对
普通对话 华为丁耘:共同打造最成功的5G
通信前瞻
中国科大在高安全量子密钥分发网络方面取得新
信通院总工敖立:5G工业模组是产业链特别短板
普通对话 中国科大在高安全量子密钥分发网络方面取得新
普通对话 华为杨超斌:迈向5.5G持续创新,开启5G产业新
普通对话 中国联通买彦州:加强创新力度,协同推进6G技
普通对话 信通院总工敖立:5G工业模组是产业链特别短板
普通对话 中兴通讯首席发展官崔丽:澎湃“数”动能,助
普通对话 中国移动赵大春:力推北斗与5G产业深度融合
普通对话 信通院徐菲:争取2021年实现端到端网络切片自
普通对话 杨泽民:光网络发展挑战与机遇并存
普通对话 张杰:“双千兆”发展面临四大核心挑战
普通对话 中国移动董事长杨杰:共创信息服务新生态 共拓
普通对话 王志勤:“5G+工业互联网”产业发展初期仍面临
普通对话 中国电信董事长柯瑞文:5G+云网,助力VR产业发
普通对话 信通院刘多:中国数字经济增速领跑全球 同比增
普通对话 邬贺铨:5G将激发更大的市场 为信息化、工业化
普通对话 段永平:“性价比”就是性能不好的借口