企业数据湖架构

Linux系统技术交流QQ群（2650582）验证问题答案：刘遄

导读	随着大数据的重要性和接受度的提高，人们也越来越需要考虑如何组织和托管大数据。答案之一是数据湖，在数据准备和组织方面最广泛的数据体系结构系统。

简单地说，它允许企业首先存储数据，然后在需要时检索数据。就像一个存储单元，你只是把你的东西存储，并在未来需要的时候找出来。

这种方法与传统的数据仓库截然不同，传统的数据仓库需要对数据进行结构化，且通常在记录数据之前采用类似表格的形式。数据仓库是一种固定形式的解决方案，它不是敏捷的，同时意味着额外的重新配置成本。但迄今为止，它一直是全球企业的首选。

那么，将数据湖作为数据管理选项的主要原因有哪些?

削减成本

因为在存储数据之前不需要设计数据的模式，所以没有前期的开发费用。且处理数据湖的Hadoop系统是开源的，因此没有额外的软件许可成本。

与传统数据仓库的不同之处在于，有了数据湖，ETL阶段就完全没有了。您不必知道存储在湖中的数据类型或者有多少字段。删除ETL过程意味着没有与许可、维护或增长数据结构相关的成本。

敏捷性

添加新单元或单个新项目可能会改变现有的整个数据结构，从而引发额外的成本。此外，进行这些更改所需的实现时间可能从几天到几周不等。

在数据湖中，所有的数据都已经存储，并且只有很少的变化，您可以随时查询。

这种方法帮助企业在当今不断变化的数据世界中保持敏捷性。未来几年里可能会出现新的数据格式，其中一些甚至是现在还无法预见的。因此，企业数据存储系统需要足够灵活，在不进行重大结构更改的情况下满足所有既定和突发要求。

多种格式

数据湖可以处理各种数据格式。即使数据湖中的一些数据看起来与其他数据无关，但从整体的角度进行组合和分析时，它可以提供基本的业务见解。

例如，如果一个数据湖包含关于客户的记录，比如姓名、年龄、去年的支出，以及客户在网上商店的行为统计图，很难看出这些细节和销售线索之间的直接联系。然而，把所有的东西放在一起，可以发现一定年龄的客户往往会更快地做出购买决定，这可能会影响销售策略。

除了多种格式，还有关于数据源的上下文透视图。最常见的资源包括面向客户的应用程序、BI应用程序、销售日志等。物联网的兴起将增加数据源和格式的数量，使数据湖成为唯一可靠的解决方案。

人工智能

由于数据湖使用非结构化数据，因此不适合使用传统的基于sql的工具进行查询。相反，由于大多数数据都具有合适的3v(体积、速度、多样性)，因此可以将其视为大数据并用于训练人工智能算法。

实际上，拥数据湖的目标是让信息实时(或几乎实时)准备好进行处理。这种动态的方法为公司提供了立即反应的机会。将所有数据放在同一个位置意味着在分析之前检索数据的时间更少。

灵活性和规模

数据湖最典型的特性可能是其可伸缩性和灵活性，它可以适应企业数据的任何变化，而不需要对基础设施进行重大更改。由于整个架构是基于云的，通常通过按使用量付费的业务模型进行访问，所以任何升级或降级都意味着只需更改您的支付计划。

这种灵活性与不能实时修改的遗留系统形成了对比。数据湖可以很容易地添加或合并数据。就像是现实中的湖泊，它可以由多条河流汇集，并且可以随时添加新的河流，而不会干扰之前的设置。与此同时，遗留系统就像一个装水设施，任何改变都需要更多的瓶子、更多的标签和重新安排时间。

局限

尽管数据湖有很多优势，但也并不是万无一失的解决方案，也绝对不是万能药。数据湖最大的风险在于，它们可能会变成数据沼泽，数据可能会被毫无意义地丢弃。

所有保存的数据流都应该与项目中的kpi和业务目标相结合。避免信息瘫痪的一种方法是创建可视化仪表板，通过仪表板，数据可以被正确显示，即使不是数据库学家也可以理解数据。

原文来自：

本文地址：//gulass.cn/enterprise-data-lake-architecture.html编辑：KSJXAXOAS，审核员：张文祥

Linux大全：

Linux系统大全：

红帽认证RHCE考试心得：

红帽RHCE认证：

Linux命令大全：

Linux系统大全：

本文依据CC-BY-NC-SA 3.0协议发布,竭诚为读者提供Linux视频教程、Linux学习资料以及红帽考试资料等优质学习资源。

刘遄老师

学员顾问

刘遄老师

咨询反馈

彩票走势图