我看好数据湖的未来,但不看好数据湖的现在

先随便扯一扯
2020年中期的时候,数据湖这个概念应该开始频繁的进入大家的视线了 。
很多兄弟都没有搞懂数据湖的概念的时候就开始吹了 。
这也符合咱们中国商业和技术环境特点,先把牛逼吹出去,文章先发出来,先在大家脑海里占有一席之地,然后咱们再开始干活 。
我在之前的文章中,详细提到过数据湖这个概念,说实话,小编自己也是一脸懵逼 。
在此,我求求这些大佬你们别天天整这么高大上的词汇了,以后发文最好能通俗一点 。
下面这段是直接找的和AWS的介绍 。此外,阿里云也推出了自己的云产品Data Lake,这个我们稍后介绍 。
是这么定义的:
A data lake is aorof datain its /raw ,blobs or files. A data lake isastore of alldatarawofdata anddata used for tasks such as , ,and. A data lake candata from(rows and ), semi- data (CSV, logs, XML, JSON),data (, , PDFs) anddata (, audio, video). [2]A data swamp is aanddata lake that isto itsusers or isvalue
行了,我知道大家不会看,其实我也没看 。翻译过来就是:
数据湖是一类存储数据自然/原始格式的系统或存储,通常是对象块或者文件 。数据湖通常是企业中全量数据的单一存储 。全量数据包括原始系统所产生的原始数据拷贝以及为了各类任务而产生的转换数据,各类任务包括报表、可视化、高级分析和机器学习 。数据湖中包括来自于关系型数据库中的结构化数据(行和列)、半结构化数据(如CSV、日志、XML、JSON)、非结构化数据(如email、文档、PDF等)和二进制数据(如图像、音频、视频) 。数据沼泽是一种退化的、缺乏管理的数据湖,数据沼泽对于用户来说要么是不可访问的要么就是无法提供足够的价值 。
AWS给出的定义在这里:
A data lake is athatyou to store all youranddata at any scale. You can store your data as-is,to firstthe data, and runtypes of —fromandto big data , real-time , andto guide.
【我看好数据湖的未来,但不看好数据湖的现在】翻译过来是这样的:
数据湖是一个集中式存储库,允许您以任意规模存储所有结构化和非结构化数据 。您可以按原样存储数据(无需先对数据进行结构化处理),并运行不同类型的分析 – 从控制面板和可视化到大数据处理、实时分析和机器学习,以指导做出更好的决策 。
另外,标准狂魔微软也给出了自己的定义,我反正没看懂,就不说了 。
我在阿里云的官网上看到的简介倒是非常的合理:
数据湖是一个集中式存储库,可存储任意规模结构化和非结构化数据,支持大数据和AI计算 。数据湖构建服务(Data Lake,DLF)作为云原生数据湖架构核心组成部分,帮助用户简单快速地构建云原生数据湖解决方案 。数据湖构建提供湖上元数据统一管理、企业级权限控制,并无缝对接多种计算引擎,打破数据孤岛,洞察业务价值 。
综上所述,大家都在突出的一个概念是:任意规模结构化和非结构化数据 。
好,假设上面说的都是对的,那么数据湖给我描述的应该是一个全新的,分别超越了:
以为核心的的离线数仓第一阶段
以Lamda为代表架构批流一体第二阶段
以Kappa为代表架构的数据一致性第三阶段
这三种我们已经使用非常成熟的三种构建数据中心或者数据仓库的形式 。
都说数据湖好?好在哪里?

我看好数据湖的未来,但不看好数据湖的现在

文章插图
小编参考了AWS的官网发现,AWS对于这个问题给了用户一个清晰的答案:
数据仓库是一个优化的数据库,用于分析来自事务系统和业务线应用程序的关系数据 。事先定义数据结构和以优化快速 SQL 查询,其中结果通常用于操作报告和分析 。数据经过了清理、丰富和转换,因此可以充当用户可信任的“单一信息源” 。