什么是数据仓库、数据集市和数据湖?

日期: 2024-02-18 10:47:31|浏览: 193|编号: 33941

友情提醒:信息内容由网友发布,本站并不对内容真实性负责,请自鉴内容真实性。

什么是数据仓库、数据集市和数据湖?

数据仓库

早期系统采用数据库来存放管理数据,但是随着大数据技术的兴起,大家想要通过大数据技术来找到数据之间可能存在的关系,所以大家设计了一套新的数据存储管理系统,把所有的数据全部存储到数据仓库,然后统一对数据处理,这个系统叫做数据仓库。而数据库缺少灵活和强大的处理能力。

收款统计_收货清单统计表_收货单统计

在计算机领域,数据仓库(英语:data warehouse,也称为企业数据仓库)是用于报告和数据分析的系统,被认为是商业智能的核心组件。数据仓库是来自一个或多个不同源的集成数据的中央存储库。数据仓库将当前和历史数据存储在一起,以利各种分析方法如在线分析处理(OLAP)、数据挖掘(Data Mining),帮助决策者能快速从大量数据中,分析出有价值的信息,帮助建构商业智能(BI)。

尽管仓库非常适合结构化数据,但是许多现代企业必须处理非结构化数据,半结构化数据以及具有高多样性、高速度和高容量的数据。数据仓库不适用于许多此类场景,并且成本效益并非最佳。

收货清单统计表_收货单统计_收款统计

收货清单统计表_收款统计_收货单统计

数据集市

收货单统计_收款统计_收货清单统计表

每个部门自身也有对业务数据进行处理分析统计的需求,但不涉及到和其他数据,不希望在数据量大的数据仓库进行操作(因为操作慢,而且可能影响到其他人处理数据),所以建立一个新的存储系统,把数据仓库里关联自己的数据存储到这个系统,本质上算是数据仓库的一个子集。这个系统叫做数据集市。

例如公司里的某一个部门想对投资者服务数据进行分析,于是他们建立一个投资者服务数据的数据集市,其中数据从数据仓库中抽取:

收款统计_收货清单统计表_收货单统计

收款统计_收货清单统计表_收货单统计

数据湖

收货单统计_收款统计_收货清单统计表

随着当前大量信息化发展和电子设备产品普及,产生大量的照片、视频、文档等非结构化数据,人们也想通过大数据技术找到这些数据的关系,所以设计了一个比数据仓库还要大的系统,可以把非结构化和结构化数据共同存储和做一些处理,这个系统叫做数据湖。

数据仓库的成长性很好,而数据湖更灵活。数据仓库支持的数据结构种类比较单一,数据湖的种类比较丰富,可以包罗万象。数据仓库更加适合成熟的数据当中的分析和处理,数据湖更加适合在异构数据上的价值的挖掘。

数据湖虽然适合存储数据,但缺少一些关键功能:它们不支持事务处理,不保证数据质量,并且缺乏一致性/隔离性,从而几乎无法实现混合追加和读取数据,以及完成批处理和流式作业。 由于这些原因,数据湖的许多功能尚未实现,并且在很多时候丧失了数据湖的优势。

收款统计_收货单统计_收货清单统计表

提醒:请联系我时一定说明是从高奢网上看到的!