-系列目录-
大数据架构(一)背景和概念
【资料图】
大数据架构(二)大数据发展史
一、背景1.岗位现状大数据在一线互联网已经爆发了好多年,2015年-2020年(国内互联网爆发期)那时候的大数据开发,刚毕业能写Hive SQL配置个离线任务、整个帆软报表都20K+起步。如果做到架构师,50K跑不掉。现在市场回归理性后:
普通岗:大数据/数仓开发,实际上除超一线城市之外,尚存很多大型企业转型期信息化、互联网(物联网IOT)还在发展,数据还在爆发式增长,仍大有可为。精英岗/管理岗:大数据总监/架构师,在重视数据的企业(一线互联网大厂、数据服务厂商),年包上百万也不少。2.行业现状数据架构在过去20年发展迅速,尤其是过去十年,几乎每年都有新概念、新产品开源出来。一些新名词爆发式展现出来:数据仓库、数据集市、大数据、离线数仓、实时数仓、时空数据库、数据中台、数据湖、流批一体、湖仓一体、实时湖仓、商业智能(BI)等等。
数据精细化:从经营与分析转为数据化的精细运营,对数据要求过程化、粒度更细。产品多样性:传统 BI 中的 Report、OLAP 等工具开始转向面向最终用户自助式、半自助的产品,来快速获取数据并分析得到结果。数据时效性:从 T+1 转为近乎实时的数据诉求。平台轻薄化:阿里自砍中台战略,把中台拆分到各条业务线部门独自负责。把中台变得轻薄,更贴近业务。数据只有贴近业务才能焕发活力。底层逻辑是某业务领域的中心化是推荐的,有价值的。3.本文目标本系列文章不做源码级分析大数据框架,而是关注大数据的发展历史、主流架构和原理、落地流程。可作为架构师对于大数据架构的扫盲贴。(笔者花了2月的时间阅读大量文章总结出来的,可能会有问题,欢迎留言交流。)
二、概念解析前面说了大数据领域出了很多概念:数据仓库、数据集市、大数据、离线数仓、实时数仓、时空数据库、数据中台、数据湖、流批一体、湖仓一体、实时湖仓。我们就来简单解析一下这些"专业名词",从概念上达成一致,有一个基本的定位。
如上图所示,这些大数据领域的名词,我们可以分为2大类:1.数据服务架构相关 2.数据库、数仓相关。其中绿色角标标识具体概念的,黄色角标标识抽象概念的。
1.大数据:广义上的大数据概念,涵盖数据服务、数据仓库领域的概念。
1.数据服务架构相关:
数据中台:归属阿里三大中台战略。但2023年4月马云回国后,将公司按照业务线拆分,各付盈亏。同时中台也同步拆分到各业务中去,原中台只保留偏底层的少量系统。由此可见,中台可能去中心化,大中台变部门小中台,更贴近业务,盘活数据。Data Mesh数据网格:基于DDD领域驱动设计和服务网格思想的数据架构,可能会热度增加,但落地尚早。(国内service mesh都还没热起来,按照惯性data mesh最少3年后再说)。2.数据仓库架构相关:
1.具体概念
数据库:按照数据结构来组织、存储和管理数据的仓库。数据仓库:抽取或导入结构化/半结构化数据,主要用于OLAP数据分析,支持管理决策。上世纪90年代,强制使用结构化数据+范式建模,构建EDW企业数据仓库。数据集市:数据集市(Data Mart),也叫数据市场,是数据仓库的一个子集(部门级业务)。按照抽取方式可分为两类:1)独立型数据集市:直接从源数据抽取业务数据。2)从属型数据集市:从数据仓库/数据湖抽取。数据湖 :以原始类型存储数据的存储系统。倡导:先导入,后处理分析使用。2.抽象概念(逻辑概念)
离线数仓:数据仓库的延伸逻辑概念,描述的是批处理(离线计算)场景。实时数仓:数据仓库的延伸逻辑概念,描述的是实时处理(实时计算)场景。批流一体:大数据的数据清洗ETL,可简单分为2类:批处理(离线任务)、流计算(实时计算)。批流一体讲究用一套技术方案实现2种目标。湖仓一体:数据在数据湖和数仓中流动,兼具数仓的稳定性建模和数据湖的灵活特性。实时湖仓:强调实时计算能力的湖仓一体架构。2.1 数据库数据库是“按照数据结构来组织、存储和管理数据的仓库”。数据库有很多种类型适用不同业务场景,最常见的是关系型数据库、键值型数据库、时序数据库。
2.1.1 关系型数据库支持事务ACID特性的数据库。常见的有Mysql、Oracle、PostgresSQL等。2.1.2 非关系型数据库文档型数据库(Document databases):MongoDB。优点是对数据结构要求不特别的严格。而缺点是查询性的性能不好。键值型数据库(Key-value databases):Redis、Memcached,常用于缓存方案。列数据库(Column-family databases):以列族的形式存储数据,如Apache Cassandra、HBase。优点是查询快速。缺点是数据结构有局限性。时间序列数据库(Time-series databases):专门用于存储时间序列数据,如InfluxDB、OpenTSDB。目前时序大数据存储场景很多,前景极大,处于上升期。2.2 数据仓库2.2.1 数据仓库数据仓库是Bill Inmon在1991年出版的“Building the Data Warehouse”一书中所提出的定义被广泛接受:数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。
面向主题的:根据使用者的需求,将来自不同数据源的数据围绕着各种主题进行分类整合。集成的:来自各种数据源的数据按照统一的标准集成于数据仓库中。相对稳定的:数据仓库中的数据是一系列的历史快照,不允许修改或删除,只涉及数据查询。反映历史变化的:数据仓库会定期接收新的集成数据,从而反映出最新的数据变化。2.2.2 数据仓库VS数据库2.2.3 企业数据仓库EDWEDW也是一种数据仓库DW。上世纪90年代,使用结构化数据+3NF范式建模,构建EDW企业数据仓库。
2.2.4 离线数仓2003~2006年 Google发表了三篇论文:分布式文件系统GFS、分布式计算框架MapReduce、分布式存储系统BigTable。2006年,Hadoop正式面世。此后,以Hadoop技术栈为代表的离线数仓架构引领大数据发展了十多年。这时候的处理任务基本都是批处理任务。离线数仓特指:应对批处理(离线计算)场景的数据仓库。如下图所示:
早期离线数仓使用离线计算引擎实现批处理数据。最常用的离线计算引擎就是Hive(Hadoop技术体系)。典型应用是定时任务跑批生成报表数据。
2.2.5 实时数仓2014年,Flink为代表的实时计算风靡,基于Flink为计算引擎的实时数仓跃然纸上。实时数仓特指:应对实时处理(实时计算)场景的数据仓库。典型的实时数仓如下图所示:
2.3 数据集市数据集市(Data Mart),也叫数据市场,就是满足特定的部门或者用户的需求,按照多维的方式进行存储,包括定义维度、需要计算的指标、维度的层次等,生成面向决策分析需求的数据立方体。
按照抽取方式可分为两类:
1)独立型数据集市:直接从源数据抽取业务数据。
2)从属型数据集市:从数据仓库/数据湖抽取。
数据仓库VS数据集市2.4 数据湖2.4.1 数据湖随着互联网->移动互联网->IOT物联网 这一条商业智能发展线路的改变,产生了大量的照片、视频、文档等非结构化数据、时序数据。数据湖诞生了:允许用户以任意规模存储所有结构化和非结构化数据,并支持对数据进行快速加工和分析。用户可以按原样存储数据(无需先对数据进行结构化处理),并运行不同类型的分析(从控制面板和可视化到大数据处理、实时分析和机器学习,以指导做出更好的决策。
2.4.2 数据仓库VS数据湖数据仓库的成长性很好,而数据湖更灵活。数据仓库支持的数据结构种类比较单一,数据湖的种类比较丰富,可以包罗万象。数据仓库更加适合成熟的数据当中的分析和处理,数据湖更加适合在异构数据上的价值的挖掘。
=========参考=============
How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh
标签:
-
大数据架构(一)背景和概念
-系列目录-大数据架构(一)背景和概念大数据架构(二)大数据发展史一、背景1 岗位现状大数据在一线互联网
-
【世界报资讯】凯度携重磅新品亮相AWE2023 打造全厨烹净饮解决方案
4月27日—30日,凯度携Z3E全厨智慧中枢集成灶、行业首款双热风微蒸烤炸一体机等重磅新品亮相2023中国家电及
-
三星携手爱奇艺与UWA联盟打造HDR Vivid“菁彩”视觉体验|热点聚焦
4月27日,三星OLED新品电视正式发布。该产品采用自发光面板配合量子点显示技术,在保留OLED核心优势的基础
-
全球新动态:清平乐茅檐低小赏析_清平乐茅檐低小
1、作者写了不少描写农村生活的佳作,这首词即是其中之一。2、刘熙载说,“词要清新”,“澹语要有味”(《
-
互动| 聚杰微纤:通过间接方式给苹果供应的超细纤维面料已进入量产阶段|天天要闻
聚杰微纤4月28日在投资者互动平台表示,公司通过间接方式给苹果供应的超细纤维面料已进入量产阶段,但目前
-
天天头条:【金融街发布】人民银行:一季度末金融机构人民币各项贷款余额同比增长11.8%
2023年一季度末,金融机构人民币各项贷款余额225 45万亿元,同比增长11 8%;一季度人民币贷款增加10 6万亿
-
观热点:清河县谢炉初级中学(小学部)开展课后延时服务篮球社团活动
清河县谢炉初级中学(小学部)以立德树人为根本,以素质教育为特色,以课后服务为依托,坚持“五育并举”,
-
热文:北京公交警方组织突发大客流事件实兵拉动演练
北京日报客户端|记者徐慧瑶通讯员郑灿据铁路部门预测,今年“五一”假期节日期间全市重点火车站日均到发旅
-
今日华为手机如何取消来电黑名单_来电黑名单
1、在手机待机界面点击菜单,然后选择“更多,通知”;或者直接从手机顶部下拉,然后选择“安全管家”图标
-
全球今头条!西山区气象台发布大风蓝色预警【Ⅳ级/一般】【2023-04-28】
西山区气象台2023年4月28日13时11分继续发布大风蓝色预警信号:预计未来24小时内西山区可能受大风影响,平
-
河南省南阳市2023-04-28 11:59发布大风蓝色预警-热议
一、河南省南阳市天气预报1、新野县气象台2023年4月28日11时59分发布大风蓝色预警信号。2、预计未来24小时内,新
-
youtube代理ip_youtube在线代理-快报
1、你说的应该是youtuber。2、就是人们经常说的油管。以上就是【youtube代理ip,youtube在线代理】相
-
好好的一个待爆00花...可惜了?
好好的一个待爆00花 可惜了?,丝芭,影视,孙珍妮,林思意,鞠婧祎,00花,长月烬明
-
蒙城供电公司:“电E金服”推广 助力企业降成本添动力-每日看点
本文转自:人民网-安徽频道“供电公司服务确实到位,主动上门为我们企业提供金融服务,增加企业收入,真的
-
全球看热讯:两部门:做好节假日期间新能源汽车充电保障
国家能源局综合司、交通运输部办公厅近日印发通知,要求切实做好节假日期间新能源汽车充电服务保障有关工作
-
车险二次综改即将落地,新能源车险将成为“兵家必争之地”_世界聚看点
车险综改一直是惠及民生的大事。公安部统计数据显示,2022年,全国汽车保有量达3 19亿量,汽车驾驶人已达4
-
“菜篮子”供应量足价稳 节日期间市场将购销两旺 世界播报
央视网消息:“五一”假期4月29日开启,农业农村部最新监测显示,节前全国“菜篮子”产品供应呈现量足价稳
-
全球热门:万马股份:4月27日融券卖出8300股,融资融券余额4.46亿元
4月27日,万马股份(002276)融资买入837 0万元,融资偿还1753 7万元,融资净卖出916 7万元,融资余额4 46亿元。
-
否定之否定规律揭示的事物发展的趋势是_否定之否定规律揭示的事物发展的辩证内容是|世界热门
1、A 方向和道路对立统一规律是唯物辩证法的实质和核心。2、具体表现在:①对立统一规律揭示了事物运动、变
-
环球滚动:假日消费如何避坑? 厦门市场监管部门发布出游消费提示
假日预订酒店客房,却被店家以“奇葩理由”取消?到景区餐厅吃海鲜担心被宰?在旅游购物点买的伴手礼是“贴
-
今头条!雷尔伟(301016)4月27日主力资金净卖出457.08万元
截至2023年4月27日收盘,雷尔伟(301016)报收于18 22元,下跌8 85%,换手率6 75%,成交量2 02万手,成交额3774 12万元。
-
居然之家2022年归母净利润约16.48亿 今年一季度营收同比增长4.53%
观点网讯。4月26日,居然之家新零售集团股份有限公司发布了2022年年度报告。观点新媒体获悉,2022年,居然
-
全球视讯!《漫长的季节》第8集剧情分析:看似平静但信息量极大
《漫长的季节》第8集,看似比较平淡,然而信息量也很大!通过这一集中的几个细节,基本可以确定:沈墨没死
-
舆情冲击、需求疲软、成本上升海天味业上市以来净利润首降
海天味业(SH603288,股价69 47元,市值3219亿元)在4月25日晚间发布的2022年年报中如是说道。年报显示,海
-
西测测试(301306)2023年一季报财务简析:净利润减174.06%,三费占比上升明显
据证券之星公开数据整理,近期西测测试(301306)发布2023年一季报。根据财报显示,本报告期中西测测试净利
-
当前观察:高雅玲_关于高雅玲简述
小伙伴们,你们好,今天小夏来聊聊一篇关于高雅玲,关于高雅玲简述的文章,网友们对这件事情都比较关注,那
-
生态环境部:新发现黄河干流入河排污口5200余个-短讯
生态环境部:新发现黄河干流入河排污口5200余个---刘友宾是在生态环境部当天举行的新闻发布会上介绍这一情
-
每日消息!孙子谋略新论
1、《孙子谋略新论》是2014年10月解放军出版社出版的图书。2、作者是李炳彦。文章到此就分享结束,希望对大
-
天天要闻:古根海姆:将Meta Platforms(META.O)目标价从240美元上调至320美元。
古根海姆:将MetaPlatforms(META O)目标价从240美元上调至320美元
-
鲨鱼宝宝儿歌(鲨鱼宝宝儿歌嘟嘟嘟)-今日快讯
鲨鱼宝宝,嘟嘟嘟嘟嘟嘟!鲨鱼宝宝!鲨鱼妈妈,嘟嘟嘟嘟嘟嘟!鲨鱼妈妈!鲨鱼爸爸,嘟嘟嘟嘟嘟嘟!鲨鱼爸爸