欧易

欧易(OKX)

国内用户最喜爱的合约交易所

火币

火币(HTX )

全球知名的比特币交易所

币安

币安(Binance)

全球用户最多的交易所

屡破记录!国产数据库何以后来居上?

时间:2022-10-10 18:22:38 | 浏览:1506

【CSDN 编者按】近年来,国产数据库除了在各类排行榜上刷新纪录外,混合式HTAP数据库也逐渐迎来发展的春天。做出既能联机交易,又能作数据分析的混合式数据库,将是国产数据库由跟随潮流到引领时代迈出的重要一步。作者 | 雷涛出品 | 《新程序

【CSDN 编者按】近年来,国产数据库除了在各类排行榜上刷新纪录外,混合式HTAP数据库也逐渐迎来发展的春天。做出既能联机交易,又能作数据分析的混合式数据库,将是国产数据库由跟随潮流到引领时代迈出的重要一步。

作者 | 雷涛

出品 | 《新程序员》

直到21世纪初,我国数据库产业发展还比较缓慢,基本处在西方数据库博览会的状态,很少有拿得出手的国产数据库产品。1989年,Oracle决定进军中国,恰好赶上中国电信建设“九七工程”的风口,在顺利拿下东北三省邮电管理局的大单之后,Oracle在中国市场站稳了脚跟。后来Sybase于1991年进入大陆,IBM随后也带着Db2、Informix等数据库产品大举入华。在这之后的十几年时间里,中国数据库市场格局逐渐成形,金融行业中以Db2、Sybase为主,电信、电力行业中则基本由Oracle一统江湖。

然而,风云起,时代变,一切局势都在潜移默化中开始扭转。以十年前的开心农场偷菜场景为例,随着C端客户爆炸式增长,中国IT人瞬间意识到,传统西方的IOE(IBM小型机、Orcale数据库、EMC存储)技术架构根本无法支持如此海量的并发,而由IOE带来的高昂IT支出也令人瞠目结舌。正是在这样的大背景下,核心技术的自主掌控成了业界共识,打造自己的数据库成了中国程序员们的梦想。

雷涛对HTAP数据库的深入解读

近十年来,我国在数据库领域真正做到了厚积薄发。从单节点到分布式,从单一用途的TP、AP库到混合式HTAP,从独立的数据仓库、数据湖到湖仓一体,从SQL、NoSQL再到NewSQL……可以说,数据库的各方面都迎来了突破性进展。

下面,本文就HTAP数据库进行深入解读。

Google File System、Google BigTable、Google MapReduce——这三驾马车是现在大数据平台Hadoop技术的基石,不仅支撑了新一代分布式架构体系,而且实现了海量数据高效存储和快速计算。2012年,Google发表了一篇论文——Spanner: Google’s Globally-Distributed Database,将同时支持大数据量下做事务交易的数据库提取出来,既支持TP的操作,也可以在上面作一些分析类的操作。在Google提出Spanner架构的基础上,2014年,Gartner对HTAP进行了正式定义,这便是混布式数据库的产生缘起。

目前,数据库基本分为两大流派,一个是非关系型(NoSQL)数据库,一般使用KV技术,主要用于用户画像、业务报表等海量数据挖掘的AP场景。另一个是关系型数据库(SQL),针对个别记录增、删、改、查的速度很快,一般用于联机交易的TP场景。简而言之,TP库处理速度快,AP库处理数据量级高。

之前,AP与TP的应用场景井水不犯河水,相互之间没有太多交集,然而随着数字化转型的不断深入,直播带货这样的新场景不断涌现,在直播过程中既需要处理联机交易,又需要对客户进行实时画像,而传统单一TP或者AP数据库难以应对这样的混合式场景。近几年来,某些国产混合负载数据库以行列混存方式,打破了AP与TP两种场景之间的鸿沟。

数据的神奇旅行

在梳理数据存储模型演进历史后,明显可以发现这是一个随着数据量级不断扩大,数据模型在不断变换的过程。

目前我们提到的数据库一般都是指关系型数据库,从关系型的视角来看,数据库被定义为工厂的车间,数据则是原材料。车间为了进行原材料加工,部署大量的操作设备,原材料也会随时被重塑修改,从建模原理上可以看出TP数据库的数据加工车间适合快速零件加工,但不适合进行大量材料的储存。

而关系型TP数据库在大量数据存储方面的短板直接催生了Hadoop等大数据技术的革命。从大数据视角看,AP数据库自身就是储存仓库,而数据已经是加工完成的成品,没有被重塑、修改等的更新需求。比如在Hadoop技术栈中的HDFS存储实现,就是所有数据只能写入一次,无法修改,这其实是牺牲数据的写入和更新特性,以换取海量数据的储存与查询性能的做法。

而随着大数据应用的进一步拓展,业界发现价值密度更低的非结构化数据也有储存及挖掘的必要。比如客服的对话方式可能是语音、文字甚至是图像、视频,这都不是传统意义上数据库、数据仓库可以处理的结构化数据,因此用于储存非结构化的数据湖出现了,在数据湖中数据标准化、结构化的特性也退化了。从关系型数据库到数据湖,各种大数据技术栈相互独立,但随着移动互联网时代的到来,这种情况发生了改变。

联机性能和实时分析真的是“鱼与熊掌不可兼得”吗?

权威咨询公司IDC对于大数据的定义是:满足种类多(Variety)、流量大(Velocity)、容量大(Volume)、价值高(Value)等指标的数据称为大数据。从历史来看,在谷歌提出大数据三驾马车的论文时,当时的关系型数据库技术就难以处理大规模的数据。而在当下各行各业不断上云的大背景下,数据的量级必然还将不断创新高。从我了解到的情况,整个IT行业存储的数据量级正在以年化80%左右的速度增长,传统SQL数据库难以处理这样的数据量。

很多用户在实际工作中也会把大表关联的查询任务放在传统TP数据库上进行,这样的查询虽然效率很低,但考虑到从TP数据库导入AP数据仓库所需要的超长时间,直接在TP数据库上跑查询可以理解。其实,这个例子也深刻说明了目前大数据技术栈面临的窘境,各个TP与AP数据库像是一座座数据孤岛,打破孤岛之间的边界简直比登天还难。正如前文所说,SQL与NoSQL两种产品底层构建模型并不相同,彼此兼容性不佳。想保证联机交易处理时效,就要牺牲数据分析的性能,而想要实时数据分析,快速完成用户画像就不能再依靠原有技术栈。

处理时效与实时用户画像的平衡可能是数据库工程师与产品经理之间永远无法达成的协议。目前大多商业银行都使用以Oracle为代表的TP数据库作为核心系统,但Oracle只能处理流程性的交易数据,不能做数据挖掘。要想把数据价值做二次表达,就需要每天做ETL,跑批作业,存到数据仓库中。然后在数据仓库中建模、挖掘、数据集市、ODS,一层一层地构建起数据仓库报表。

如果还是回答不出更细节、隐含的问题,比如非线性问题,还要把数据复制到SAS中做机器学习,再做统计的指标体系,去进一步挖掘。数据要在这里搬动三次,复制三份冗余,还要管理数据一致性,每天数据中心运维的大量工作都在做数据迁移。而数据在这种低效的转运迁移过程中,很多价值就白白消耗了,且正如前文所说,TP与AP两套体系的组件兼容性很差,能让两大体系协同工作已属不易,如果再考虑灾备高可用方面的需求,则是难上加难。

行列混存—混合负载的正确打开方式

目前,各行业数据中心都迫切寻找一栈式解决方案,通过屏蔽大数据技术底层组件的差别,寻找“All Data In One”的解决方案,只有如此才能降本增效。

TP与AP的巨大差异,在于行存与列存在不同使用场景下的效能表现。在计算机世界中,数据吞吐速率往往受数据访问局部性原理支配。我们知道,现代硬盘、内存工作原理是当用户读某一区域的数据时,其邻接的数据也会被调入上一级高速缓存,读1KB数据和连续的64MB数据的代价基本相同,用户在读取连续的磁盘或者内存信息时,其速度往往比随机读取快一个数量级。因此,行存储大多用在SQL的TP场景,而列存储基本用在NoSQL的AP场景。

这背后的原因也很简单,还是以银行业作为案例,在联机交易的TP场景下,比如当客户取款时,会校验用户、账号、密码、余额等信息,这些信息都是以“行”为单位存储的,联机交易中的数据经常是以“行”为单位访问的,把数据放在一行就会有访问速度的优势。但在统计、分析营业报表,进行数据挖掘等AP场景下,往往只需要关注交易金额、账户余额等少量维度的信息,而不需要用户、账号、密码等数据,在这种场景下,将同一维度信息放在一起的列存储方案就有很大的速度优势了。

将行、列进行混存,综合两者的优势,这方面业界也有不少尝试,但往往都不是很成功,最大的问题还是在于性能。对于联机TP交易场景来说,列式存储的写入性能太低了。所以一般来说,传统的方案往往还是退化成为行式存储TP数据库,在交易量少的日终结算时刻,将数据吐给列式存储AP数据库进行数据挖掘。

如图1所示,逻辑上,业务场景主要分为两类:联机交易OLTP和数据分析OLAP。HTAP数据库不仅支持使用SQL进行传统的关系模型计算,更是将图计算和AI建模纳入了逻辑计划中,可进行高阶计算。在数据存储层,通过行列混合的方式,按需支持OLAP和OLTP场景,这样就做到了一种存储架构兼容所有场景。

图1 HTAP数据库架构图

这种逻辑计划及存储融合,也称“All Data In One”,是对数据库基础底座的重新定义。在资源调度层,通过AI-Native的方式探查出需要使用的调度引擎,并在实际计算时,做好资源隔离。这种架构可以更有效地支撑数据计算,最终实现一个数据库融合所有场景的终极目标。相信未来的国产HTAP数据库,还将继续朝着“All Data In One”的道路前进,发展特色不断创新,降低系统运维成本,发挥数据的最大价值。

本文出自《新程序员002:新数据库时代&软件定义汽车》,由60余位专家倾力创作。随书附赠《2021数据库全景图V1.0》和《2021汽车技术与产业生态全景图V1.0》,同时内含《2021年度数据库发展研究报告》和《2021年度软件定义汽车研究报告》,图文与视频多媒体呈现。

数据库作为核心技术三大件之一,我们从新型数据库普及、数据库开源趋势、数字化转型实现,以及资本助力产业等角度,邀请到27位数据库行业专家,共著非关系型数据库、文档型数据库、分布式数据库、混合式数据库、时序数据库、图数据库等的理论技术及行业实践,让数据库开发者快速提升。

《新数据库时代》目录

智能驾驶作为人工智能的顶上皇冠,我们以技术和商业融合创新为主线,邀请到23位汽车领域专家,从开源系统、车路协同、数字孪生等不同视角分析了云计算、人工智能、物联网等技术给汽车行业带来的影响和机会,让汽车从业者深入了解产业动态。

《软件定义汽车》目录

本书高屋建瓴的产业分析和趋势预判适合中高端从业人员参考决策。同时,多位专家亲历的入门和实践之旅也为初学者提供了可借鉴的专业路径。

相关资讯

数据库:什么是数据库,数据库管理系统,数据库系统,数据库管理员?

数据库 : 数据库(DataBase 简称 DB)就是信息的集合或者说数据库是由数据库管理系统管理的数据的集合。数据库管理系统 : 数据库管理系统(Database Management System 简称 DBMS)是一种操纵和管理数据库

数据库超详细讲解,MySQL数据库的简介、及常用数据库介绍

数据库简介数据库:顾名思义,就是数据的仓库,它是长期存储在计算机内,有组织的、可共享的数据的集合。数据库管理系统(DBMS: 用来对数据进行存储、管理等操作的软件)数据库分类数据库通常分为:层次式数据库、网络式数据库和关系式数据库三种。而不

数据库行业深度报告:历史机遇,国产数据库市场迎来十倍空间

获取报告请登录未来智库www.vzkoo.com。一、数据库行业的基本情况(略)1.数据库的性能:六个方面,一套标准数据库的性能指标聚焦于 6 个方面:吞吐量、负载均衡、读写速度、分区分片、并发性和 可用性。不同类型的数据库由于使用场景的差

什么是数据库DataBase?数据库和数据记录的概念简单讲解

大家好,在讲数据库之前,我用了很长的时间,和大家分享了很多VBA方面的一些知识点,其中很多是我个人对VBA的理解。从这讲开始我们要在原先的基础上深入的讲解一些VBA的提高利用,就是我们要开始讲解的数据库。在《VBA与数据库利用》中我会讲解到

数据库看这一篇就够了!MySQL、Redis、Mongodb等常见数据库教程

数据库是系统健康和用户行为健康的重要指标。数据库中的异常行为可能会引起应用程序中的问题。或者当应用程序中存在异常时,都可以使用数据库指标来帮助加快调试过程。先来认识下市面上常用的数据库:关系型数据库1. MySQL数据库2. Microso

为什么要使用数据库,什么是数据库

1、为什么要使用数据库持久化(persistence):把数据保存到可掉电式存储设备中以供之后使用。持久化的大多数时候是将内存中的数据存储在数据库中,当然也可以存储在磁盘文件、XML数据文件中。方便管理数据(例如:快速的检索等)2、什么是数

重塑数据库发展路径业界聚焦我国数据库产业发展

人民网北京12月27日电 (记者乔雪峰)近日发布的《软件和信息技术服务业十四五规划》中,明确提出我国“十四五”时期要加快实施国家软件发展战略,不断提升软件产业创新活力,聚力攻坚基础软件,有效满足多层次、多样化市场需求,为构建以国内大循环为主

常见的数据库类型及各种数据库特点的简单介绍

大家好,在上一讲中,讲了数据库的概念及表的概念,通过上讲的内容,我们大概了解了一些数据库的基本知识。其实,在我的日常生产中,数据库和我们也是息息相关的,当我们打电话、上网、去银行交易等等,都要访问不同的数据库,这些数据库各有自己的特点,但都

数据库篇-第一章:数据库基本概念

基础知识学习,面试必备,关注吧 骚年01 第一,什么是数据库?维基百科上是这样定义的:所谓“数据库”是以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。一个数据库由多个表空间(Tablespace)

C++基础语法梳理:数据库!带你深入浅出了解数据库

基本概念数据(data):描述事物的符号记录称为数据。数据库(DataBase,DB):是长期存储在计算机内、有组织的、可共享的大量数据的集合,具有永久存储、有组织、可共享三个基本特点。数据库管理系统(DataBase Management

数据库指南:一文让你浅显易懂地了解数据库

在数据分析的技能中,数据库与SQL会是性价比最高的技能之一。数据库是逻辑上的概念,它是一堆互相关联的数据,放在物理实体上,是一堆写在磁盘上的文件,文件中有数据。这些最基础的数据组成了表(table),我们把它想象成一张Excel的sheet

数据库技术新版图-Serverless数据库

数据库的发展已走过近四十年,作为基础软件之一,数据库称得上是一个“古老”的领域。而随着新技术的涌现,这个传统的领域也正不断焕发出新的生机。如果说云时代的到来推动了数据库的变革,那么,与 Serverless 的结合,则再次为数据库的发展添了

什么是数据库?用最简单的方法讲明白数据库

数据库基本概念数据库是一个以某种有组织的方式存储的数据集合。数据库(database)是保存有组织的数据的容器。数据库管理系统(DBMS)是一种数据库软件,MySQL是一种DBMS,即它是一种数据库软件,作者使用的数据库管理系统是MySQL

一文读懂Access数据库,从此不用Access数据库

1992年11月,Microsoft Access 1.0版本发布。同时,这也是Access数据库,第一次进入大家的视野。起初,Access的原名并不叫Access,而叫Cirrus。Ciruus开发于Visual Basic之前,当时的窗

闲聊数据库发展历史三个阶段、分类、数据库规范及趋势

概述数据库(Database)是存储与管理数据的软件系统,就像一个存入数据的物流仓库。在商业领域,信息就意味着商机,取得信息的一个非常重要的途径就是对数据进行分析处理,这就催生了各种专业的数据管理软件,数据库就是其中的一种。当然,数据库管理

友情链接

网址导航 SEO域名抢注宝宝起名网妈妈知道币圈登山运动网巴哥犬资讯网基围虾养殖唐诗宋词网南京交友相亲网海尔空调资讯网苏泊尔豆浆机评测网珠海头条新闻网今日威海小红书旅游攻略品酒师资讯网观赏鱼论坛网斯洛文尼亚旅游网安溪铁观音官网香奈儿奢侈品
MYSQL数据库应用网-mysql数据库基础知识、Mysql还原数据库、mysql数据库迁移方案、mysql数据库增删改查、mysql数据备份和恢复、mysql数据迁移工具、mysql数据库迁移详细步骤、mysql数据库存储目录迁移、mysql数据库不停机迁移方法、mysql数据备份和恢复、免费mysql服务器、mysql官网免费版安装教程。
MySQL数据库应用 nincu.cn ©2022-2028版权所有