欧易

欧易(OKX)

国内用户最喜爱的合约交易所

火币

火币(HTX )

全球知名的比特币交易所

币安

币安(Binance)

全球用户最多的交易所

数据库领域重要进展!蚂蚁集团高性能图数据TuGraph正式开源

时间:2022-10-09 14:53:39 | 浏览:463

数字化正在深入各行业,所产生的海量数据得到了空前的重视和应用,这也是中国数据库生态百花齐放的重要原因。CSDN《新程序员》杂志第二期做了“新数据库时代”为主题的系列报道,我们看到,在传统关系型数据库之外,新型的非关系型数据库快速发展,例如新

数字化正在深入各行业,所产生的海量数据得到了空前的重视和应用,这也是中国数据库生态百花齐放的重要原因。CSDN《新程序员》杂志第二期做了“新数据库时代”为主题的系列报道,我们看到,在传统关系型数据库之外,新型的非关系型数据库快速发展,例如新兴的图数据库已经应用于金融风控等重要的生产场景。

今天,蚂蚁集团在刚刚开幕的 2022 世界人工智能大会 WAIC 上正式宣布,开源旗下高性能图数据库 TuGraph 的单机版,TuGraph 是图数据库基准性能测试 LDBC-SNB 世界纪录保持者,本次开源立即成为国内图计算与图数据库技术领域的重要事件。这样的契机下,CSDN 专访了蚂蚁集团图数据库技术负责人洪春涛博士、蚂蚁技术研究院图计算实验室研究员朱晓伟博士,听听他们对于图数据库的研发经验与心得。

关系型数据库之后,数据管理分析将进入图数据库时代

在《新程序员》杂志的报道采访过程中能看到,目前图数据库仍是较为新型的系统。传统的关系数据库,虽然名字叫关系数据库,但其实数据组织形式并非关系原生。关系型数据库的数据主要是以表的形式组织,一张张的表联系起来,依靠表上的键值连接。所以关系数据库应该叫表数据库,而图数据库,反而应该叫关系数据库。下图分别展示了关系型数据库和图数据库存储结构对比:

关系型数据库、图数据库的存储结构示意图

图数据库将关系预先保存到关系列表中的这种能力,使得图数据库能够提供比关系数据库高几个数量级的性能,对于复杂连接的查询,关系数据库往往需要很长时间,而图数据库甚至能够实现毫秒级的响应。

本次采访中,对于图数据库的产生历程到发展趋势的判断,洪春涛博士以 TuGraph 为例,将图数据库的发展分为了三个阶段。

洪博士提到,第一阶段,一般企业刚接触到图数据库 TuGraph,多数用于传统大数据分析手段不能及时处理的场景。在现实生产生活等数据应用场景中,数据关系是错综复杂的,越来越多复杂关系需实时分析。例如,金融系统现在需要实时定位洗钱团伙的刷单、套现、跑分、借助合法账户洗钱的行为。如下图示意,不良商家常常通过银行卡、熟人来完成套现“回路”,纯资金流的数据模式无法看出端倪,需要借助图数据模式发现此类闭环模式,提前预防风险。

因此,TuGraph 第一阶段主要是解决关系网络数据的存储、查询和分析问题,能支持上层应用对关系网络数据的 OLTP 业务需求以及离线大规模图数据的 OLAP 业务需求。

目前多数图数据系统都处于第一阶段。不过随着图数据库的成熟应用,用户发现传统关系型数据库所支持的业务,在图数据库上一样能实现,甚至更轻松。因此如果某个业务既有传统查询需求,又有图查询需求,用户会更倾向于将业务数据存储、查询、分析计算都建立在图数据库上。经过发展,TuGraph 已经能够提供一站式的图存储、图查询以及图计算服务,进入图数据发展的第二阶段,从边缘的图查询应用到全业务流程应用。

对于未来第三阶段的发展,洪博士提到 TuGraph 将发展到足够成熟,且积累足够多的行业应用经验。鉴于图数据库在数据抽象上更灵活,处理关系数据上性能更高的优势,用户在发展新的业务时,将会首先选择图数据库(而不管有没有图查询需求),这就像过去几十年里,用户选择关系型数据库的情形一样。

从图数据库和 TuGraph 的发展进程看,目前 TuGraph 处在从第二阶段,并向第三阶段迈进的过程里,不过具备完整的图计算系统之后,仍需要大量的行业和真实生产场景去验证和丰富图数据的技术与生态,这也解释了为什么 TuGraph 选择在这时开源。

图数据库基准性能测试世界纪录保持者,TuGraph 比关系数据库更懂关系

在专访中 CSDN 了解到,TuGraph 在开源之前,已经在蚂蚁集团内部积累了丰富的应用经验和性能打磨,并非一个早期孱弱的开源项目。

蚂蚁集团对图计算技术的探索始于 2015 年。2015 年蚂蚁开始自主研发分布式图数据库、流式图计算等图计算技术系统,并在内部得到了良好应用。2016 年蚂蚁集团发布自研图数据库版本 GeaBase,并接入支付宝。GeaBase 在 2019 年双 11 主链路上单集群规模突破万亿边,点边查询突破 800 万 QPS,平均时延小于10ms

另一边,2016 年从事图计算研究的清华师生成立了费马科技有限公司(创始人为清华大学教授、现蚂蚁图计算技术负责人陈文光,本次采访的洪春涛博士、朱晓伟博士均师从陈文光教授),于 2017 年开发出了具有国际领先性能的图数据库产品,能够支持完整的图数据库事务,支持企业级高效图数据存储、查询。

2020 年蚂蚁集团整合自有图计算技术系统 GeaBase,以及清华大学和费马科技的产品和技术,升级形成了一套完整的图计算系统 GeaGraph(后品牌升级,更名 TuGraph ),已于 2020 年通过了信通院大数据产品能力评测,获得 2021“世界互联网领先科技成果” 奖。这套系统集成了蚂蚁集团以及清华大学原有优势,无论从功能的完整性,吞吐率、响应时间等技术指标,还是应用领域,都达到了世界领先水平。可以说 TuGraph 图计算系统正是蚂蚁集团与清华大学强强联合后的升级版本。

本次开源的单机版 TuGraph 提供了完备的图数据库基础功能和成熟的产品设计,拥有完整的事务支持和丰富的系统特性,单机可部署,使用成本低,支持 TB 级别的数据规模,满足市面上绝大多数用户的部署需求。TuGraph 采用 Apache2.0 协议,在 Github 和 Gitee 上进行托管。

单机版开源 TuGraph 产品架构图

单机版开源 TuGraph 通过以下具体功能和模块,来实现开发者友好:

具体性能的指标来说,单机版开源 TuGraph 是一个成熟的、拥有极致性能的单机图数据库,今年 8 月,TuGraph 在图数据库基准性能测试 LDBC-SNB 测试中,再次创造世界纪录,吞吐率较上一次官方纪录领先 52%。

相较于常见开源产品,单机版开源TuGraph的性能高 10 倍以上,可以支持更高的吞吐和更复杂的查询,它在单机上可以轻易支持 TB 级别数据和百亿级别大图,足以满足约大多数业务场景的需求。

除了一些基础性能,TuGraph 也因蚂蚁内部应用的严格标准,具备了金融级的高可靠特性。TuGraph 通过 RAFT 协议支持集群高可靠,RPO=0,超越国际灾难恢复能力 6 级要求;支持事务能力,达到可串行化隔离级别,保障数据一致性。另外,TuGraph 100%自主研发,自主可控,兼容国产服务器及操作系统。

TuGraph 生长于蚂蚁集团,在支付、数字金融、安全领域都有规模化的应用。例如金融的核心风控场景,TuGraph 也一直在用于风险行为分析的前沿领域,例如反洗钱反套现这些核心场景。

TuGraph 应用场景举例:

金融场景-反洗钱识别能力提升近 10 倍

金融场景-黑灰产识别能力提升 8 倍

值得一提的是,现在 TuGraph 已经用于蚂蚁在线支付的实时链路中,支付宝的风险识别能力提升了近 10 倍,风险审理分析效率提升 90%。

开源之后的 TuGraph:从金融场景走向千行万业、繁荣生态

开源,一直是技术界发展壮大技术实力的硬核动作。采访中,CSDN 向洪春涛博士、朱晓伟博士详细了解了 TuGraph 在开源后的研发计划。

据洪博与朱博介绍,在应用层,TuGraph 开源后,蚂蚁集团会将现有的成熟案例分享出来,成为开发者快速上手图数据库的样本,随着 TuGraph 在社区中深度的应用,也会继续丰富行业场景和应用实例。在工具链层,目前图数据库领域各大厂商都在自研工具,但未能联合形成通用化工具产品。开源后,蚂蚁将联合社区、合作伙伴一起,将 TuGraph 自带的工具与其他工具整合,适配各种不同数据库,丰富工具的易用性。而在核心层,现在各类图数据库差别较大,对外提供接口性能千差万别。开源的 TuGraph 可以给其它产品提供一个参考实现,有望加快图数据库向标准化方向发展的步伐。

在朱晓伟博士看来,开源也有利于研究人员在 TuGraph 基础上验证新的技术。“细节是系统的魔鬼”,很多在原型系统上适用的技术在实际系统中可能就表现不佳了,因为系统模块之间难免互相干扰。而 TuGraph 是一个实际使用的系统,它开源之后,研究人员基于它去验证自己的想法就可以很容易的避免闭门造车。TuGraph 开源的另一个动力,是希望借助开源社区,联合高校科研,去探索下一代图计算的研究方向,更大场景上的应用和更前沿的学科探索。目前 TuGraph 与复旦大学已经在脑科学领域的交叉研究,将图计算应用于神经元模拟中。

对于大多数的开发者和合作伙伴来说,单机版开源 TuGraph 架构与稳定性、性能,已经足够满足多数场景和数据量的要求,开发者可以聚焦应用层,通过核心层和工具链提供的基础来打造属于自己的 TuGraph 图数据应用。而 TuGraph 商业版本在开源单机版本通用功能之外,将提供数据量更大的分布式版本和高可用服务。

从金融风控等核心场景打磨之后的 TuGraph,也正在面向互联网、工业制造、海关、公共安全、政务服务、社会治理等行业和应用,去处理这些领域复杂场景、深度关联分析,将关联数据查询、洞察和预测分析提升到一个新水平。

以互联网场景为例,TuGraph 可以将 2 千亿网页抽象为点29 万亿链接抽象为边,构建网页图模型,利用TuGraph 图分析引擎,实现对全量网页 PageRank提升搜索准确性,提高用户搜索体验

互联网场景案例-实现搜索引擎十万亿网页排序,提升搜索准确性

在电力场景下,通过 TuGraph 对图数据进行统一存储、管理和计算,其强大的查询语言、多层次灵活的 API,实现实时追踪电网运行状态,支持频繁且复杂的实时数据查询和更加高效的电网模拟计算。提高电网设备运营管理水平

电力场景案例-电网设备运营管理

结语

如采访中洪春涛博士所言,图数据库仍在发展早期,本次蚂蚁 TuGraph 的开源,从底层技术科研到应用开发生态发展,是对国内图数据库技术界重要的贡献。中国开源技术力量在不断崛起,期待 TuGraph 与开源撬动国内图数据库技术发展与生态繁荣,CSDN 将持续关注报道数据库发展。

相关资讯

数据库:什么是数据库,数据库管理系统,数据库系统,数据库管理员?

数据库 : 数据库(DataBase 简称 DB)就是信息的集合或者说数据库是由数据库管理系统管理的数据的集合。数据库管理系统 : 数据库管理系统(Database Management System 简称 DBMS)是一种操纵和管理数据库

数据库超详细讲解,MySQL数据库的简介、及常用数据库介绍

数据库简介数据库:顾名思义,就是数据的仓库,它是长期存储在计算机内,有组织的、可共享的数据的集合。数据库管理系统(DBMS: 用来对数据进行存储、管理等操作的软件)数据库分类数据库通常分为:层次式数据库、网络式数据库和关系式数据库三种。而不

什么是数据库DataBase?数据库和数据记录的概念简单讲解

大家好,在讲数据库之前,我用了很长的时间,和大家分享了很多VBA方面的一些知识点,其中很多是我个人对VBA的理解。从这讲开始我们要在原先的基础上深入的讲解一些VBA的提高利用,就是我们要开始讲解的数据库。在《VBA与数据库利用》中我会讲解到

数据库看这一篇就够了!MySQL、Redis、Mongodb等常见数据库教程

数据库是系统健康和用户行为健康的重要指标。数据库中的异常行为可能会引起应用程序中的问题。或者当应用程序中存在异常时,都可以使用数据库指标来帮助加快调试过程。先来认识下市面上常用的数据库:关系型数据库1. MySQL数据库2. Microso

为什么要使用数据库,什么是数据库

1、为什么要使用数据库持久化(persistence):把数据保存到可掉电式存储设备中以供之后使用。持久化的大多数时候是将内存中的数据存储在数据库中,当然也可以存储在磁盘文件、XML数据文件中。方便管理数据(例如:快速的检索等)2、什么是数

重塑数据库发展路径业界聚焦我国数据库产业发展

人民网北京12月27日电 (记者乔雪峰)近日发布的《软件和信息技术服务业十四五规划》中,明确提出我国“十四五”时期要加快实施国家软件发展战略,不断提升软件产业创新活力,聚力攻坚基础软件,有效满足多层次、多样化市场需求,为构建以国内大循环为主

常见的数据库类型及各种数据库特点的简单介绍

大家好,在上一讲中,讲了数据库的概念及表的概念,通过上讲的内容,我们大概了解了一些数据库的基本知识。其实,在我的日常生产中,数据库和我们也是息息相关的,当我们打电话、上网、去银行交易等等,都要访问不同的数据库,这些数据库各有自己的特点,但都

数据库篇-第一章:数据库基本概念

基础知识学习,面试必备,关注吧 骚年01 第一,什么是数据库?维基百科上是这样定义的:所谓“数据库”是以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。一个数据库由多个表空间(Tablespace)

C++基础语法梳理:数据库!带你深入浅出了解数据库

基本概念数据(data):描述事物的符号记录称为数据。数据库(DataBase,DB):是长期存储在计算机内、有组织的、可共享的大量数据的集合,具有永久存储、有组织、可共享三个基本特点。数据库管理系统(DataBase Management

数据库指南:一文让你浅显易懂地了解数据库

在数据分析的技能中,数据库与SQL会是性价比最高的技能之一。数据库是逻辑上的概念,它是一堆互相关联的数据,放在物理实体上,是一堆写在磁盘上的文件,文件中有数据。这些最基础的数据组成了表(table),我们把它想象成一张Excel的sheet

数据库技术新版图-Serverless数据库

数据库的发展已走过近四十年,作为基础软件之一,数据库称得上是一个“古老”的领域。而随着新技术的涌现,这个传统的领域也正不断焕发出新的生机。如果说云时代的到来推动了数据库的变革,那么,与 Serverless 的结合,则再次为数据库的发展添了

什么是数据库?用最简单的方法讲明白数据库

数据库基本概念数据库是一个以某种有组织的方式存储的数据集合。数据库(database)是保存有组织的数据的容器。数据库管理系统(DBMS)是一种数据库软件,MySQL是一种DBMS,即它是一种数据库软件,作者使用的数据库管理系统是MySQL

一文读懂Access数据库,从此不用Access数据库

1992年11月,Microsoft Access 1.0版本发布。同时,这也是Access数据库,第一次进入大家的视野。起初,Access的原名并不叫Access,而叫Cirrus。Ciruus开发于Visual Basic之前,当时的窗

闲聊数据库发展历史三个阶段、分类、数据库规范及趋势

概述数据库(Database)是存储与管理数据的软件系统,就像一个存入数据的物流仓库。在商业领域,信息就意味着商机,取得信息的一个非常重要的途径就是对数据进行分析处理,这就催生了各种专业的数据管理软件,数据库就是其中的一种。当然,数据库管理

数据库行业研究报告:数据库,云化底座,百舸争流

(报告出品方/作者:中信证券,杨泽原、丁奇)报告综述:安全可控势在必行,数据库国产替代加速开展,以党政为代表的国产替代先行,并不断向金融、电信等领域拓展。同时,伴随云计算、大数据技术的快速发展, 云数据库、数据仓库、大数据分析等领域快速增长

友情链接

网址导航 SEO域名抢注宝宝起名网妈妈知道币圈吉林旅游网百达翡丽收藏家辽宁旅游网PS抠图网六盘水新闻头条网黑龙江旅游网香奈儿奢侈品恒太照明股票新乡新闻头条网青岛旅游网便利店加盟网以色列旅游网陀螺山旅游网卡地亚腕表之家贺峻霖歌迷网
MYSQL数据库应用网-mysql数据库基础知识、Mysql还原数据库、mysql数据库迁移方案、mysql数据库增删改查、mysql数据备份和恢复、mysql数据迁移工具、mysql数据库迁移详细步骤、mysql数据库存储目录迁移、mysql数据库不停机迁移方法、mysql数据备份和恢复、免费mysql服务器、mysql官网免费版安装教程。
MySQL数据库应用 nincu.cn ©2022-2028版权所有