时间:2022-10-10 18:22:56 | 浏览:894
2017 年的云栖大会,阿里巴巴达摩院宣布成立。
5 大研究方向,16 个实验室,数据库与存储实验室便是达摩院下设实验室之一。
成立伊始,达摩院定位发力硬核基础科技。
前沿数据库技术,就是发力方向之一。
五年时间,社交媒体上每隔一段时间就有人出来问“阿里达摩院搞出来什么成果了?”,“阿里达摩院的技术水平是什么样的?”,“达摩院里面的人平常的 KPI 是什么?”,“什么样的人可以进阿里达摩院?”......
InfoQ 日前对达摩院数据库与存储实验室的三个核心团队的负责人汪晟、谭剑和谢炯进行了集中采访,了解他们在数据库前沿研究的具体工作,以及这些工作对阿里云数据库实力的加持,同时也一窥达摩院的人是如何开展研究工作的。
数据有望成为新型生产要素推动社会变革,然而现阶段却面临着巨大挑战。人类社会的演进离不开生产要素的升级:从农业经济时代的土地、劳动力,到工业信息时代的资本、技术。在如今的数字经济时代,全球数据爆炸式增长,大数据、人工智能等技术不断涌现,数据正俨然成为这个时代最核心的生产要素。然而,为使数据真正成为生产要素,我们仍然面临着巨大的挑战:不同于其他生产要素,数据的易复制性、非排他性等特征导致其极易被泄露、难以被限制用途用量,如何在保障数据机密性、隐私性的前提下进行数据的大规模集中管理和跨组织有序流通是数据走向资产化的一大挑战。
“博士期间,我的研究方向是传统的数据库系统内核,与数据安全并没有太多关联。加入达摩院后,我逐渐意识到在云计算、数据互联迅速普及的当下,数据管理与流通中的隐私安全是非常严峻的挑战,会成为数据库系统突破其能力边界的一个重要方向。但具体可以做成什么样子,我脑子里起初也很模糊,只是不停地朝着这个方向探索。”
汪晟于 2018 年加入达摩院,是数据库与存储实验室的第一位专注基础研究的科学家(Research Scientist)。自加入之后,他就开始探索数据库安全可信方向的研究,并带领团队从 0 到 1 完成了全密态数据库技术的研究突破与产品落地,使阿里云成为了全球少数具备全密态数据库管理能力的云厂商。
传统数据库系统的安全体系中已经有很多经典的技术,比如存储落盘加密、访问控制、网络传输加密等。但所有这些技术考虑的情境是:数据库管理着企业内部的数据,数据库服务所在的服务器被放置在企业专属的、物理安全的机房中,数据库与服务器的管理人员是完全被信任的企业内部员工,安全防护措施只需要保证没有权限的外部人员无法访问数据库即可。
但是,数据应用和云计算的出现改变了数据的使用和管理方式,从而颠覆了上述情境。
例如,数据应用业务链路越来越复杂,经常涉及企业自己数据在其他企业的系统中流动(比如电商场景的平台、商家、物流等),不同企业间是不完全信任的;在企业内部,业务团队的数据是由 IT 基础设施团队统一管理的,不同团队间也可能是不完全信任的。也就是说,数据的机密性、完整性、隐私性等问题,这是传统数据库系统在设计时从未考虑过的。
因此,业内也开始将研究重点聚焦在全密态数据库上。
全密态数据库旨在解决数据全生命周期的隐私保护问题,使得系统无论在何种业务场景和环境下,数据在传输、运算以及存储的各个环节始终都处于密文状态。当数据拥有者在客户端完成数据加密并发送给服务端后,在攻击者(包括黑客、超级用户等任何角色)借助系统脆弱点窃取用户数据的状态下仍然无法获得有效的价值信息,从而起到保护数据隐私的作用。
全密态数据库这个概念可追溯至 2011 年 MIT 提出的 CryptDB,该项目不是指某种特定的数据库,而是一种针对加密数据的查询技术,允许用户查询加密后的 SQL 数据库,在不解密数据的情况下返回结果。
CryptDB 使用的是特殊的加密算法,包括保序加密、可检索加密、半同态加密等,但各算法支持的计算操作极为有限,安全强度也各异,难以在复杂的业务场景中使用。此外,全同态加密被誉为密码学领域的圣杯,一旦实现就代表着所有计算都可以在密文上执行,且其安全性也能得到保障,因此受到了学术界的追捧。但其性能非常低,虽然过去几年业内有很多研究机构推出了各种各样的加速方案,但实际效果还是会与其他方案存在数量级上的差距。那么,其他方案具体是指什么呢?
第二种方案是多方安全计算。将数据存放在多个互补共谋的云平台之上,单一云平台上的数据显示为毫无意义的字节串,多个云平台的数据组合在一起才可以计算出想要的结果。其缺点是受到多云架构的制约,与集中化、单一的云平台设计初衷相违背,数据计算过程严重依赖跨云或者跨数据中心的网络交互,信息传输成本极高,难以处理大规模数据。
第三种方案是基于可信硬件(TEE)的方式实现。相较于普通服务器只需要有根用户或超级用户权限就可以访问任何进程中的任何数据内容,可信硬件内部的资源是由硬件机制保证隔离的,即便拥有上述权限也无法访问由可信硬件保护的区域内部。即便攻击者控制了整个服务器也无法窃取其中的数据。这种模式的缺点是十分依赖硬件的能力,且存在侧信道攻击隐患等。目前国际上比较成熟的是英特尔的 SGX 技术,达摩院内部也已经具备自