图数据库竞争日趋激烈,淘汰正在进行



  摘要:图数据库与云计算结合是必然趋势,原生、并行是核心技术优势,TigerGraph 将迎来全面爆发。

  大数据时代的业务增长带来了两个明显的变化:数据量的剧增和数据关联的复杂化。与此同时,用户对于数据价值的期望越来越高,这些变化催生了数据库的变革和创新。图数据库由于提供了对关联数据最直接的表达,以及图模型对异构数据天然的包容力,使得图数据库迎来飞速发展的状态。

  2019年年初,Gartner 数据与分析峰会上将图列为2019年十大数据和分析趋势之一,并预计到2022年,全球图处理及图数据的应用将以每年 100% 的速度迅猛增长,2020年保守估计将达到 80 亿美元。市场尚处于蓝海,竞争却遍布全球。

图数据库竞争日趋激烈,淘汰正在进行

  图片来源: Gartner 2019 年十大数据和分析技术趋势

  在美国,图数据库是近年来所有数据库里发展速度最快的,其中一家典型的公司就是 TigerGraph。TigerGraph 成立于2012年,总部位于硅谷。2017年11月8日,TigerGraph发布新一代企业级实时图数据库平台,在市场上引起轩然大波。为什么从创立到发布第一款产品间隔了 5 年?TigerGraph 中国区总经理乌明捷解释,“基于 C++从底层核心做起,利用分布式技术,支持万亿级别节点,具备高性能和高可扩展性,并且操作界面十分简单。我们用 5 年的蛰伏换来了产品的好口碑。原生、并行是我们的差异化优势。”

  而在国内,越来越多的公司也开始进入图数据库领域,针对内部的产品开发相应的图数据库系统,但这种图数据库的应用针对性较强,所以并不适用于市场上其他客户。

  纵观数据库的发展,对于任何达到一定规模或价值的数据,图数据库都是呈现和查询这些关系数据的最好方式。而理解和分析这些图的能力将成为企业未来最核心的竞争力。正如 TigerGraph 公司的创始人许昱博士所言:“在大数据时代,数据是新的石油,而基于图的数据分析就是新的炼油厂。”

  一、图计算元年背景下值得关注的热点

  图计算重点包括两点:图数据库和图分析引擎,前者重点关注 OLTP ,后者重点关注离线图计算,当然这二者的界限有时候不那么清晰,比如有些图数据库内置了图分析算法的实现,有些图分析引擎也实现了事务和持久化。

  图计算在近几年受到广泛的关注,主要有以下几个方面的因素:

  · 适合以图表达的数据积累到一定程度了,对隐藏在图数据中的知识挖掘的需求也随之越来越强烈。

  · 图神经网络是深度学习的一个重大创新。深度学习发展遇到了瓶颈,不可解释性是其固有的顽疾。而与深度学习相结合的图计算将端到端学习与归纳推理相结合,有望解决深度学习无法处理的关系推理、可解释性等固有问题。

  · 知识图谱受到越来越多的重视,其中确定性的知识会以实际顶点和边的形式存储在图数据库中,概率性知识一般需要依赖于图分析引擎,进行知识推理。图神经网络和知识图谱将是未来引爆图计算的机会。

  但是,图要实现大规模应用,必须先攻破的技术难点之一就是如何提升图分析能力。原生的图数据存储可以跨越数据孤岛,进行有效的建模,探索和查询具有复杂关系的数据,进而解决 SQL 在查询复杂数据问题并不总是有效的问题。但问题是,图数据的存储和分析对数据规整性要求高,一旦数据规整性差,就会影响计算,且分析难度会随着分析维度的增加而增加。

  二、图计算的发展情况如何?

  2019 年年初,谷歌前员工,同时是图数据库服务企业 Dgraph 创始人Manish Rai Jain 站了出来,在文章《10年了,为何谷歌还是搞不定知识图谱》中回顾了 Dgraph 这个数据库产品的前世今生,也顺道爆料了一些谷歌这么多年没能搞定知识图谱的内幕,包括公司内部斗争、项目发展方向多次被误导等。他尤其指出了大多数工程师存在的思维误区:认为图实际上是一个很简单的问题,可以通过在另一个系统之上构建一个层来解决。

  实际上,图计算引擎是图技术发展的关键。

  从图技术本身来看,整个图计算领域可进一步细分为查询分析、计算引擎、存储管理、可视化等子方向。目前并没有一种涵盖所有子方向的图引擎。例如图数据库 Neo4j、Titan 等擅长于图数据的事务性查询,但并不能高效地进行离线分析;分析引擎 Turi、GraphX 侧重图数据的离线分析和挖掘,却不能对属性图进行管理,且不支持实时查询。图计算引擎多种多样。最出名的是有内存的、单机的图计算引擎 Cassovary 和分布式的图计算引擎 Pegasus 和 Giraph 。

  图从应用层面来看,存在以下几个问题:




上一篇:注射生长激素从1米4长到1米7,鞠婧祎和沈月笑而
下一篇:95岁清华物理系老教授张礼开直播上课