导读:在数字化浪潮到来的今天,数据分析的重要性越来越高,图作为一个高维的数据结构,可以为企业提供更加精准高效的决策,赛道未来发展可期。
图是事物及其关系的抽象表达。在以图数据成为生产要素的数字经济时代,图智能在工业、教育、医疗、金融等领域展现出了强大的成长潜力。
图计算成为数据的底座。9月1日,在2022世界人工智能大会上,“新一代图智能技术发展与实践论坛”如期举行,从产学研不同视角对图技术进行讨论。
在论坛上,蚂蚁集团图计算负责人陈文光宣布开源蚂蚁集团高性能图数据库TuGraph单机版,并成立图计算开源技术委员会,中国工程院院士郑纬民、陈纯分别担任主席、副主席,5位业界知名专家担任委员。随着TuGraph的开源,图数据领域将迎来一款性能卓越、功能丰富、生态完备的开源产品。开发者可以聚焦应用层,轻松打造属于自己的图数据,从而提升行业整体技术应用水位。
中国工程院院士、清华大学教授郑纬民认为,当前图数据库正在成为发达国家科技企业竞相布局的新兴热门领域。在图数据库时代,我们有机会与国外企业同期起步,现在布局正当其时。
关系是最高价值特征
据了解,今年是世界人工智能大会举办的第五年,“科技风向标、产业加速器”是这场全球AI领域的行业盛会对参展技术与产品的期许。
图计算里的图(Graph)并非图片,而是来源于图论,是用于表达对象之间关联关系的一种抽象数据结构,核心要素是点和边,分别代表对象和对象之间的关系。“传统的关系数据它其实是一个表的模型,不是一个很直接的方式,也非常不灵活。”蚂蚁技术研究院院长、蚂蚁集团图计算负责人陈文光表示,“图数据没有强行把一个原生的关系变成一个表,再用表来表示这个关系,而是直接把这个关系表达出来,所以它是一个最灵活的数据模型。”
因此,图计算在处理大规模复杂关联关系时非常有效,它是对复杂关系的一种新的建模方式,为更深刻地理解这个世界提供了一种有效的工具。在实际运用中,图可以将各类数据联系起来,将不同来源、不同类型的数据融合到一个图里进行分析,可以得到独立分析难以发现的结果。
那么会有怎样的增量信息被图计算挖掘呢?
陈文光举例称,当一个人的属性你知道的非常少的时候,判断他是好人还是坏人很有难度,但将“关系”考虑其中,结合“与他相关”的整体来看,一切则变得有迹可循,也就更容易做出判断。“在图上有很多的方法,其实都帮我们给出一定的可解释性。”
以搜索引擎Google为例,如何判断哪些网页的重要程度高于其他网页?Google做的就是网页排序,两位创始人提出了一个叫做PageRank的算法,这个算法的核心就是把互联网上每一个网页抽象成一个点,网页上的超链接又链接到其他的网页,就构成了这个点上的边,由此将一个网页与其他网页相关联,通过网站外部链接的数量和质量来判断其重要性。
PageRank是图计算中经典的算法,也是Google浏览器脱颖而出的因素之一,“关系”的价值在这个实例中得到充分展现。
Gartner 在《2021 年十大数据和分析技术趋势》报告中预测,到2025年,图技术将应用于80%的数据和分析创新。目前,在金融、互联网、工业、医药、公共卫生、公共安全等领域都有很多的应用。
未来应用可能性
去年4月12日,人民日报刊发的文章《高性能图计算:尖端科技下一个前沿》称:在我国发展高性能图计算,具备良好的技术基础和现实条件。一方面,人们如今的日常生活离不开高性能计算。天气预报、新药研发、新型材料、安全系数更高的汽车、高铁和飞机等都需要高性能计算作支撑。另一方面,由于图的优秀表达能力、可视化效果和坚实的数学基础,图计算也已在国家安全、金融安全等方面有很高的价值。
蚂蚁集团图数据库负责人洪春涛表示,图技术是未来大数据、人工智能和高性能计算产业发展的关键所在,它很有可能会成为下一代的数据底座。
以蚂蚁集团为例,图智能已经成为蚂蚁科技底座之一,被成熟应用于蚂蚁集团的支付和数字金融场景,包括全图风控、反洗钱、反欺诈、保险知识图谱、花呗图谱等。据了解,至今TuGraph已应用于蚂蚁内部150多个场景,包括在线支付的实时链路,以支付宝风险识别能力提升近10倍、风险审理分析效率提升90%的成绩,验证了其高可靠性。
上月,LDBC(关联数据基准委员会)发布最新图数据库SNB测试结果,TuGraph在功能完整性、吞吐率、响应速度等层面全球领先。
华中科技大学教授金海认为,图是未来人工智能大数据分析的核心,而目前来看,这个方向的应用还比较有限。
杭州悦数科技首席执行官叶小萌在接受21世纪经济报道记者采访时表示,图计算在学界发展多年,但业界是在近两三年才逐步发展起来的,还处于初期,目前仍面临如何寻找用户痛点的问题,“怎样用图的技术去解决用户的问题是商业上的挑战。”
而用户方面,对于图技术能带来什么价值,大多数用户也并不足够了解。“从我们的角度来说,我们要去理解用户的场景,帮用户找到图技术的应用。”叶小萌表示。
此次开源也意味着,蚂蚁集团愿意通过开源持续输出核心技术优势,推动图数据库更广泛的应用生态。
陈文光认为,开源可以帮助企业得到更多的外界输入,看到业界更多的需求的时候可以避免走弯路。亚马逊上海人工智能研究院资深应用科学家王敏捷有类似的感受,他认为开源有助于快速的反馈迭代,但在面临多样客户时,对团队的管理也有很大挑战。
在数字化浪潮到来的今天,数据分析的重要性越来越高,图作为一个高维的数据结构,可以为企业提供更加精准高效的决策,赛道未来发展可期。