干货系列(三) | 深度了解知识图谱的内涵

2021-09-03 09:40:37 阅读 17095

前言

通过上两篇文章,我们已经初步认识和熟悉了知识图谱。本周,我们将进一步走进知识图谱,深度了解知识图谱的表示方式、存储方式和关键技术。

系列(三)主要包含3个方面:

1.知识图谱与RDF

2.知识图谱与图数据库

3.知识图谱的关键技术

全文预计阅读时长为6分钟。


1

知识图谱与RDF


90年代有个叫 Guha 的人,他任职于苹果公司,日常习惯研究各种各样的元数据格式来管理图片、音频等数据。


1997年,他的研究成果以“RDF”的形式横空出世,受到人们的广泛关注。大家发现 RDF 这种形式非常适合用于在万维网上对知识的结构化表示,于是在1999年,RDF 被 W3C(World Wide Web Consortium)推为行业推荐标准。

 


▷如图所示:RDF形式上表示为SPO三元组,有时候也称为一条语句(statement),知识图谱中我们称其为一条知识。


简单来说,RDF(Resource Deion Framework)是表示事物的一种方法和手段。它指代资源描述框架,其本质是一个数据模型,提供了一个统一的标准,用于描述实体/资源。


大部分知识图谱会使用 RDF 描述世界上的各种资源,并以三元组的形式保存到知识库中。再加上谷歌的知识图谱建立的背后 Ghua 也是主要推手,因此有人将 Guha 称为“知识图谱之父”。


2

知识图谱与图数据库


除了RDF,知识图谱的另一种重要存储方式就是图数据库。


它是基于数学里图论思想和算法而实现的高效处理复杂关系网络的数据库,善于处理大量的、复杂的、互联的、多变的网状数据,其效率远远高于传统的关系型数据库的百倍、千倍甚至万倍。


RDF与图数据库的存储方式存在明显区别。前者的重要设计原则是数据的易发布和共享,以三元组的方式来存储数据且不包含属性信息;而后者把重点放在了高效的图查询和搜索上,一般以属性图为基本的表示形式,所以实体和关系可以包含属性,更容易表达现实的业务场景。



知识图谱以图数据库作为存储引擎,对海量信息进行智能化处理,形成大规模的知识库并进而支撑业务应用。知识图谱中,图数据库主要具有两方面的技术优势:


存储方面 


图数据提供了灵活的设计模式。知识图谱中存储了多样、海量的数据。在关系型数据库中所有的数据库模式都需要提前定义,后续改动代价高昂。


而图模型中,只需要重新增加模式定义,再局部调整图数据,便可完成在原有的数据源上增加标签或添加属性。



▷智器云知识图谱-采用插拔式存储引擎,通过定义存储插件接口,可以实现快速安全的在各种平台中无缝插拔式接入,实现存储与底层平台的解耦。


查询方面


图数据库提供了高效的关联查询。在用图数据库存储的知识图谱中,可以通过查询实体的边和其边上的标签(即联系) 来快速地获取与其相联系的另一实体,省去了复杂的各种表格的关联操作,关系查询更加便捷,效率显著提高。


基于图数据库应用广泛的优势,国内越来越多的公司开始尝试使用图数据库为业务发展助力。



▷在情报分析领域,智器云经过多年行业实战经验,形成了知识图谱云平台+分析终端的产品体系。

3

知识图谱的关键技术


知识图谱的关键技术主要是围绕着建立一个高质量的知识图谱所展开讨论的。



▷从目标到技术再到价值和问题的解决,在智器云实现知识图谱运转体系的完整闭环。


它的全生命周期主要包括3种关键技术:


 ▷ 知识抽取与表示 


对于知识图谱而言,首要的问题是:如何从海量的数据提取有用信息并将得到的信息有效表示并储存,就是所谓的知识抽取与表示技术。


知识抽取与表示,也可以称为信息抽取,其目标主要是从样本源中抽取特定种类的信息,例如实体、关系和属性,并将这些信息通过一定形式表达并储存。


 ▷ 知识融合 


通过知识抽取与表示,初步获得了数量可观的形式化知识。由于知识来源的不同,导致知识的质量参差不齐,知识之间存在着冲突或者重叠。此时初步建立的知识图谱,知识的数量和质量都有待提高。



▷实体对齐:将来自多个来源的关于同一个实体或概念的描述信息融合起来。


应用知识融合技术对多源知识进行处理,一方面提升知识图谱的质量,另一方面丰富知识的存量。早期的知识融合是通过传统的数据融合方法完成,随着知识图谱的飞速发展,目前也出现了专门的知识融合方法,在实体消歧、实体对齐和知识合并3个方面有所进展。


 ▷知识推理和质量评估 


知识推理是指从知识库中已有的实体关系数据出发,经过计算机推理,建立实体间的新关联,从而拓展和丰富知识网络。


质量评估的意义在于,可以对知识的可信度进行量化,保留置信度较高的,舍弃置信度较低的,有效保证知识的质量。


针对知识图谱数据量大、关系复杂的特点,有学者提出了面向大规模知识图谱的知识推理方法,并归纳为以下几类:



▷如图所示:常见知识推理方法。


知识推理是知识图谱构建的重要手段和关键环节,通过知识推理,能够从现有知识中发现新的知识。其技术目前也存在着一些挑战,比如多元关系的处理、动态推理等。



通过本周分享,我们又加深了对知识图谱的背景了解。下一期将一起走进知识图谱在公安行业的具体应用,不见不散!


参考文献


[1] 马忠贵,倪润宇,余开航.知识图谱的最新进展、关键技术和挑战[J].工程科学学报,2020,42(10):1254-1266.

[2] 知识图谱(Knowledge Graph)之综述理解.SmileAda.CSDN博客

[3] 一文聊“图”,从图数据库到知识图谱.穆琼.中国农业银行研发中心

[4] RDF简介.技术源于生活. CSDN博客

[5] 知识图谱发展史.蔚1.CSDN博客

[6] 什么是知识图谱?|人工智能+区块链科普第6问.图灵链小T

[7] 知识图谱基础之RDF,RDFS与OWL.SimmerChan.CSDN博客

[8] 【知识图谱】RDF的初步了解.张照博.简书

[9] 知识图谱是什么?.Jimmy.人人都是产品经理


关注微信公众号,获取最新信息小编微信(zqykj0811),加入微信群与悟空团队的数据分析师一起交流

返回新闻活动列表