面向结构化数据的知识抽取
所谓结构化数据就是指类似于关系库中表格那种形式的数据 , 他们往往各项之间存在明确的关系名称和对应关系 。因此我们可以简单的将其转化为RDF或其他形式的知识库内容 。一种常用的W3C推荐的映射语言是R2RML() 。一种映射结果如下图所示:
文章插图
现有的工具免费的有D2R , 、MOrph等 。
面向半结构化数据的知识抽取
半结构化数据是指类似于百科、商品列表等那种本身存在一定结构但需要进一步提取整理的数据 。
百科类知识抽取
对于百科类数据我们都较为熟悉 , 下面着重介绍怎么从百科里抽取知识:
上图给出从百科里抽取知识的流程介绍 。(待补)
Web网页数据抽取:包装器生成
现在我们的目标网站是部分结构化的 , 如:
包装器是一个能够将数据从HTML网页中抽取出来,并且将它们还原为结构化的数据的软件程序 。使用它提取信息流程为:
文章插图
包装器归纳
对于一般的有规律的页面 , 我们可以使用正则表达式的方式写出XPath和CSS选择器表达式来提取网页中的元素 。但这样的通用性很差 , 因此也可以通过包装器归纳这种基于有监督学习的方法,自动的从标注好的训练样例集合中学习数据抽取规则,用于从其他相同标记或相同网页模板抽取目标数据 。其运行流程为:
文章插图
自动抽取
对于监督学习我们知道标注数据是它的短板 , 因此我们想到自动抽取的方法 。网站中的数据通常是用很少的一些模板来编码的,通过挖掘多个数据记录中的重复模式来寻找这些模板是可能的 。自动抽取的流程如图所示:
文章插图
来自:知识图谱入门 (三) -的博客
- pca降维的理论知识
- python入门速通基础
- 几月几日是世界知识产权日
- 一 基础元件学习——电阻元件知识
- 知识点滴 - UML类关系图及描画工具drawio
- Android 自定义绘制之文字测量知识点
- 企业关联图谱源码提供
- web前端知识点归纳笔记:进程与线程
- 推荐|机器学习入门方法和资料合集
- 1923: 【入门】墨汁