结构化信息( 二 ) _生活百科

文章插图
结构化信息资料库如：比较购物搜寻那就需要抓取网页后，对网页中的商品信息进行抽取，抽取出商品名称、价格、简介……甚至可以进一步将笔记本简介细分成“品牌、型号、CPU、记忆体、硬碟、显示屏、……”房产信息搜寻那就应该抽取出：类型、地域、地址、房型、面积、装修情况、租金、联繫人、联繫电话公司企业信息搜寻那就应该抽取出：公司名称、地址、电话、联繫人。结构化信息抽取有两种方式可以实现，比较简单的是模板方式，还有一种是对网页不依赖的网页库级的结构化信息抽取方式。模板方式是事先对特定的网页进行配置模板，抽取模板中设定好的需要的信息，可以针对有限个网站的信息进行精确的採集。特点：简单、精确、技术难度低、方便快速部署。缺点：需要针对每一个信息源的网站模板进行单独的设定在信息源多样性的情况下维护量巨大是不可完成的维护量。所以这种方式适合少量信息源的信息处理，不是搜寻引擎级的套用，很难满足用户对查全率的需求。网页库结构化信息抽取是採用页面结构分析与智慧型节点分析转换的方法，自动抽取结构化的数据。特点：可对任意的正常网页进行抽取，完全自动化，不用对具体网站事先生成模板，对每个网页自动实时得生成抽取规则，完全不需要人工干预。智慧型抽取準确率高，不是机械的匹配，採用智慧型分析技术，準确率能达到98%以上。能保证较快处理速度，由于採用页面的智慧型分析技术，先去除了垃圾块，降低分析的压力，是处理速度大大提高。通用性较好，易于维护，只需设定参数、配置相应的特徵就能改进相应的抽取性能；一般的非专业人员经过简单培训就能维护。缺点：技术难度高，前期研发成本高，周期长。适合网页库级别结构化数据採集和搜寻的高端套用。套用意义如果说结构化信息更多的忠实、详实地记录了企业的生产交易活动，是显性的表示，那幺非结构化信息则隐性包含了掌握着企业命脉的关键，隐含着许多提高企业效益的机会。对于企业来说，企业内部，以及企业与供应商、客户、合作伙伴和员工数位化共享所有形式的数据资源，已越来越重要。90%的信息和知识在“结构化”世界之外，IT套用中还存在着一个“非结构化”的世界。对大多数企业来说，ERP等业务系统所管理的结构化数据只占到企业全部信息和知识的10%左右，其他的90%都是资料库难以存取到的非结构化信息和知识。来自IDC的分析显示，虽然很多企业投资不菲建立了诸多业务支撑系统，但仍有72%的管理者认为知识没有在他们的组织得到重複利用，88%的人认为他们没有接触到企业最佳实践的机会。Gartner也曾预言，对非结构化信息和知识的管理将会带来一个新IT套用潮流。

文章插图
结构化信息非结构化信息处理类似于20世纪70年代以前的结构化信息套用。割裂、无法进行数据互操作的套用是其主流。以人们最常用的文档软体来看，DOC文档是MSWORD的专用格式，WPS、永中、中文2000等OFFICE产品厂商则各有各的“自留地” 。这种情况下，由于文档格式的束缚而使信息四分五裂，信息流无法通畅流转，信息处理更加困难，信息资源因为“信息流的不通畅”而丧失了其应有的巨大价值。从非结构化到半结构化，从半结构化到结构化，从结构化到关联数据体系，从关联数据体系到数据挖掘，从数据挖掘到故事化呈现，从故事化呈现到决策导向。