结构化信息


结构化信息

文章插图
结构化信息【结构化信息】结构化信息是指信息经过分析后可分解成多个互相关联的组成部分,各组成部分间有明确的层次结构,其使用和维护通过资料库进行管理,并有一定的操作规範 。我们通常接触的,包括生产、业务、交易、客户信息等方面的记录都属于结构化信息 。无法完全数位化的信息称为非结构化信息,如文档档案、图片、图纸资料、缩微胶片等 。这些资源中拥有大量的有价值的信息 。现在这类非结构化信息正以成倍的速度增长 。网际网路上出现的海量信息,大概分为结构化、半结构化和非结构化三种 。
基本介绍中文名:结构化信息
性质:资料库所管理的信息
特徵:网际网路上出现的海量信息
优点:拥有大量的有价值的信息
定义结构化数据(Structured data)-可以组织成行列结构,可识别的数据 。这类数据通常是一条记录,或者一个档案,或者是被正确标记过的数据中的某一个栏位,并且可以被精确地定位到 。对于来源繁多的信息资料,专业人士根据信息的格式加以划分,将其分为结构化信息和非结构化信息两大类 。结构化信息,我们通常接触的资料库所管理的信息,包括生产、业务、交易、客户信息等方面的记录 。非结构化信息,专业术语为内容,所涵盖的信息更为广泛,可分为:营运内容(operationalcontent):如契约、发票、书信与採购记录;部门内容(workgroupcontent):如文书处理、电子表格、简报档案与电子邮件;Web内容:如HTML与XML等格式的信息;多媒体内容(RichMediaContent):如声音、影片、图形等 。类型互连网上出现的海量信息,大概分为结构化、半结构化和非结构化三种 。结构化信息如电子商务信息,信息的性质和量值的出现的位置是固定的;半结构化的信息如专业网站上的细分频道,其标题和正文的语法相当规範,关键字的範围相当局限;非结构化的信息如BLOG和BBS,所有内容都是不可预知的 。结构化信息和非结构化信息是IT套用的两个世界,它们有着各自不同的套用进化特点和规律 。但是,这两个世界之间还缺少相互连线的桥樑,而这种缺失使企业中不可避免地存在“活动”、“信息和知识”的分离,其后果就是:虽然它们都在进行着“知识化”的努力,但两个世界分离的IT套用模式,注定使其难以真正实现它们的初衷——“在最合适的时间,将最合适的信息传送给最合适的人” 。特点结构化信息标準促进组织(OASIS)结构化信息社会的特点就是,全社会经济文化活动,将会在各种信息的有序互动中完成,信息是结构化的,是有序的,是可以互动的 。以结构化的信息流为基础,构建结构化的信息社会 。那些正向成为结构化信息社会有序元素之一的企业,是具有竞争力的企业,会发挥极大的社会效率,企业也会取得成功,而那些不能成为结构化信息社会一份子的企业,则不可避免地将被淘汰 。为了使信息更有效、更有针对性、更便于被查找、更有秩序,“傻目录”全球首创的“坐标信息定位”体系,可以将地域大小和行业分类分别设定为信息坐标的两个主坐标轴,让有效的信息内容在首页或次页呈现给查询者面前 。横坐标是地域大小、位置选择,範围大到国家、省、市、行政区,小至三公里社区、一公里社区,查询者将滑鼠放置在每个地域上面,则会提示出下一级地域的推荐 。纵坐标则类似于Windows软体的资源管理器,呈现的是行业的目录,从最大的行业分类如生活服务、商业服务、消费品、工业品和原材料到最小的行业分类如生活类的美容美髮、美体减肥等,使用起来极其便利 。网页抽取WEB结构化信息抽取就是将网页中的非结构化数据按照一定的需求抽取成结构化数据 。是垂直搜寻引擎和通用搜寻引擎最大的差别 。