网上检索引擎

网上检索引擎【网上检索引擎】网上检索引擎即我们常说的“搜寻引擎”,根据工作原理和搜寻範围又分为全文搜寻引擎(Full Text Search Engine)、目录索引类搜寻引擎(Search Index/Directory)和元搜寻引擎(Meta Search Engine) 。
基本介绍中文名:网上检索引擎
工作方式:全文搜寻引擎
工作方式:目录索引类搜寻引擎
工作方式:元搜寻引擎
基本定义网上检索引擎,也就是我们所说的搜寻引擎 。分类搜寻引擎按其工作方式主要可分为三种,分别是全文搜寻引擎(Full Text Search Engine)、目录索引类搜寻引擎(Search Index/Directory)和元搜寻引擎(Meta Search Engine) 。全文搜寻引擎全文搜寻引擎是名副其实的搜寻引擎,国外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,国内着名的有百度(Baidu) 。它们都是通过从网际网路上提取的各个网站的信息(以网页文字为主)而建立的资料库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜寻引擎 。从搜寻结果来源的角度,全文搜寻引擎又可细分为两种,一种是拥有自己的检索程式(Indexer),俗称“蜘蛛”(Spider)程式或“机器人”(Robot)程式,并自建网页资料库,搜寻结果直接从自身的资料库中调用,如上面提到的7家引擎;另一种则是租用其他引擎的资料库,并按自定的格式排列搜寻结果,如Lycos引擎 。目录索引目录索引虽然有搜寻功能,但在严格意义上算不上是真正的搜寻引擎,仅仅是按目录分类的网站连结列表而已 。用户完全可以不用进行关键字(Keywords)查询,仅靠分类目录也可找到需要的信息 。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo雅虎 。其他着名的还有Open Directory Project(DMOZ)、LookSmart、About等 。国内的搜狐、新浪、网易搜寻也都属于这一类 。元搜寻引擎(META Search Engine)元搜寻引擎在接受用户查询请求时,同时在其他多个引擎上进行搜寻,并将结果返回给用户 。着名的元搜寻引擎有InfoSpace、Dogpile、Vivisimo等(元搜寻引擎列表),中文元搜寻引擎中具代表性的有搜星搜寻引擎 。在搜寻结果排列方面,有的直接按来源引擎排列搜寻结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo 。除上述三大类引擎外,还有以下几种非主流形式:集合式搜寻引擎:如HotBot在2002年底推出的引擎 。该引擎类似META搜寻引擎,但区别在于不是同时调用多个引擎进行搜寻,而是由用户从提供的4个引擎当中选择,因此叫它“集合式”搜寻引擎更确切些 。门户搜寻引擎:如AOL Search、MSN Search等虽然提供搜寻服务,但自身即没有分类目录也没有网页资料库,其搜寻结果完全来自其他引擎 。免费连结列表(Free For All Links,简称FFA):这类网站一般只简单地滚动排列连结条目,少部分有简单的分类目录,不过规模比起Yahoo等目录索引来要小得多 。由于上述网站都为用户提供搜寻查询服务,为方便起见,我们通常将其统称为搜寻引擎 。工作原理了解搜寻引擎的工作原理对我们日常搜寻套用和网站提交推广都会有很大帮助 。全文搜寻引擎在搜寻引擎分类部分我们提到过全文搜寻引擎从网站提取信息建立网页资料库的概念 。搜寻引擎的自动信息蒐集功能分两种 。一种是定期搜寻,即每隔一段时间(比如Google一般是28天),搜寻引擎主动派出“蜘蛛”程式,对一定IP位址範围内的网际网路站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的资料库 。另一种是提交网站搜寻,即网站拥有者主动向搜寻引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程式,扫描你的网站并将有关信息存入资料库,以备用户查询 。由于近年来搜寻引擎索引规则发生了很大变化,主动提交网址并不保证你的网站能进入搜寻引擎资料库,因此目前最好的办法是多获得一些外部连结,让搜寻引擎有更多机会找到你并自动将你的网站收录 。当用户以关键字查找信息时,搜寻引擎会在资料库中进行搜寻,如果找到与用户要求内容相符的网站,便採用特殊的算法——通常根据网页中关键字的匹配程度,出现的位置/频次,连结质量等——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页连结返回给用户 。目录索引与全文搜寻引擎相比,目录索引有许多不同之处 。首先,搜寻引擎属于自动网站检索,而目录索引则完全依赖手工操作 。用户提交网站后,目录编辑人员会亲自浏览你的网站,然后根据一套自定的评判标準甚至编辑人员的主观印象,决定是否接纳你的网站 。其次,搜寻引擎收录网站时,只要网站本身没有违反有关的规则,一般都能登录成功 。而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功 。尤其象Yahoo!这样的超级索引,登录更是困难 。(由于登录Yahoo!的难度最大,而它又是商家网路行销必争之地,所以我们会在后面用专门的篇幅介绍登录Yahoo雅虎的技巧)此外,在登录搜寻引擎时,我们一般不用考虑网站的分类问题,而登录目录索引时则必须将网站放在一个最合适的目录(Directory) 。最后,搜寻引擎中各网站的有关信息都是从用户网页中自动提取的,所以用户的角度看,我们拥有更多的自主权;而目录索引则要求必须手工另外填写网站信息,而且还有各种各样的限制 。更有甚者,如果工作人员认为你提交网站的目录、网站信息不合适,他可以随时对其进行调整,当然事先是不会和你商量的 。目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键字搜寻,也可按分类目录逐层查找 。如以关键字搜寻,返回的结果跟搜寻引擎一样,也是根据信息关联程度排列网站,只不过其中人为因素要多一些 。如果按分层目录查找,某一目录中网站的排名则是由标题字母的先后顺序决定(也有例外) 。目前,搜寻引擎与目录索引有相互融合渗透的趋势 。原来一些纯粹的全文搜寻引擎现在也提供目录搜寻,如Google就借用Open Directory目录提供分类查询 。而象 Yahoo! 这些老牌目录索引则通过与Google等搜寻引擎合作扩大搜寻範围 。在默认搜寻模式下,一些目录类搜寻引擎首先返回的是自己目录中匹配的网站,如国内搜狐、新浪、网易等;而另外一些则默认的是网页搜寻,如Yahoo 。起源所有搜寻引擎的祖先,是1990年由Montreal的McGill University三名学生(Alan Emtage、Peter Deutsch、Bill Wheelan)发明的Archie(Archie FAQ) 。Alan Emtage等想到了开发一个可以用档案名称查找档案的系统,于是便有了Archie 。Archie是第一个自动索引网际网路上匿名FTP网站档案的程式,但它还不是真正的搜寻引擎 。Archie是一个可搜寻的FTP档案名称列表,用户必须输入精确的档案名称搜寻,然后Archie会告诉用户哪一个FTP地址可以下载该档案 。由于Archie深受欢迎,受其启发,Nevada System Computing Services大学于1993年开发了一个Gopher(Gopher FAQ)搜寻工具Veronica(Veronica FAQ) 。Jughead是后来另一个Gopher搜寻工具 。