搜索引擎分类和基础架构概述


搜索引擎分类和基础架构概述

文章插图
您不会对搜索引擎感到陌生 。搜索引擎是互联网发展最直接的产物 。它们可以帮助我们从海量的互联网数据中找到我们查询的内容 。它也是我们日常学习、工作和娱乐中不可缺少的一部分 。缺少查询工具 。
以前用百度搜索的比较多 , 但是对搜索引擎的知识结构没有一个整体的概念 。前段时间的实习让我有机会全面了解搜索引擎 , 挺有意思的 。所以 , 即使在找工作的压力下 , 一定要花时间总结和复习所学 , 以便日后参考 。如果能帮助到别人 , 那就更好了 。
搜索引擎的标准定义:搜索引擎(来自用户的信息 。显示给用户系统的信息 。从上面的定义 , 我们可以得到关于搜索引擎的几个关键步骤 , 即:收集信息;组织和处理信息;显示信息 。事实上 , 真正的搜索引擎架构是基于这三个块的 。
1.搜索引擎分类
搜索引擎种类繁多 , 分类很多 , 按其工作方式可分为以下几类:
1)全文搜索引擎
全文搜索引擎可以说是真正的搜索引擎 , 包括我们身边知名的大型搜索引擎 , 百度等 , 都是全文搜索引擎 。全文搜索引擎从网站中提取信息以构建网络数据库 。
全文搜索引擎如何收集网站?其实这里一般有两种方法:
1> 搜索引擎定期发送网络爬虫(也称为蜘蛛或机器人)来检索互联网上的网站 。一旦找到新网站 , 它会自动提取其信息并将其添加到自己的数据库中;
2> 网站所有者主动向搜索引擎提交其网站信息 , 但主动提交网站并不一定保证其网站会被搜索引擎收录 。站长可以通过外链增加自己网站的关注度(这属于SEO的知识) 。
全文搜索引擎如何显示查询结果?
当用户输入一个查询(query)时 , 搜索引擎会在数据库中进行搜索 。如果它找到与用户请求的内容相匹配的网站 , 它会使用一种特殊的算法——通常根据网页中关键字的匹配程度、出现位置、频率、链接质量——计算每个网页的相关性和排名 , 并然后将这些网页链接按照相关性依次返回给用户 。
我们可以看到全文搜索引擎的特点是搜索率比较高 。
2)目录搜索引擎
【搜索引擎分类和基础架构概述】目录搜索引擎主要是按类别收集网站 , 查询时不需要输入关键字 。最典型的目录搜索引擎有新浪、雅虎等 。
目录索引不需要输入任何文字 , 只要根据网站提供的主题类别点击进入 , 即可找到所需的网络信息资源 。虽然有搜索功能 , 但不能称得上是真正意义上的搜索引擎 , 它只是一个按目录分类的网站链接列表 。用户完全可以根据分类找到自己需要的信息 , 不依赖()来查询 。如果把一本书比作一个网站 , 就好像我们去图书馆按地区查找需要的书籍 , 所以形象地称为目录搜索引擎 。
3)元搜索引擎
元搜索引擎(META)接受用户的查询请求后 , 同时在多个搜索引擎上进行搜索 , 并将结果返回给用户 。著名的元搜索引擎有 、 、 等 。在中文元搜索引擎中 , 具有代表性的是搜星搜索引擎 。在搜索结果的排列方面 , 有的直接按照来源排列搜索结果 , 如;有的根据自定义规则重新排列结果 , 如 。
4)垂直搜索引擎
在介绍垂直搜索引擎之前 , 我们先解释一下水平和垂直行业的含义 。