文章插图
什么是搜索引擎?
搜索引擎按照工作方式可以分为三种,即全文搜索引擎、目录索引搜索引擎和元搜索引擎 。
一.基本概念
搜索引擎是指从互联网上自动收集信息,进行整理并提供给用户查询的系统 。互联网上的信息浩如烟海,杂乱无章 。所有的信息就像汪洋中的一座孤岛 。网页链接是这些岛屿之间纵横交错的桥梁,而搜索引擎则绘制出清晰的信息地图,供用户随时查阅 。他们从互联网上提取各种网站的信息(主要是网页),建立数据库,可以检索出符合用户查询条件的记录,并按照一定的顺序返回结果 。
两个 。操作原理
抓取网页
每个独立的搜索引擎都有自己的蜘蛛 。蜘蛛跟踪网页中的超链接,并不断爬行它们 。捕获的网页被称为网页快照 。因为超链接在互联网中应用广泛,理论上可以从一定范围的网页中收集到大部分网页 。
处理网页
搜索引擎抓取网页后,需要做大量的预处理,才能提供检索服务 。其中,最重要的是提取关键词,建立索引文件 。其他包括消除重复页面、分词(中文)、判断页面类型、分析超链接和计算页面的重要性/丰富度 。
3.提供检索服务
用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配关键词的网页;为了方便用户判断,除了页面的标题和URL,还会提供来自页面的摘要等信息 。
什么是搜索引擎?
类别:计算机/ *** 软件
分析:
搜索引擎
搜索引擎的概念
搜索引擎是指以一定的策略在互联网上收集信息,并对信息进行组织和处理,为用户提供检索服务的系统 。从用户的角度来看,搜索引擎提供了一个带有搜索框的页面 。在搜索框中输入单词并通过浏览器提交给搜索引擎后,搜索引擎会返回与用户输入的内容相关的信息列表 。在互联网发展初期,以雅虎为代表的网站分类目录查询非常流行 。网站的分类目录由人工组织和维护 。互联网上优秀的网站被挑选出来并简要描述,分门别类放在不同的目录下 。用户查询时,一层一层点击,就能找到自己想要的网站 。有人把这种基于目录的检索服务网站视为搜索引擎,但它并不是严格意义上的搜索引擎 。
搜索引擎的工作原理
可以分为三个部分 。
抓取网页
每个独立的搜索引擎都有自己的蜘蛛 。蜘蛛跟踪网页中的超链接,并不断爬行它们 。因为超链接在互联网中应用广泛,理论上可以从一定范围的网页中收集到大部分网页 。
2、处理网页
搜索引擎抓取网页后,需要做大量的预处理,才能提供检索服务 。其中,最重要的是提取关键词,建立索引文件 。其他的包括删除重复的网页,分析超链接,计算网页的重要性 。
3.提供检索服务
用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配关键词的网页;为了方便用户判断,除了页面的标题和URL,还会提供来自页面的摘要等信息 。
搜索引擎的发展历史
1990年,由麦吉尔大学计算机学院的师生开发 。当时万维网出现之前,人们通过FTP共享通信资源 。可以定期收集和分析FTP服务器上的文件名信息,并提供对每个FTP主机中文件的搜索 。用户必须输入确切的文件名进行搜索,告诉用户哪个FTP服务器可以下载文件 。阿奇收集的信息资源虽然不是网页(HTML文件),但其工作原理和搜索引擎是一样的:自动收集信息资源,建立索引,提供检索服务 。所以阿奇被公认为现代搜索引擎的鼻祖 。
机器人这个词对程序员来说有着特殊的含义 。计算机机器人( robot)是指能够以人类无法达到的速度重复执行一项任务的自动化程序 。因为专门用来检索信息的机器人程序像蜘蛛一样在 *** 上爬行,所以搜索引擎的机器人程序被称为蜘蛛程序 。
- 土木工程专业学什么就业前景好 土木工程专业学什么
- 冬天吃什么提高代谢 冬天吃什么提高抵抗力 冬季吃什么东西增强免疫力
- 二级巡视员是什么行政级别 二级巡视员是什么级别
- 西瓜空心是怎么回事 西瓜空心是什么原因造成的 西瓜空心还能吃吗
- 民族团结是什么意思 民族团结是什么
- 马铃薯种植能用什么化肥好 马铃薯种植能用草木灰吗
- 西瓜发酸是怎么回事 西瓜发酸是什么原因 西瓜有点酸能吃吗
- 肉苁蓉又名叫什么 肉苁蓉是什么东西
- 赫尔巴特认为教育学就是以什么为基础 赫尔巴特认为教育学的理论基础是
- 蚂蚁积分有什么用会清零吗 蚂蚁积分有什么用