图像搜寻

图像搜寻【图像搜寻】图像搜寻,是通过搜寻图像文本或者视觉特徵,为用户提供网际网路上相关图形图像资料检索服务的专业搜寻引擎系统,是搜寻引擎的一种细分 。通过输入与图片名称或内容相似的关键字来进行检索,另一种通过上传与搜寻结果相似的图片或图片URL进行搜寻 。
基本介绍中文名:图像搜寻
外文名:Image Indexing,
又称:Image Search.
特徵:搜寻图像文本或者视觉
图像原理WWW图像搜寻引擎需要为在Web上浏览过的图像建立索引信息,能够进行图像分析和判别,为图像加注释,存储抽取出的索引信息建立索引库,理想的图像搜寻引擎还应该能支持基于内容的图像检索 。图像识别方法:1、自动查找图形文:可以通过两个HTML标籤,即IMG SRC和HREF来检测是否存在可显示的图像档案,IMG SRC表示“显示下面的图像档案”,而HREF则表示“下面是一个连结”,这两种标籤经常导向一个图像档案 。搜寻引擎通过检查档案扩展名来判断连结的是否是图像档案 。如果档案扩展名是.GIF或.JPG,那它就是一个可显示的图像 。2、人工干预找出图像并进行分类:由人工对网上的图像及站点进行选择 。这种方法可以产生準确的查询体系,但劳动强度太大,限制了处理图像的数量 。由于图像不同于文本,需要人们按照各自的理解来说明其蕴含的意义,因此图像检索比起文本的查询和匹配要困难得多 。目前的图像搜寻引擎大多支持关键字检索和分类浏览两种检索方式,部分可提供可视属性检索,但也很有限 。它们主要的检索途径有以下几种:a. 基于图像外部信息:即根据图像的档案名称或目录名、路径名、链路、ALT标籤以及图像周围的文本信息等外部信息进行检索,这是目前图像搜寻引擎採用最多的方法 。在找出图像档案后,图像搜寻引擎通过查看档案名称或路径名确定档案内容,但这取决于档案名称或路径名的描述程度 。b. 基于图像内容特徵描述:这是一种语义层次的匹配 。需要人工对图像的内容(如物体、背景、构成、颜色特徵等)进行描述并分类,给出描述词 。检索时,将主要在这些描述词中搜寻你的检索词 。这种查询方式是比较準确的,一般来讲可以获得较好的查準率 。但需人工参与,劳动强度大,因而限制了可处理的图像数量,并且需要一定的规範和标準,效果取决于人工描述的精确度 。c. 基于图像形式特徵的抽取:由图像分析软体自动抽取图像的颜色、形状、纹理等特徵,建立特徵索引库,用户只需将要查找的图像的大致特徵描述出来,就可以找出与之具有相近特徵的图像 。这是一种基于图像特徵层次的机械匹配,特别适用于检索目标明确的查询要求(例如对商标的检索) 。产生的结果也是最接近用户要求的 。但目前这种较成熟的检索技术主要套用于图像资料库的检索,在网上图像搜寻引擎中套用这种检索技术还具有一定的困难 。相关图像技术从广义上讲,图像的特徵包括基于文本的特徵(如关键字、注释等)和视觉特徵(如颜色、纹理、形状等)两类 。视觉特徵又可分为通用的视觉特徵和领域相关(局部/专用)的视觉特徵 。前者用于描述所有图像共有的特徵,与图像的具体类型或内容无关,主要包括颜色、纹理和形状;后者则建立在对所描述图像内容的某些先验知识(或假设)的基础上,与具体的套用紧密有关,例如人的面部特徵或指纹特徵等 。1、基于上下文本(context)的图片搜寻通常是通过Alt等锚来索引,搜寻的,您可以访问搜寻引擎,比如百度、GOOGLE 。在搜寻框内输入搜寻文字,点击右侧的“图片搜寻”按纽,即可获得相关图片搜寻结果 。2、基于图片内容的搜寻涉及了资料库管理、计算机视觉、图像处理、模式识别、信息检索和认知心理学等诸多学科,其相关技术主要包括:图像数据模型、特徵提取方法、索引结构、相似性度量、查询表达模式、检索方法等 。相似图片的检测主要涉及特徵表示和相似性度量这两类关键技术 。图像特徵的提取与表达是基于内容的图像处理技术的基础 。发展图像现状一类是以百度、GOOGLE、有道等专业搜寻引擎网站为代表提供的图像或图片搜寻功能,为用户提供以文字进行检索的图片搜寻服务 。此类搜寻功能搜寻面大,搜寻结果信息庞大,只能提供较为单一的搜寻服务,搜寻结果给予用户比较多的选择性 。另一类是以淘淘搜等专业图像搜寻服务为代表的网站,为用户提供除文字外,通过上传与搜寻结果相似的图片或者图片URL进行搜寻服务 。此类网站更多的服务套用于网上购物领域的服务方向,更多的是为用户提供在网购方面的体验 。发展图像趋势随着百度识图、安图搜等图像搜寻网站的出现站,让图像搜寻更加趋向于专业性服务,搜寻结果方向性更强,精确性更高 。存在图像问题1. 尺度变化:尺度变化可以有多种形式,包括图像的放大、缩小以及长宽比的改变等等 。在网路上,常见的变化是将原来较大的图像变换为相对尺寸较小的图像,以减少存储空间需求和加快网路传输速度 。2. 颜色变化:在许多情况下,彩色图像会被转化为对应的灰度图像,而灰度图像也可能被转化为彩色图像 。对于空间遥感图像等,由于原始图像的阅读比较困难,人们往往将图像人为加上不同的颜色以区分图像中的各种区域 。3. 存储格式引起的失真:图像本身有着巨大的数据量,如今人们在存储图像时一般会使用各种不同的压缩算法 。常用的算法如JPEG、GIF、PNG等等 。为了实现比较高的压缩性能,这些算法绝大多数都是有损压缩,即压缩后的图像不能无失真地进行恢复 。所以,当图像在不同格式之间进行转化时,转化前后的图像之间总会存在一定差异 。由于这些差异的存在,直接比较两幅图像以判断其是否重複的方法是不可行的 。4. 数字水印:许多艺术图像等具有一定的知识着作权,而网路则很容易造成非授权图像的流传 。所以,目前人们往往採用数字水印(watermarking)方法在不影响图像视觉效果的情况向图像中注入一定的隐藏信息 。