网络营销 发表于 2022-10-4 01:01:51

搜索引擎的基本原理和主要类型

搜索引擎的基本原理和主要类型
1)搜索引擎的基本原理
搜索引擎的基本工作原理包括如下3个过程:(1)抓取网页。每个独立的搜索引擎都有自己的网页抓取程序—爬虫(Spider)。爬虫顺着网页中的超链接,从一个网站“爬”到另一个网站,通过超链接分析连续访问抓取更多的网页。被抓取的网页称为网页快照。由于互联网中超链接的应用十分普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。
(2)处理网页。搜索引擎“抓”到网页后,还要进行大量的预处理工作,才能向用户提供检索服务。其中,最重要的就是提取关键词,建立索引库和索引。其他还包括去除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度/丰富度等。(3)提供检索服务。用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页。为了便于用户判断,除了提供网页标题和URL外,搜索引擎还会提供一段来自网页的摘要以及其他信息

2)搜索引擎的主要类型
从搜索引擎的工作原理来区分,搜索引擎有两种基本类型。
(1)纯技术型的全文检索搜索引擎。如 Google、Altavista、Inktomi等,其原理是通过机械手(即 Spider程序)到各个网站收集、存储信息,并建立索引数据库供用户查询。需要说明的是,这些信息并不是搜索引擎即时从互联网上检索得到的。通常所说的搜索引擎,其实是一个收集了大量网站/网页资料并按照一定规则建立索引的在线数据库,如2004年3月底 Google收录的网页数量已经超过了42亿个,这样,当用户检索时才可以在很短的时间内反馈大量的结果。
(2)分类目录。这种“搜索引擎”并不采集网站的任何信息,而是利用各网站向“搜索引擎”提交网站信息时填写的关键词和网站描述等资料,经过人工审核编辑后,如果符合网站登录的条件,则输入数据库以供查询。Yahoo是分类目录的典型代表,国内的搜狐、新浪等搜索引擎也是从分类目录发展起来的。分类目录的优点是用户可以根据目录有针对性地逐级查询自己需要的信息,而不是像技术型搜索引擎一样同时反馈大量的信息,而这些信息之间的关联性并不一定符合用户的期望。


本文地址:http://www.wangzhan.org.cn/thread-2429-1-1.html
页: [1]
查看完整版本: 搜索引擎的基本原理和主要类型