互联网搜索引擎的历史
互联网搜索引擎都有哪些历史呢?为什么不叫搜索引擎机器人,而称之为蜘蛛呢?
顾名思义,因特网又叫互联网,网罗全球可以查询到的任何信息,这就像一张网,所以当机器人搜索这么一张网上任何一点,爬来爬去搜集这些网上一点一点的信息和数据,因此就被形象的必须成spider,蜘蛛。这就是蜘蛛的由来。
我们向蜘蛛发出指令需要搜到什么内容的时候,蜘蛛就会爬到想去的路径找到我们想要搜寻的内容,然后像列表一样网罗出匹配出来的网站。我们点击一页页清单列表就可以进入蜘蛛帮我匹配的每个网站。所以这个机器人也就是网络蜘蛛的速度犹如光速一样,才能点击后一秒钟罗列。
搜索引擎由五个基本要素构成:1、网页抓取:当我们给出指令要求搜索引擎时,蜘蛛开始触动爬寻整个网络,把有关的链接依次抓取。2、数据分析:当机器人蜘蛛抓取的网页装载之后,开始进行数据分析,依据收录的标准来检索筛选;然后数据分析完毕之后,蜘蛛开始进行计算就是我们通常说的算法,对网站的内容、权重、外链、内链、关键词进行分析,开始排序环节;3、信息存储:排序是根据分析后的内容进行分类。4、缓存处理:缓存分为临时缓存和时段缓存,临时缓存主要针对临时网页的顺序进行排名,而时段缓存一般是24小时左右变动一次。5、展示数据:即将展示的数据是根据以上的步骤处理完毕的,包括排名的顺序,网页的权重等。
其实机器人蜘蛛已经出现更新了好几代!
我们来介绍下机器人蜘蛛的祖先---Archie是世界上第一个可以在互联网上自动搜索的的匿名FTP网站文件的程序,是由加拿大大学的三名学生所开发。这个蜘蛛非常的简单,你必须输入精确的文件名才可以帮你搜索到,如果文件名输入错误,就无法进行搜寻。
第二代蜘蛛---雅虎,由斯坦福大学的的两个学生设计出针对数据库搜索的程序,依然需要手工输入,并且仅仅是目录。但是这个新的程序比较第一代多了一个简介。
第三代蜘蛛---Google,这是一个被全球公认**迄今为止*专业*权威的搜索引擎。依然由斯坦福大学的学生开发。Google搜索网罗了全球的任何有效信息。
第四代蜘蛛---搜狐和百度,百度是全球**的中文搜索引擎,搜狐创建的搜索引擎时搜狗。搜狐和百度的用户比较,百度更具优势,因为百度在中国的各个地方都分布着服务器,更加提高了搜索速度。
虽然网络发展才仅仅几十年,但是这是一场革命,将会载入史册,而搜索引擎又是网络时代*有力的代表。标志着这个伟大的互联网时代。