为什么谷歌的搜索速度这么快?
一个阵列有n根1000M光纤,n个服务器级硬盘!
1.1之前的互联网搜索时代
互联网发展初期,网站相对较少,查找信息比较容易。然而,随着互联网的爆炸式发展,普通网络用户要找到自己需要的信息就像大海捞针。这时,满足公众信息检索需求的专业搜索网站应运而生。
所有搜索引擎的始祖是蒙特利尔麦吉尔大学的艾伦·恩塔奇、彼得·多伊奇和比尔·惠兰在1990年发明的阿奇·常见问题。那时候万维网还没有出现。Archie是第一个在互联网上自动索引匿名FTP网站文件的程序,但它不是一个真正的搜索引擎。Archie是一个可搜索的FTP文件名列表。用户必须输入准确的文件名搜索,然后Archie会告诉用户哪个FTP地址可以下载文件。
阿奇的工作原理和现在的搜索引擎非常接近。它依靠脚本程序自动搜索在线文件,然后索引相关信息,供用户用一定的表达式进行查询。受Archie受用户欢迎的启发,美国内华达州的系统计算服务大学在1993开发了另一个非常相似的搜索工具,但此时的搜索工具除了索引文件外,还可以检索网页。
当时“机器人”这个词在程序员中非常流行。电脑机器人是指能够以人类无法达到的速度不间断地执行某项任务的软件程序。因为专门用来检索信息的“机器人”程序像蜘蛛一样在网络上爬行,所以搜索引擎的“机器人”程序被称为“蜘蛛”程序。因为专门用来检索信息的机器人程序像蜘蛛一样在网络上爬行,所以搜索引擎的机器人程序被称为蜘蛛(SpiderFAQ program。世界上第一个蜘蛛程序,麻省理工学院马修·格雷分校的万维网漫游者,被用来跟踪互联网发展的规模。起初,它只是用来统计互联网上的服务器数量。后来,它被开发用来捕捉网址。
世界上第一个监测互联网发展规模的“机器人”程序是马修·格雷开发的万维网漫游者。一开始只是用来统计互联网上的服务器数量,后来发展到可以检索网站域名。
对应漫游者,1993 10年6月,Martijn Koster创建了阿里Web (Martijn Koster公告阿里Web的可用性),相当于HTTP版的Archie。ALIWEB不使用互联网搜索机器人。如果网站管理员希望自己的网页被收录到ALIWEB中,需要提交自己的每个网页的介绍和索引信息,类似于后来众所周知的Yahoo。
1993年底,一些基于这个原理的搜索引擎开始陆续出现。三个最著名的是:苏格兰的JumpStation,科罗拉多大学的Oliver McBryan的万维网蠕虫(McBryan的第一个指令)和美国国家航空航天局的基于知识库的软件工程(RBSE) Spider。随着互联网的快速发展,检索所有新的网页变得越来越困难。因此,基于马修·格雷的《漫游者》,一些程序员改进了传统“蜘蛛”程序的工作原理。这个想法是,由于所有的网页可能有链接到其他网站,这是有可能的搜索整个互联网通过以下一个网站的链接。而Jump Station和WWW Worm只是按照搜索工具在数据库中找到匹配信息的顺序对搜索结果进行排序,不存在信息关联。RBSE是第一个将关键词串匹配度的概念引入搜索结果排名的引擎。
1993年2月,六个斯坦福大学学生的想法是分析单词之间的关系,以便更有效地搜索互联网上的大量信息。这太令人兴奋了。后来以概念搜索出名。2002年5月,被Infospace收购的Excite停止了自己的搜索引擎,转而使用元搜索引擎Dogpile。
1994 1月,第一个可搜索可浏览的目录EINetGalaxy(Tradewave Galaxy)上线。除了网站搜索,还支持Gopher和Telnet搜索。
1994年4月,两位斯坦福大学的博士生杨致远(杨致远)和大卫·费罗***,创立了雅虎。随着访问量和链接数的增加,雅虎目录开始支持简单的数据库搜索。因为雅虎!的数据是人工输入的,所以不能真正归类为搜索引擎。事实上,它只是一个可搜索的目录。搜索效率明显提高。(雅虎将使用Altavista、Inktomi和谷歌提供搜索引擎服务。)
1994年初,华盛顿大学计算机系学生布莱恩·平克顿开始了他的小项目“布莱恩·平克顿宣布网络爬虫的可用性”。1994年4月20日,网络爬虫仅包含来自6000台服务器的内容。网络爬虫是互联网上第一个支持搜索文档所有单词的全文搜索引擎。在它之前,用户只能通过URL和摘要进行搜索,这些通常来自人工注释或自动提取文本前100个单词的程序。(后来网络爬虫相继被AOL和excite收购,现在使用Excite这样的元搜索引擎Dogpile。)
1.2互联网搜索时代
最早的现代搜索引擎出现在1994年7月。当时,迈克尔·毛尔丁(Michael Mauldin)将约翰·莱维特(John Leavitt)的蜘蛛程序连接到其索引程序,并创建了Lycos,这种程序现在已广为人知。同年4月,斯坦福大学的两名博士生大卫·费罗(David Filo)和美籍华人格里·杨(Gerry Yang)共同创办了超级目录索引雅虎(Yahoo),成功地让搜索引擎的概念深入人心。自此,搜索引擎进入了高速发展期。目前,互联网上有数百个知名的搜索引擎,它们检索的信息量与以前不可同日而语。比如最近风头正劲的Google,它的数据库里存储了30亿个页面!
随着互联网的快速扩张,一个搜索引擎已经无法独自适应当前的市场形势,所以现在搜索引擎之间有分工合作,有专业的搜索引擎技术和搜索数据库服务商。和国外的Inktomi一样,它并不是一个直接面向用户的搜索引擎,而是向包括Overture(原GoTo)、LookSmart、MSN、HotBot等其他搜索引擎提供全文网页搜索服务。中国的百度也属于这一类,搜狐和新浪用的都是它的技术。所以,从这个意义上来说,他们是搜索引擎的搜索引擎。
Lycos(卡内基梅隆大学机器翻译中心Lycos)是搜索引擎历史上的另一个重要进步。卡内基梅隆大学的Michael Mauldin将John Leavitt的蜘蛛程序与其索引程序连接起来,并创建了Lycos。7月20日,1994,数据量54000的Lycos正式发布。除了相关性排名,Lycos还提供前缀匹配和字符相似性限制。Lycos率先在搜索结果中使用网页自动摘要,最大的优势是远远超过其他搜索引擎的数据量:65438+8月0994-39.4万篇文档;1995 1月-1.5万文档;1996 11月-超过6000万文档。(注:1999年4月,Lycos停止了自己的蜘蛛,转而由Fast提供搜索引擎服务。)
Infoseek是另一个重要的搜索引擎。虽然该公司声称1994 1成立,但其搜索引擎直到年底才与公众见面。起初,Infoseek只是一个默默无闻的搜索引擎,紧随雅虎之后。而Lycos,没有什么独特的创新。但它的发展历程和随后的口碑证明,一开始第一个上台并不总是重要的。Infoseek友好的用户界面和大量的附加服务(如ups追踪、新闻、目录等)使它越来越出名。6月1995+2月65438与网景公司的战略协议使其成为一个强大的搜索引擎:当用户点击网景浏览器上的搜索按钮时,Infoseek的搜索服务就会弹出,而雅虎!提供这项服务。(注:Infoseek后来因其相关性而出名。2001年2月,Infoseek停止了自己的搜索引擎,开始使用Overture搜索结果。)
1995年,出现了一种新形式的搜索引擎——元搜索引擎综述。用户只需提交一次搜索请求,元搜索引擎负责转换处理后提交给多个预选的独立搜索引擎,独立搜索引擎返回的所有查询结果都经过收集处理后返回给用户。第一个元搜索引擎是华盛顿大学的硕士生埃里克·塞尔伯格和柳文欢·埃齐奥尼的Metacrawler。元搜索引擎在概念上听起来不错,但是搜索效果总是不尽如人意,所以从来没有元搜索引擎有过强势地位。
DEC的altavista(部分网友从2001夏天开始需要通过p-roxy访问,qbseach搜索AltaVista没有p-roxy可用,只能显示搜索结果首页)是后来者,直到1995 (AltaVista公测新闻稿)才出现。但大量的创新功能使其迅速达到了当时搜索引擎的巅峰。Altavista最突出的优势就是速度。Altavista的其他新功能永远改变了搜索引擎的定义。AltaVista是第一个支持自然语言搜索的搜索引擎,AltaVista是第一个实现高级搜索语法(如and、OR、NOT等)的搜索引擎。).用户可以使用AltaVista搜索新闻组并从互联网上获取文章,还可以在图片名称、标题、Java小程序和ActiveXobjects中搜索单词。AltaVista还声称是第一个支持用户向web索引数据库提交或删除URL的搜索引擎,并且它可以在24小时内启动。AltaVista最有趣的新功能之一是搜索所有带有URL链接的网站。在面向用户的界面上,AltaVista也做了很多创新。它将“提示”放在搜索框区域,帮助用户更好地表达他们的搜索风格。这些提示经常更新,以至于用户搜索几次后,会看到很多自己可能永远不知道的有趣功能。这一系列功能逐渐被其他搜索引擎广泛采用。
1997年,AltaVista发布了一个图形演示系统LiveTopics,帮助用户从成千上万的搜索结果中找到自己想要的东西。
然后是HotBot。1995年9月26日,CS助教EricBrewer和加州伯克利博士生PaulGauthier创办Inktomi(UC Berkeley announcements Inktomi)。1996年5月20日,Inktomi公司成立,一个强大的HotBot出现在世人面前。它声称每天可以抓取超过65438+1亿页的索引,因此有远超其他搜索引擎的新内容。HotBot还使用cookie来存储用户的个人搜索偏好。(Hotbot是随后几年最受欢迎的搜索引擎之一,被Lycos收购)
Northernlight公司于1995年9月在马萨诸塞州剑桥成立,1995。8月,1997,Northernlight搜索引擎正式出现。它曾经是数据库最大的搜索引擎之一。它没有停止字。它有极好的时事新闻,一个由超过7100个出版物组成的特殊收藏,以及一个很好的高级搜索语法。它是第一个支持搜索结果简单自动分类的。(2002年6月5438+10月65438+6月6日,北极光搜索引擎关闭,随后被divine收购。但在Nlresearch中,选择了“仅万维网”,仍可使用Northernlight搜索引擎。)
在1998 10之前,Google只是斯坦福大学的一个小项目。1995,博士生LarryPage开始研究搜索引擎设计,并于9月15,1997注册了google.com的域名。1997年底,在谢尔盖·布林、斯科特·哈桑、艾伦·斯特伦伯格的参与下,巴赫Rub开始提供Demo。1999年2月,Google完成了从Alpha版到Beta版的转型。谷歌把1998年9月27日当做自己的生日。
谷歌在综合搜索、多语言支持、用户界面等功能上的创新,如Pagerank、动态摘要、网页快照、每日刷新、多文档格式支持、地图股票词典搜索等,又一次像Altavista一样永远改变了搜索引擎的定义。
在2000年年中之前,谷歌因其搜索准确性而备受推崇,但由于其数据库没有其他搜索引擎大,缺乏先进的搜索语法,使用价值不是很高,推广也不快。直到2000年年中数据库升级,才被雅虎选为搜索引擎。
Fast(Alltheweb)公司成立于1997,是挪威科技大学(NTNU)学术研究的副产品。1999年5月,发布了自己的搜索引擎AllTheWeb。Fast的目标是做全球最大最快的搜索引擎,这几年已经接近了。Fast(Alltheweb)可以按ODP自动分类网页,支持Flash和pdf搜索,支持多语言搜索,还提供新闻搜索、图片搜索、视频、MP3和FTP搜索,具有极其强大的高级搜索功能。
Teoma源于1998罗格斯大学的一个项目。Apostolos Gerasoulis教授带领华裔教授陶阳等人在新泽西皮斯卡塔韦创建了Teoma,于2001年春季首次亮相,2001年9月被Ask Jeeves收购,2002年4月再次发行。Teoma的数据库仍然很小,但它有两个辉煌的功能:支持Refine类似于自动分类;同时,还提供了专业链接目录资源。
Wisenut由韩裔尹汝杰创立。2001春季发布测试版,2006 54 38+0 9月5日发布正式版。2002年4月,它被分类目录提供商looksmart收购。Wisenut还有两个高明的功能:WiseGuide包含相似自动分类和相关搜索词;预览搜索结果。
Gigablast由前Infoseek工程师Matt Wells创立。2002年3月显示pre-Beta版,2002年7月21日发布Beta版。Gigablast的数据库目前还很小,但也提供网页快照。一个特殊的功能是实时索引网页,你的网页一提交就能被搜索到(注:垃圾邮件发送者的肉包子功能暂时关闭)。
Openfind成立于1998 65438+10月,其技术源于台湾中正大学吴生教授领导的GAIS实验室。起初,Openfind只是一个中文搜索引擎。曾经是最好的中文搜索引擎。巅峰时期为新浪、奇摩、雅虎三大著名门户网站提供中文搜索引擎,但2000年后市场逐渐被百度、谷歌瓜分。2002年6月,Openfind基于GAIS30Project重新发布了Openfind搜索引擎的测试版,推出了PolyRankTM,并宣布已经积累了35亿网页,开始进军英文搜索领域。此后,技术升级明显加快。
北大天网是九五国家重点科技项目“中英文中文编码与分布式信息发现”的研究成果。由北京大学计算机系网络与分布式系统研究室开发,于6月29日在CERNET上正式提供服务,1997。2000年初,新的天网搜索引擎研究组成立,由国家973重点基础研究发展规划项目基金资助开发,收录网页约6000万。利用教育网的优势,拥有强大的ftp搜索功能。
5438年6月+2000年10月,Hyperchain Analysis专利发明人、原Infoseek高级工程师李彦宏和好友徐勇(加州柏克莱大学博士)在北京中关村创立了百度公司。Baidu.com搜索引擎测试版于2001年8月发布(百度仅提供搜狐、新浪、Tom等其他门户的搜索引擎),百度搜索引擎于2001 10年10月22日正式发布。百度虽然只提供中文搜索,但目前包含了9000多万个中文网页,可能是最大的中文数据库。百度搜索引擎的其他功能还包括:网页快照、网页预览/所有网页预览、相关搜索词、错别字纠正提示、新闻搜索、Flash搜索和信息快车搜索。2002年3月Blitzen项目启动后,技术升级明显加快。
1.3搜索引擎大事记
1990年,麦吉尔大学学生艾伦·恩塔奇、彼得·多伊奇和比尔·惠兰发明了阿奇常见问题。
1993年,美国内华达州系统计算服务大学开发了另一款与Archie非常相似的搜索工具,但此时的搜索工具除了索引文件外,还能搜索网页。
1993年,马修·格雷开发了万维网漫游者,这是世界上第一个监测互联网发展规模的“机器人”程序。
1993 10年6月,Martin Koster创建了ALIWEB,这是Archie的HTTP版本。
1993年底,一些基于这一原理的搜索引擎开始陆续出现,其中以Jump Station、万维网蠕虫和基于知识库的软件工程(RBSE)蜘蛛最为著名。
1994 1月,第一个可搜索可浏览的目录EINetGalaxy(Tradewave Galaxy)上线。除了网站搜索,还支持Gopher和Telnet搜索。
1994年初,华盛顿大学计算机系学生布莱恩·平克顿开始了他的小项目“布莱恩·平克顿宣布网络爬虫的可用性”。4月20日,1994,网络爬虫正式出现。
1994年4月,两位斯坦福大学的博士生杨致远(杨致远)和大卫·费罗***,创立了雅虎。随着访问量和链接数的增加,雅虎目录开始支持简单的数据库搜索。因为雅虎!的数据是人工输入的,所以不能真正归类为搜索引擎。事实上,它只是一个可搜索的目录。
1994年7月,Michael Mauldin将John Leavitt的spider程序连接到其索引程序,并创建了Lycos,该程序现在已广为人知。1996年底,AOL收购了Excite 20%的股份,美国在线搜索引擎自然由Excite提供。
1995年,出现了一种新形式的搜索引擎——元搜索引擎综述。第一个元搜索引擎是华盛顿大学的硕士生埃里克·塞尔伯格和柳文欢·埃齐奥尼的Metacrawler。
1995年9月26日,CS助教EricBrewer和加州伯克利博士生PaulGauthier创办Inktomi(UC Berkeley announcements Inktomi)。1996年5月20日,Inktomi公司成立,一个强大的HotBot出现在世人面前。
1995年9月,北极光公司在马萨诸塞州剑桥成立。8月,1997,Northernlight搜索引擎正式出现。它曾经是数据库最大的搜索引擎之一。它没有停止字。它有极好的时事新闻,一个由超过7100个出版物组成的特殊收藏,以及一个很好的高级搜索语法。它是第一个支持搜索结果简单自动分类的。
1995,博士生LarryPage开始研究搜索引擎设计,并于9月15,1997注册了google.com的域名。1997年底,在谢尔盖·布林、斯科特·哈桑、艾伦·斯特伦伯格的参与下,巴赫Rub开始提供Demo。1999年2月,Google完成了从Alpha版到Beta版的转型。谷歌把1998年9月27日当做自己的生日。
1997,Fast(Alltheweb)成立于年,是挪威科技大学(NTNU)学术研究的副产品。1999年5月,发布了自己的搜索引擎AllTheWeb。
1998年,Rutgers大学的Apostolos Gerasoulis教授带领陶阳教授等人在新泽西Piscataway建立了Teoma,它于2006年春天首次亮相,于2006年9月被Ask Jeeves收购,并于2002年4月再次发行。
1998 1,Openfind成立,其技术源于台湾中正大学吴生教授领导的GAIS实验室。2002年6月,Openfind基于GAIS30Project重新发布了Openfind搜索引擎的测试版。
1997 10 10月29日,作为国家重点科技项目“中英文中文编码与分布式信息发现”的研究成果,北大天网由北大计算机系网络与分布式系统研究室开发,在CERNET上正式提供服务。2000年初,新的天网搜索引擎研究组成立,由国家973重点基础研究发展规划项目基金资助开发,收录网页约6000万。利用教育网的优势,拥有强大的ftp搜索功能。
5438年6月+2000年10月,Hyperchain Analysis专利发明人、原Infoseek高级工程师李彦宏和好友徐勇(加州柏克莱大学博士)在北京中关村创立了百度公司。Baidu.com搜索引擎测试版于2001年8月发布(百度仅提供搜狐、新浪、Tom等其他门户的搜索引擎),百度搜索引擎于2001 10年10月22日正式发布。
2001年春天,韩国人尹汝杰创办了Wisenut,发布了测试版,2001年9月5日发布了正式版。2002年4月,它被分类目录提供商looksmart收购。
2002年5月1日,网络帝国AOL与谷歌签约,全面采用谷歌的搜索引擎,展示谷歌出售的所有网站的排名结果。
2002年2月24日,65438+雅虎表示,同意以约2.35亿美元收购搜索软件公司Inktomi。
2003年6月5438+10月65438+8月,谷歌收购了在线出版软件开发商PyraLabs,这是Blogger.com博客网站的开发团队。
2003年2月19日,Overture Service公司表示,计划以140万美元现金加股票的方式从CMGI公司收购门户网站AtaVista。
2003年2月26日,Overture同意以65,438+0亿美元收购挪威FastSearchandTransfer公司的网页搜索部门。
2003年4月15日,新浪与中国搜索联盟结成战略联盟。到目前为止,中国已有数百家网站组成了搜索联盟,以应对国际巨头谷歌进入国内市场后的巨大压力。
2003年4月21日,第二大互联网搜索引擎提供商AskJeeves宣布将升级其Ask.com网站。Askjeeves是仅次于谷歌的第二大搜索引擎,也是互联网上第五大搜索基地(谷歌、雅虎、微软、美国在线、AskJeeves)。
2003年6月18日,微软表示正在加紧研发新的互联网搜索引擎技术,包括测试一个具有更先进功能的原型。
2003年7月13日,百度推出图片搜索和新闻搜索两大搜索功能,拉动搜索流量。同时,辅以百度的搜索列表,百度的信息搜索和信息评价更加突出。
2003年7月15日,全球最大的互联网公司雅虎宣布以163亿美元收购网络搜索服务的竞争对手—Overture,以期在与谷歌的竞争中取得优势。