1、原理:信息检索理论是起源
从字面意义上来解释,搜索引擎是用于帮助互联网用户查询信息的搜索工具,它以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。
不过在早期的时候,互联网上面的搜索引擎和今天我们使用的搜索引擎有所不同,早期的搜索引擎更加像是我们今天很多中文“ICP网站”,把因特网中的资源服务器的地址收集起来,由其提供的资源类型的不同而分成不同的目录,再一层层地进行分类。人们要找自己想要的信息可按他们的分类一层层进入,就能最后到达目的地,找到自己想要的信息。这其实是最原始的方式,只适用于因特网信息并不多的时候,因为如果信息一旦多起来,查找的时候所花费的时间就很长了。
简单地说,搜索引擎的原理是起源于传统的信息全文检索理论,即计算机程序通过扫描每一篇文章中的每一个词,建立以词为单位的排序文件,检索程序根据检索词在每一篇文章中出现的频率和每一个检索词在一篇文章中出现的概率,对包含这些检索词的文章进行排序,最后输出排序的结果。互联网搜索引擎除了需要有全文检索系统之外,还要有所谓的“蜘蛛”(SPIDER)系统,即能够从互联网上自动收集网页的数据搜集系统。蜘蛛系统是John Leavitt开发的,并且由Michael Mauldin将这个系统融合到了Lycos搜索引擎里面去,它能够将搜集所得的网页内容交给索引和检索系统处理,就形成了我们常见的互联网搜索引擎系统。当然,一个完整的搜索引擎系统还需要有一个检索结果的页面生成系统,也就是要把检索结果高效地组装成万维网页面。
2、历史:Yahoo!是代表
说到搜索引擎的历史,自然不能不说雅虎(Yahoo!)了。正如计算机时代的很多新事物一样,Yahoo!起源于一个想法,随后变成一种业余爱好,最终成了使人全身心投入的一项事业。Yahoo!的两位创始人大卫.费罗(David Filo)和杨致远(Jerry Yang)是美国斯坦福大学电机工程系的博士生,于1994年4月建立了自己的网络指南信息库,将其作为记录他们个人对互联网的兴趣的一种方式。但是不久,他们将Yahoo!变成了一个可定制的数据库,旨在满足成千上万的、刚刚开始通过互联网社区使用网络服务的用户的需要。他们开发了可定制的软件,帮助他们有效地查找、识别和编辑互联网上存储的资料。最初Yahoo!存放在杨致远的学生工作站“akebono”上,而搜索引擎存放在Filo的计算机“konishiki”上(这些计算机的名称都来自于一些具有传奇色彩的夏威夷摔交手),结果令大家意想不到的是,Yahoo!大受欢迎,斯坦福大学的计算机网络由此受到来自外界的大浏览量的冲击。1995年初,Netscape Communications公司邀请大卫.费罗和杨致远将他们的文件转移到Netscape公司提供的更大的计算机上。这一做法不仅使斯坦福大学的计算机网络恢复了正常,而且令双方都有所受益。今天,Yahoo!含有链接到互联网上的成千上万台计算机中存储的信息。
从1994年4月中国科学院网首次与Internet网互联开始,中文搜索引擎的发展速度就非常惊人,台湾和香港加入互联网的时间较早,建立和发展中文搜索引擎的历史较长,其发展速度也很快。在中国,大陆的中文搜索引擎以天网、搜狐、网易、新浪搜索等为代表;台湾的中文搜索引擎以Openfind、奇摩、盖世引擎等为代表;香港的中文搜索引擎以茉莉之窗、网上行、悠游等为代表。国际上一些大型的搜索引擎公司也纷纷加入了中文搜索引擎市场,最具有代表性的是Alta Vista、Yahoo中文简体版和繁体版,还有Excite。
3、现在:与网页完美结合
随着网上内容的爆炸式增长和内容形式花样的不断翻新,搜索引擎越来越不能满足挑剔的网民们的各种信息需求。目前的搜索引擎仍然存在不少的局限性。从1996年起,搜索引擎技术开始注重网页质量与相关性的结合,这主要是通过三种手段:
1.是对网上的超链结构进行分析,如INFOSEEK和GOOGLE;
2.是对用户的点击行为进行分析,如DIRECTHIT(被ASK JEEVES收购);
3.是与网站目录相结合。最新的趋势则是搜索的个性化和本地化。
个性化:入门网站的个性化已经比较成熟了,但是搜索引擎的个性化并没有得到解决,不同的人使用相同的检索词得到的结果是相同的。也就是说搜索引擎没有考虑人的地域、性别、年龄等方面的差别。DIRECTHIT等公司一年前开始了个性化方面的研发工作,但至今没有推出任何产品。
本地化:本地化是一个比个性化更明显的趋势。随着互联网在全球的迅速普及,综合性的搜索引擎已经不能满足很多非美国网民的信息需求。近来,YAHOO!、INKTOMI、LYCOS等公司不断推出各国、各地区的本地搜索网站,搜索的本地化已经是势不可挡。
4、未来:高效、智能是主流
未来,搜索引擎的发展方向是:
1.自然语言理解技术
自然语言理解是计算机科学中的一个引人入胜的、富有挑战性的课题。从计算机科学特别是从人工智能的观点看,自然语言理解的任务是建立一种计算机模型,这种计算机模型能够给出像人那样理解、分析并回答自然语言。以自然语言理解技术为基础的新一代搜索引擎,我们称之为智能搜索引擎。由于它将信息检索从目前基于关键词层面提高到基于知识(或概念)层面,对知识有一定的理解与处理能力,能够实现分词技术、同义词技术、概念搜索、短语识别以及机器翻译技术等。因而这种搜索引擎具有信息服务的智能化、人性化特征,允许网民采用自然语言进行信息的检索,为他们提供更方便、更确切的搜索服务。
2. P2P对等网络
P2P是peer-to-peer的缩写,意为对等网络。其在加强网络上人的交流、文件交换、分布计算等方面大有前途。长久以来,人们习惯的互联网是以服务器为中心,人们向服务器发送请求,然后浏览服务器回应的信息。而P2P所包含的技术就是使联网电脑能够进行数据交换,但数据是存储在每台电脑里,而不是存储在既昂贵又容易受到攻击的服务器里。网络成员可以在网络数据库里自由搜索、更新、回答和传送数据。所有人都共享了他们认为最有价值的东西,这将使互联网上信息的价值得到极大的提升。
3.多媒体搜索引擎
随着宽带技术的发展,未来的互联网是多媒体数据的时代。开发出可查寻图像、声音、图片和电影的搜索引擎是一个新的方向。目前瑞典一家公司已经研制推出被称作“第五代搜索引擎”的动态的和有声的多媒体搜索引擎。图像、视频将很快取代文本成为互联网上主要的信息。