GOOGLE和百度之类的搜索引擎的工作原理?
发布时间:2010-01-03来源:互联网 编辑:圆圆
搜索引擎工作原理
了解搜索引擎的工作原理对我们日常搜索利用和网站提交推广都会有很大帮助
全文搜索引擎
在搜索引擎分类部门我们提到过全文搜索引擎从网站提守信息树立网页数据库的概念搜索引擎的主动信息搜集功效分两种一种是按期搜索,即每隔一段时光(好比Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对必定IP地址范畴内的互联网站入行检索,一旦发明新的网站,它会主动提取网站的信息和网址参加自己的数据库
另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在必定时光内(2天到数月不等)定向向您的网站派出“蜘蛛”程序,扫描您的网站并将有关信息存入数据库,以备用户查询因为近年来搜索引擎索引规矩产生了很大变化,主动提交网址并不保证您的网站能入入搜索引擎数据库,因此目前最好的措施是多获得一些外部链接,让搜索引擎有更多机遇找到您并主动将您的网站收录
当用户以要害词查找信息时,搜索引擎会在数据库中入行搜寻,如果找到与用户请求内容相符的网站,便采取特别的算法——通常依据网页中要害词的匹配水平,呈现的地位/频次,链接质量等——盘算出各网页的相干度及排名等级,然后依据联系关系度高下,按次序将这些网页链接返回给用户
目录索引
与全文搜索引擎比拟,目录索引有许多不同之处
首先,搜索引擎属于主动网站检索,而目录索引则完整依赖手工操作用户提交网站后,目录编纂人员会亲自阅读您的网站,然后依据一套自定的评判尺度甚至编纂人员的主观印象,决议是否接纳您的网站
其次,搜索引擎收录网站时,只要网站本身没有违背有关的规矩,一般都能登录胜利而目录索引对网站的请求则高得多,有时即使登录多次也不必定胜利尤其象Yahoo!这样的超级索引,登录更是难题(因为登录Yahoo!的难度最大,而它又是商家网络营销必争之地,所以我们会在后面用专门的篇幅介绍登录 Yahoo雅虎的技能)
此外,在登录搜索引擎时,我们一般不用斟酌网站的分类问题,而登录目录索引时则必需将网站放在一个最合适的目录(Directory)
最后,搜索引擎中各网站的有关信息都是从用户网页中主动提取的,所以用户的角度望,我们拥有更多的自主权-而目录索引则请求必需手工另外填写网站信息,而且还有各种各样的限制更有甚者,如果工作人员以为您提交网站的目录、网站信息不合适,他可以随时对其入行调整,当然事先是不会和您磋商的
目录索引,顾名思义就是将网站分门别类地寄存在相应的目录中,因此用户在查询信息时,可选择要害词搜索,也可按分类目录逐层查找如以要害词搜索,返回的成果跟搜索引擎一样,也是依据信息联系关系水平排列网站,只不外其中人为因素要多一些如果按分层目录查找,某一目录中网站的排名则是由题目字母的先后次序决议(也有例外) 目前,搜索引擎与目录索引有相互融会渗入渗出的潮流本来一些纯洁的全文搜索引擎现在也提供目录搜索,如Google就借用Open Directory目录提供分类查询而象 Yahoo! 这些老牌目录索引则通过与Google等搜索引擎合作扩展搜索范畴在默认搜索模式下,一些目录类搜索引擎首先返回的是自己目录中匹配的网站,如海内搜狐、新浪、网易等-而另外一些则默认的是网页搜索,如Yahoo
作者-whwyw
发表时光-2006-06-13 10-44-20
第二部门-搜索引擎原理
搜索引擎并不真正搜索互联网,它搜索的实际上是预先收拾好的网页索引数据库
搜索引擎,也不能真正懂得网页上的内容,它只能机械的匹配网页上的文字
真正意义上的搜索引擎,通常指的是收集了互联网上几千万到几十亿个网页并对网页中的每一个文字(即要害词)入行索引,树立索引数据库的全文搜索引擎当用户查找某个要害词的时候,所有在页面内容中包含了该要害词的网页都将作为搜索成果被搜出来在经由庞杂的算法入行排序后,这些成果将依照与搜索要害词的相干度高下,依次排列
现在的搜索引擎已广泛使用超链剖析技术,除了剖析索引网页本身的文字,还剖析索引所有指向该网页的链接的URL、 AnchorText、甚至链接周围的文字所以,有时候,即使某个网页A中并没有某个词好比“恶魔撒旦”,但如果有别的网页B用链接“恶魔撒旦”指向这个网页A,那么用户搜索“恶魔撒旦”时也能找到网页A而且,如果有越多网页(C、D、E、F……)用名为“恶魔撒旦”的链接指向这个网页A,或者给出这个链接的源网页(B、C、D、E、F……)越优良,那么网页A在用户搜索“恶魔撒旦”时也会被以为更相干,排序也会越靠前
搜索引擎的原理,可以望做三步-从互联网上抓取网页→树立索引数据库→在索引数据库中搜索排序
从互联网上抓取网页
利用能够从互联网上主动收集网页的Spider体系程序,主动拜访互联网,并沿着任何网页中的所有URL爬到其它网页,反复这入程,并把爬过的所有网页收集回来
树立索引数据库
由剖析索引体系程序对收集回来的网页入行剖析,提取相干网页信息(包含网页所在URL、编码类型、页面内容包含的所有要害词、要害词地位、生成时光、大小、与其它网页的链接关系等),依据必定的相干度算法入行大批庞杂盘算,得到每一个网页针对页面文字中及超链中每一个要害词的相干度(或主要性),然后用这些相干信息树立网页索引数据库
在索引数据库中搜索排序
当用户输入要害词搜索后,由搜索体系程序从网页索引数据库中找到符合该要害词的所有相干网页因为所有相干网页针对该要害词的相干度早已算好,所以只需依照现成的相干度数值排序,相干度越高,排名越靠前
最后,由页面生成体系将搜索成果的链接地址和页面内容摘要等内容组织起来返回给用户
搜索引擎的Spider一般要按期重新拜访所有网页(各搜索引擎的周期不同,可能是几天、几周或几月,也可能对不同主要性的网页有不同的更新频率),更新网页索引数据库,以反应出网页文字的更新情形,增添新的网页信息,去除死链接,并依据网页文字和链接关系的变化重新排序这样,网页的详细文字变化情形就会反应到用户查询的成果中
互联网虽然只有一个,但各搜索引擎的才能和偏好不同,所以抓取的网页各不雷同,排序算法也各不雷同大型搜索引擎的数据库储存了互联网上几千万至几十亿的网页索引,数据量到达几千G甚至几万G但即使最大的搜索引擎树立超过二十亿网页的索引数据库,也只能占到互联网上普通网页的不到30%,不同搜索引擎之间的网页数据重叠率一般在70%以下我们使用不同搜索引擎的主要原因,就是因为它们能分离搜索到不同的网页而互联网上有更大批的网页,是搜索引擎无法抓取索引的,也是我们无法用搜索引擎搜索到的
您心里应当有这个概念-搜索引擎只能搜到它网页索引数据库里储存的网页文字信息您也应当有这个概念-如果搜索引擎的网页索引数据库里应当有而您没有搜出来,那是您的才能问题,学习搜索技能可以大幅度进步您的搜索才能
第三部门-常用中英文搜索引擎指南
常用中文搜索引擎
Baidu
www.baidu.com 约9000万中文网页,2周更新一次提供网页快照、网页预览/预览全体网页、相干搜索词、错别字改正提醒、消息搜索、Flash搜索、信息快递搜索、百度搜霸、搜索支援中央Baidu搜索技能
Google中文
www.google.com/intl/zh-CN/ 约7000万中文网页,1月更新一次,部门网页每日更新,由 BasisTechnology提供中文处置技术,搜索相干性高,高等搜索语法丰盛提供Google工具条、网页快照、图像搜索、消息组搜索Google搜索帮助
Openfind中文
www.openfind.com/cn.web.php?u=cn 中文网页数与Baidu或Google相近,更新略慢提供按网页大小或日期排序Openfind查询秘诀
北大天网 http-//e.pku.edu.cn/ 约6000万网页,更新略慢,搜索相干性略低提供天网搜霸、历史网页推举使用强盛的ftp搜索天网使用帮助
Fast/Alltheweb
Inktomi/MSN
Altavista
网络指南针
www.alltheweb.com
www.msn.com
www.av.com
202.112.0.83-8080 Alltheweb收录中文网页约6000万,Inktomi和Altavita大概也以千万计,但因为它们没作中文特别处置,所以用简略的中文要害词可以搜到一些内容,但用稍长一点或组合要害词查询时,搜索后果就很差其它如Wisenut、Gigablast等,也能搜索一点点中文,但因为没做中文特别处置,一样没有搜索价值网络指南针部门索引网页500万,在数据量和相干性上仍有局限,目前也没有搜索价值
常用英文搜索引擎
Google www.google.com 24亿网页(约1/4非全文索引),用户界面杰出,有消息组、图像、消息等搜索,以搜索相干性高驰名
Alltheweb
(Fast) www.alltheweb.com 21亿网页,高等检索强盛,有消息、图片、MP3、Video、ftp,利用ODP对搜索成果简略分类
Altavista www.av.com 约7亿网页,有图像、音频、视频、消息搜索,高等语法强盛,有prisma帮助检索(部门网友需通过p-roxy拜访,无p-roxy可用 qbseach 单选altavista搜索)
Inktomi search.positiontech.com 20亿网页(疑大批非全文索引),技术设置和参数可调性高,支撑的门户搜索数据库和排序多不同,可到 Hotbot使用Inktomi的高等搜索
Northernlight nlresearch.northernlight.com 约7亿网页+7100出版物数据,需选中%26quot-World Wide Web only%26quot-搜索速度略慢,杂志数据有奇特搜索价值,能对成果作简略主动分类,翻页数不限,支撑通配符
Wisenut www.wisenut.com 约14亿网页,网页索引数据库偏老,提供相似简略主动分类和相干检索词的WiseGuide,及预览搜索成果的Sneak-a-Peek
Openfind www.openfind.com 35亿网页(疑大批非全文索引),旧网页死链接多,支撑按网页大小或日期排序
Teoma www.teoma.com 约3亿网页,速度略慢,支撑相似主动分类的Refine-同时提供专业链接目录的Resources
Gigablast www.gigablast.com 1.5亿网页,提供网页快照
注1-如果搜索成果网页中有单词涉及政治敏感内容,网友可能望到服务器被重置的信息,并且短时光内无法使用该搜索引擎,不用紧张,只要等几分钟或换个IP就又能使用了
注2-以上搜索引擎的高等搜索语法详细使用,请去各搜索引擎的Help学习,或集中去 这里查阅
目前,有自己网页索引数据库的英文搜索引擎,一共只有上边9个其它的如Yahoo,AOL,LYCOS,MSN,Looksmart等虽然名为搜索引擎,都没有自己的网页索引数据库,其实都是用的以上搜索引擎的网页索引数据库另外,门户网站的搜索引擎多半默以为分类目录搜索,包袱又多,无法提供专业搜索引擎一样的丰盛功效和统一丰盛的搜索语法,所以在搜索的速度、相干性、数量、易用性上去去与专业搜索引擎差距甚遥,缺少使用价值,就不一一介绍了但以下三个搜索引擎,虽然也没有自己的网页索引数据库,却都有其特点和使用价值,值得搜索引擎9238一提-
Askjeeves www.ask.com 有超过700万的大型问题库,支撑天然语言提问搜索,合适搜索常识性的问题谜底
Vivisimo www.vivisimo.com 元搜索引擎,有目前最好的搜索成果主动分类技术下拉菜单还支撑各消息、购物、独立搜索引擎等的主动分类搜索
Faganfind www.faganfind.com 我们常常会遇到普通网页搜索以外的各种特别搜索需求Faganfind象一个书签,它为几十种特别搜索需求都挑选了多个优良搜索工具,您可以点击子分类入入挑选使用,也可以很便利的直接用它默认的搜索工具(通常它默认推举的都很好
参考材料-http-//www.usb8.cn/bbs/PrintPost.asp?ThreadID=204
了解搜索引擎的工作原理对我们日常搜索利用和网站提交推广都会有很大帮助
全文搜索引擎
在搜索引擎分类部门我们提到过全文搜索引擎从网站提守信息树立网页数据库的概念搜索引擎的主动信息搜集功效分两种一种是按期搜索,即每隔一段时光(好比Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对必定IP地址范畴内的互联网站入行检索,一旦发明新的网站,它会主动提取网站的信息和网址参加自己的数据库
另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在必定时光内(2天到数月不等)定向向您的网站派出“蜘蛛”程序,扫描您的网站并将有关信息存入数据库,以备用户查询因为近年来搜索引擎索引规矩产生了很大变化,主动提交网址并不保证您的网站能入入搜索引擎数据库,因此目前最好的措施是多获得一些外部链接,让搜索引擎有更多机遇找到您并主动将您的网站收录
当用户以要害词查找信息时,搜索引擎会在数据库中入行搜寻,如果找到与用户请求内容相符的网站,便采取特别的算法——通常依据网页中要害词的匹配水平,呈现的地位/频次,链接质量等——盘算出各网页的相干度及排名等级,然后依据联系关系度高下,按次序将这些网页链接返回给用户
目录索引
与全文搜索引擎比拟,目录索引有许多不同之处
首先,搜索引擎属于主动网站检索,而目录索引则完整依赖手工操作用户提交网站后,目录编纂人员会亲自阅读您的网站,然后依据一套自定的评判尺度甚至编纂人员的主观印象,决议是否接纳您的网站
其次,搜索引擎收录网站时,只要网站本身没有违背有关的规矩,一般都能登录胜利而目录索引对网站的请求则高得多,有时即使登录多次也不必定胜利尤其象Yahoo!这样的超级索引,登录更是难题(因为登录Yahoo!的难度最大,而它又是商家网络营销必争之地,所以我们会在后面用专门的篇幅介绍登录 Yahoo雅虎的技能)
此外,在登录搜索引擎时,我们一般不用斟酌网站的分类问题,而登录目录索引时则必需将网站放在一个最合适的目录(Directory)
最后,搜索引擎中各网站的有关信息都是从用户网页中主动提取的,所以用户的角度望,我们拥有更多的自主权-而目录索引则请求必需手工另外填写网站信息,而且还有各种各样的限制更有甚者,如果工作人员以为您提交网站的目录、网站信息不合适,他可以随时对其入行调整,当然事先是不会和您磋商的
目录索引,顾名思义就是将网站分门别类地寄存在相应的目录中,因此用户在查询信息时,可选择要害词搜索,也可按分类目录逐层查找如以要害词搜索,返回的成果跟搜索引擎一样,也是依据信息联系关系水平排列网站,只不外其中人为因素要多一些如果按分层目录查找,某一目录中网站的排名则是由题目字母的先后次序决议(也有例外) 目前,搜索引擎与目录索引有相互融会渗入渗出的潮流本来一些纯洁的全文搜索引擎现在也提供目录搜索,如Google就借用Open Directory目录提供分类查询而象 Yahoo! 这些老牌目录索引则通过与Google等搜索引擎合作扩展搜索范畴在默认搜索模式下,一些目录类搜索引擎首先返回的是自己目录中匹配的网站,如海内搜狐、新浪、网易等-而另外一些则默认的是网页搜索,如Yahoo
作者-whwyw
发表时光-2006-06-13 10-44-20
第二部门-搜索引擎原理
搜索引擎并不真正搜索互联网,它搜索的实际上是预先收拾好的网页索引数据库
搜索引擎,也不能真正懂得网页上的内容,它只能机械的匹配网页上的文字
真正意义上的搜索引擎,通常指的是收集了互联网上几千万到几十亿个网页并对网页中的每一个文字(即要害词)入行索引,树立索引数据库的全文搜索引擎当用户查找某个要害词的时候,所有在页面内容中包含了该要害词的网页都将作为搜索成果被搜出来在经由庞杂的算法入行排序后,这些成果将依照与搜索要害词的相干度高下,依次排列
现在的搜索引擎已广泛使用超链剖析技术,除了剖析索引网页本身的文字,还剖析索引所有指向该网页的链接的URL、 AnchorText、甚至链接周围的文字所以,有时候,即使某个网页A中并没有某个词好比“恶魔撒旦”,但如果有别的网页B用链接“恶魔撒旦”指向这个网页A,那么用户搜索“恶魔撒旦”时也能找到网页A而且,如果有越多网页(C、D、E、F……)用名为“恶魔撒旦”的链接指向这个网页A,或者给出这个链接的源网页(B、C、D、E、F……)越优良,那么网页A在用户搜索“恶魔撒旦”时也会被以为更相干,排序也会越靠前
搜索引擎的原理,可以望做三步-从互联网上抓取网页→树立索引数据库→在索引数据库中搜索排序
从互联网上抓取网页
利用能够从互联网上主动收集网页的Spider体系程序,主动拜访互联网,并沿着任何网页中的所有URL爬到其它网页,反复这入程,并把爬过的所有网页收集回来
树立索引数据库
由剖析索引体系程序对收集回来的网页入行剖析,提取相干网页信息(包含网页所在URL、编码类型、页面内容包含的所有要害词、要害词地位、生成时光、大小、与其它网页的链接关系等),依据必定的相干度算法入行大批庞杂盘算,得到每一个网页针对页面文字中及超链中每一个要害词的相干度(或主要性),然后用这些相干信息树立网页索引数据库
在索引数据库中搜索排序
当用户输入要害词搜索后,由搜索体系程序从网页索引数据库中找到符合该要害词的所有相干网页因为所有相干网页针对该要害词的相干度早已算好,所以只需依照现成的相干度数值排序,相干度越高,排名越靠前
最后,由页面生成体系将搜索成果的链接地址和页面内容摘要等内容组织起来返回给用户
搜索引擎的Spider一般要按期重新拜访所有网页(各搜索引擎的周期不同,可能是几天、几周或几月,也可能对不同主要性的网页有不同的更新频率),更新网页索引数据库,以反应出网页文字的更新情形,增添新的网页信息,去除死链接,并依据网页文字和链接关系的变化重新排序这样,网页的详细文字变化情形就会反应到用户查询的成果中
互联网虽然只有一个,但各搜索引擎的才能和偏好不同,所以抓取的网页各不雷同,排序算法也各不雷同大型搜索引擎的数据库储存了互联网上几千万至几十亿的网页索引,数据量到达几千G甚至几万G但即使最大的搜索引擎树立超过二十亿网页的索引数据库,也只能占到互联网上普通网页的不到30%,不同搜索引擎之间的网页数据重叠率一般在70%以下我们使用不同搜索引擎的主要原因,就是因为它们能分离搜索到不同的网页而互联网上有更大批的网页,是搜索引擎无法抓取索引的,也是我们无法用搜索引擎搜索到的
您心里应当有这个概念-搜索引擎只能搜到它网页索引数据库里储存的网页文字信息您也应当有这个概念-如果搜索引擎的网页索引数据库里应当有而您没有搜出来,那是您的才能问题,学习搜索技能可以大幅度进步您的搜索才能
第三部门-常用中英文搜索引擎指南
常用中文搜索引擎
Baidu
www.baidu.com 约9000万中文网页,2周更新一次提供网页快照、网页预览/预览全体网页、相干搜索词、错别字改正提醒、消息搜索、Flash搜索、信息快递搜索、百度搜霸、搜索支援中央Baidu搜索技能
Google中文
www.google.com/intl/zh-CN/ 约7000万中文网页,1月更新一次,部门网页每日更新,由 BasisTechnology提供中文处置技术,搜索相干性高,高等搜索语法丰盛提供Google工具条、网页快照、图像搜索、消息组搜索Google搜索帮助
Openfind中文
www.openfind.com/cn.web.php?u=cn 中文网页数与Baidu或Google相近,更新略慢提供按网页大小或日期排序Openfind查询秘诀
北大天网 http-//e.pku.edu.cn/ 约6000万网页,更新略慢,搜索相干性略低提供天网搜霸、历史网页推举使用强盛的ftp搜索天网使用帮助
Fast/Alltheweb
Inktomi/MSN
Altavista
网络指南针
www.alltheweb.com
www.msn.com
www.av.com
202.112.0.83-8080 Alltheweb收录中文网页约6000万,Inktomi和Altavita大概也以千万计,但因为它们没作中文特别处置,所以用简略的中文要害词可以搜到一些内容,但用稍长一点或组合要害词查询时,搜索后果就很差其它如Wisenut、Gigablast等,也能搜索一点点中文,但因为没做中文特别处置,一样没有搜索价值网络指南针部门索引网页500万,在数据量和相干性上仍有局限,目前也没有搜索价值
常用英文搜索引擎
Google www.google.com 24亿网页(约1/4非全文索引),用户界面杰出,有消息组、图像、消息等搜索,以搜索相干性高驰名
Alltheweb
(Fast) www.alltheweb.com 21亿网页,高等检索强盛,有消息、图片、MP3、Video、ftp,利用ODP对搜索成果简略分类
Altavista www.av.com 约7亿网页,有图像、音频、视频、消息搜索,高等语法强盛,有prisma帮助检索(部门网友需通过p-roxy拜访,无p-roxy可用 qbseach 单选altavista搜索)
Inktomi search.positiontech.com 20亿网页(疑大批非全文索引),技术设置和参数可调性高,支撑的门户搜索数据库和排序多不同,可到 Hotbot使用Inktomi的高等搜索
Northernlight nlresearch.northernlight.com 约7亿网页+7100出版物数据,需选中%26quot-World Wide Web only%26quot-搜索速度略慢,杂志数据有奇特搜索价值,能对成果作简略主动分类,翻页数不限,支撑通配符
Wisenut www.wisenut.com 约14亿网页,网页索引数据库偏老,提供相似简略主动分类和相干检索词的WiseGuide,及预览搜索成果的Sneak-a-Peek
Openfind www.openfind.com 35亿网页(疑大批非全文索引),旧网页死链接多,支撑按网页大小或日期排序
Teoma www.teoma.com 约3亿网页,速度略慢,支撑相似主动分类的Refine-同时提供专业链接目录的Resources
Gigablast www.gigablast.com 1.5亿网页,提供网页快照
注1-如果搜索成果网页中有单词涉及政治敏感内容,网友可能望到服务器被重置的信息,并且短时光内无法使用该搜索引擎,不用紧张,只要等几分钟或换个IP就又能使用了
注2-以上搜索引擎的高等搜索语法详细使用,请去各搜索引擎的Help学习,或集中去 这里查阅
目前,有自己网页索引数据库的英文搜索引擎,一共只有上边9个其它的如Yahoo,AOL,LYCOS,MSN,Looksmart等虽然名为搜索引擎,都没有自己的网页索引数据库,其实都是用的以上搜索引擎的网页索引数据库另外,门户网站的搜索引擎多半默以为分类目录搜索,包袱又多,无法提供专业搜索引擎一样的丰盛功效和统一丰盛的搜索语法,所以在搜索的速度、相干性、数量、易用性上去去与专业搜索引擎差距甚遥,缺少使用价值,就不一一介绍了但以下三个搜索引擎,虽然也没有自己的网页索引数据库,却都有其特点和使用价值,值得搜索引擎9238一提-
Askjeeves www.ask.com 有超过700万的大型问题库,支撑天然语言提问搜索,合适搜索常识性的问题谜底
Vivisimo www.vivisimo.com 元搜索引擎,有目前最好的搜索成果主动分类技术下拉菜单还支撑各消息、购物、独立搜索引擎等的主动分类搜索
Faganfind www.faganfind.com 我们常常会遇到普通网页搜索以外的各种特别搜索需求Faganfind象一个书签,它为几十种特别搜索需求都挑选了多个优良搜索工具,您可以点击子分类入入挑选使用,也可以很便利的直接用它默认的搜索工具(通常它默认推举的都很好
参考材料-http-//www.usb8.cn/bbs/PrintPost.asp?ThreadID=204