什么是蜘蛛协议

发布时间：2010-01-03来源：互联网编辑：圆圆

中文搜索引擎技术揭密-网络蜘蛛
http-//FullSearch.Com 中文全文检索网 2004-9-18 23-15-33 winter
要害词-中文搜索引擎技术揭密

跟着搜索经济的突起，人们开端越加关注全球各大搜索引擎的机能、技术和日流量作为企业，会根据搜索引擎的知名度以及日流量来选择是否要投放广告等-作为普通网民，会根据搜索引擎的机能和技术来选择自己喜欢的引擎查找材料-作为学者，会把有代表性的搜索引擎作为研讨对象……

而作为一个网站的经营者，其更关怀的或许是如何通过网络载体让更多的网民知道自己的网站，入而获得更高的流量和知名度这其中，搜索引擎已经成了一个重要的且是免费的宣扬道路一方面，搜索引擎会主动出击，寻找网络上的各种网页数据，并在后台按相干前提入行索引-另一方面，各大网站为了能让自己的内容更多的通过搜索引擎向网民铺示，都开端对网站构造入行重大调整，其中包含扁平化构造设计、动态（网页）转静态（网页）、Sitemap等

这些望来不经意的举措都让我们切身感触感染到搜索引擎对我们网络使用方法的转变起到了重要作用并且，正因为搜索引擎的兴起以及社会各界对其器重水平日渐高涨，还由此发明了一个全新的职位——SEO实际上，搜索引擎经济的突起，又一次向人们证明了网络所储藏的宏大商机网络分开了搜索将只剩下空泛紊乱的数据，以及大批等候去费力发掘的金矿

搜索引擎一直专注于晋升用户的体验度，其用户体验度则反应在三个方面- 准、全、快用专业术语讲是-查准率、查全率和搜索速度（即搜索耗时）其中最易到达的是搜索速度，因为对于搜索耗时在1秒以下的体系来说，拜访者很难分辨其快慢了，更何况还有网络速度的影响因此，对搜索引擎的评价就集中在了前两者-准、全中文搜索引擎的“准”，须要保证搜索的前几十条成果都和搜索词十分相干，这需由“ 分词技术 ”和“ 排序技术 ”来决议-中文搜索引擎的“全”则需保证不漏掉某些重要的成果，而且能找到最新的网页，这须要搜索引擎有一个强盛的网页收集器，一般称为“网络蜘蛛”，也有鸣“网页机器人”

研讨搜索引擎技术的文章不少，但大部门讨论的是如何评价网页的重要性，对于网络蜘蛛研讨的文章不多网络蜘蛛技术并不是一项十分精深的技术，但要做一个强盛的网络蜘蛛，却非易事在目前磁盘容量已经不是瓶颈的时候，搜索引擎一直在扩大自己的网页数量最大的搜索引擎Google（ http-//www.google.com ）从2002年的10亿网页增添到现在近40亿网页-最近雅虎搜索引擎（ http-//search.yahoo.com/ ）号称收录了45亿个网页-海内的中文搜索引擎百度（ http-//www.baidu.com ）的中文页面从两年前的七千万页增添到了现在的两亿多据估量，整个互联网的网页数到达100多亿，而且每年还在快速增添因此一个优良的搜索引擎，须要不断的优化网络蜘蛛的算法，晋升其机能

或许有些人有疑问，为何搜索引擎须要用网络蜘蛛抓取网站所有的网页，为什么不在搜索者输入要害词后只把那些须要的成果抓取过来?这实际上是效力问题，搜索引擎不可能在搜索时实时去检讨每个网页，而是须要把网页先抓取下来，依照要害词树立好索引，每次搜索的成果都会直接从搜索引擎树立好索引的数据库中查找，然后把成果返回给拜访者关于搜索引擎体系架构方面的知识，本文重要介绍网络蜘蛛的相干技术

网络蜘蛛基础原理

网络蜘蛛即Web Spider，是一个很形象的名字把互联网比方成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛网络蜘蛛是通过网页的链接地址来寻找网页，从网站某一个页面（通常是首页）开端，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直轮回下去，直到把这个网站所有的网页都抓取完为止如果把整个互联网当成一个网站，那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来

对于搜索引擎来说，要抓取互联网上所有的网页几乎是不可能的，从目前颁布的数据来望，容量最大的搜索引擎也不外是抓取了整个网页数量的百分之四十左右这其中的原因一方面是抓取技术的瓶颈，无法遍历所有的网页，有许多网页无法从其它网页的链接中找到-另一个原因是存储技术和处置技术的问题，如果依照每个页面的平均大小为20K盘算（包含图片），100亿网页的容量是100×2000G字节，即使能够存储，下载也存在问题（依照一台机器每秒下载20K盘算，须要340台机器不停的下载一年时光，能力把所有网页下载完毕）同时，因为数据量太大，在提供搜索时也会有效力方面的影响因此，许多搜索引擎的网络蜘蛛只是抓取那些重要的网页，而在抓取的时候评价重要性重要的根据是某个网页的链接深度

在抓取网页的时候，网络蜘蛛一般有两种策略-广度优先和深度优先（如下图所示）广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页，然后再选择其中的一个链接网页，继承抓取在此网页中链接的所有网页这是最常用的方法，因为这个方法可以让网络蜘蛛并行处置，进步其抓取速度深度优先是指网络蜘蛛会从起始页开端，一个链接一个链接跟踪下去，处置完这条线路之后再转入下一个起始页，继承跟踪链接这个方法有个长处是网络蜘蛛在设计的时候比拟容易两种策略的区别，下图的阐明会更加明白

因为不可能抓取所有的网页，有些网络蜘蛛对一些不太重要的网站，设置了拜访的层数例如，在上图中，A为起始网页，属于0层，B、C、D、E、F属于第1层，G、H属于第2层，I属于第3层如果网络蜘蛛设置的拜访层数为2的话，网页I是不会被拜访到的这也让有些网站上一部门网页能够在搜索引擎上搜索到，另外一部门不能被搜索到对于网站设计者来说，扁平化的网站构造设计有助于搜索引擎抓取其更多的网页

网络蜘蛛在拜访网站网页的时候，常常会遇到加密数据和网页权限的问题，有些网页是须要会员权限能力拜访当然，网站的所有者可以通过协定让网络蜘蛛不去抓取（下小节会介绍），但对于一些出售讲演的网站，他们盼望搜索引擎能搜索到他们的讲演，但又不能完整免费的让搜索者查望，这样就须要给网络蜘蛛提供相应的用户名和密码网络蜘蛛可以通过所给的权限对这些网页入行网页抓取，从而提供搜索而当搜索者点击查望该网页的时候，同样须要搜索者提供相应的权限验证

网站与网络蜘蛛

网络蜘蛛须要抓取网页，不同于一般的拜访，如果节制不好，则会引起网站服务器负担过重今年4月，淘宝网（ http-//www.taobao.com ）就因为雅虎搜索引擎的网络蜘蛛抓取其数据引起淘宝网服务器的不稳固网站是否就无法和网络蜘蛛交换呢?其实不然，有多种方法可以让网站和网络蜘蛛入行交换一方面让网站管理员了解网络蜘蛛都来自哪儿，做了些什么，另一方面也告知网络蜘蛛哪些网页不应当抓取，哪些网页应当更新

每个网络蜘蛛都有自己的名字，在抓取网页的时候，都会向网站标明自己的身份网络蜘蛛在抓取网页的时候会发送一个恳求，这个恳求中就有一个字段为User－agent，用于标识此网络蜘蛛的身份例如Google网络蜘蛛的标识为GoogleBot，Baidu网络蜘蛛的标识为BaiDuSpider，Yahoo网络蜘蛛的标识为Inktomi Slurp如果在网站上有拜访日志记载，网站管理员就能知道，哪些搜索引擎的网络蜘蛛过来过，什么时候过来的，以及读了多少数据等等如果网站管理员发明某个蜘蛛有问题，就通过其标识来和其所有者接洽下面是博客中国（ http-//www.blogchina.com ）2004年5月15日的搜索引擎拜访日志-

网络蜘蛛入入一个网站，一般会拜访一个特别的文本文件Robots.txt，这个文件一般放在网站服务器的根目录下，如- http-//www.blogchina.com/robots.txt 网站管理员可以通过robots.txt来定义哪些目录网络蜘蛛不能拜访，或者哪些目录对于某些特定的网络蜘蛛不能拜访例如有些网站的可执行文件目录和临时文件目录不盼望被搜索引擎搜索到，那么网站管理员就可以把这些目录定义为谢绝拜访目录Robots.txt语法很简略，例如如果对目录没有任何限制，可以用以下两行来描写- User-agent- * Disallow-

当然，Robots.txt只是一个协定，如果网络蜘蛛的设计者不遵循这个协定，网站管理员也无法阻止网络蜘蛛对于某些页面的拜访，但一般的网络蜘蛛都会遵循这些协定，而且网站管理员还可以通过其它方法来谢绝网络蜘蛛对某些网页的抓取

网络蜘蛛在下载网页的时候，会去辨认网页的HTML代码，在其代码的部门，会有META标识通过这些标识，可以告知网络蜘蛛本网页是否须要被抓取，还可以告知网络蜘蛛本网页中的链接是否须要被继承跟踪例如- 表现本网页不须要被抓取，但是网页内的链接须要被跟踪

关于Robots.txt的语法和META Tag语法，有兴致的读者查望文献[4]

现在一般的网站都盼望搜索引擎能更全面的抓取自己网站的网页，因为这样可以让更多的拜访者能通过搜索引擎找到此网站为了让本网站的网页更全面被抓取到，网站管理员可以树立一个网站地图，即Site Map许多网络蜘蛛会把sitemap.htm文件作为一个网站网页爬取的进口，网站管理员可以把网站内部所有网页的链接放在这个文件里面，那么网络蜘蛛可以很便利的把整个网站抓取下来，避免漏掉某些网页，也会减小对网站服务器的负担

内容提取

搜索引擎树立网页索引，处置的对象是文本文件对于网络蜘蛛来说，抓取下来网页包含各种格局，包含html、图片、doc、pdf、多媒体、动态网页及其它格局等这些文件抓取下来后，须要把这些文件中的文本信息提掏出来正确提取这些文档的信息，一方面对搜索引擎的搜索正确性有重要作用，另一方面对于网络蜘蛛正确跟踪其它链接有必定影响

对于doc、pdf等文档，这种由专业厂商提供的软件生成的文档，厂商都会提供相应的文本提取接口网络蜘蛛只须要调用这些插件的接口，就可以轻松的提取文档中的文本信息和文件其它相干的信息

HTML等文档不一样，HTML有一套自己的语法，通过不同的命令标识符来表现不同的字体、色彩、地位等版式，如-、、等，提取文本信息时须要把这些标识符都过滤掉过滤标识符并非难事，因为这些标识符都有必定的规矩，只要依照不同的标识符取得相应的信息即可但在辨认这些信息的时候，须要同步记载许多版式信息，例如文字的字体大小、是否是题目、是否是加粗显示、是否是页面的要害词等，这些信息有助于盘算单词在网页中的重要水平同时，对于HTML网页来说，除了题目和正文以外，会有许多广告链接以及公共的频道链接，这些链接和文本正文一点关系也没有，在提取网页内容的时候，也须要过滤这些无用的链接例如某个网站有“产品介绍”频道，因为导航条在网站内每个网页都有，若不外滤导航条链接，在搜索“产品介绍”的时候，则网站内每个网页都会搜索到，无疑会带来大批垃圾信息过滤这些无效链接须要统计大批的网页构造规律，抽取一些共性，统一过滤-对于一些重要而成果特别的网站，还须要个别处置这就须要网络蜘蛛的设计有必定的扩大性

对于多媒体、图片等文件，一般是通过链接的锚文本（即，链接文本）和相干的文件注释来断定这些文件的内容例如有一个链接文字为“张曼玉照片”，其链接指向一张bmp格局的图片，那么网络蜘蛛就知道这张图片的内容是“张曼玉的照片”这样，在搜索“张曼玉”和“照片”的时候都能让搜索引擎找到这张图片另外，许多多媒体文件中有文件属性，斟酌这些属性也可以更好的了解文件的内容
动态网页一直是网络蜘蛛面临的难题所谓动态网页，是相对于静态网页而言，是由程序主动生成的页面，这样的利益是可以快速统一更改网页作风，也可以减少网页所占服务器的空间，但同样给网络蜘蛛的抓取带来一些麻烦因为开发语言不断的增多，动态网页的类型也越来越多，如-asp、jsp、php等这些类型的网页对于网络蜘蛛来说，可能还轻微容易一些网络蜘蛛比拟难于处置的是一些脚本语言（如VBScript和JavaScript）生成的网页，如果要完美的处置好这些网页，网络蜘蛛须要有自己的脚本阐明程序对于许多数据是放在数据库的网站，须要通过本网站的数据库搜索能力获得信息，这些给网络蜘蛛的抓取带来很大的难题对于这类网站，如果网站设计者盼望这些数据能被搜索引擎搜索，则须要提供一种可以遍历整个数据库内容的方法

对于网页内容的提取，一直是网络蜘蛛中重要的技术整个体系一般采取插件的情势，通过一个插件管理服务程序，遇到不同格局的网页采取不同的插件处置这种方法的利益在于扩充性好，以后每发明一种新的类型，就可以把其处置方法做成一个插件弥补到插件管理服务程序之中

更新周期

因为网站的内容常常在变化，因此网络蜘蛛也需不断的更新其抓取网页的内容，这就须要网络蜘蛛依照必定的周期去扫描网站，查望哪些页面是须要更新的页面，哪些页面是新增页面，哪些页面是已经由时的死链接
搜索引擎的更新周期对搜索引擎搜索的查全率有很大影响如果更新周期太长，则总会有一部门新生成的网页搜索不到-周期过短，技术实现会有必定难度，而且会对带宽、服务器的资源都有挥霍搜索引擎的网络蜘蛛并不是所有的网站都采取统一个周期入行更新，对于一些重要的更新量大的网站，更新的周期短，如有些消息网站，几个小时就更新一次-相反对于一些不重要的网站，更新的周期就长，可能一两个月才更新一次
一般来说，网络蜘蛛在更新网站内容的时候，不用把网站网页重新抓取一遍，对于大部门的网页，只须要断定网页的属性（重要是日期），把得到的属性和上次抓取的属性比拟拟，如果一样则不用更新

结论

本文重要讨论了网络蜘蛛相干的技术要点，如果要设计好的网络蜘蛛，须要了解更多的技术细节，可以参考文献

网络蜘蛛在搜索引擎中据有重要地位，对搜索引擎的查全、查准都有影响，决议了搜索引擎数据容量的大小，而且网络蜘蛛的好坏直接影响搜索成果页中的死链接（即链接所指向的网页已经不存在）的个数目前如何发明更多的网页、如何正确提取网页内容、如果下载动态网页、如何提供抓取速度、如何辨认网站内内容雷同的网页等都是网络蜘蛛须要入一步改良的问题

本文地址-http-//www.FullSearcher.Com/n2004911142713735.asp
网站地址-http-//www.FullSearcher.Com/