您的位置:首页>>互联网

Robots协议:友好沟通工具而不是竞争武器

发布时间:2013-10-12 13:10:57  来源:互联网    采编:即时新闻  背景:

  Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。Robots协议的本质是网站和搜索引擎爬虫的沟通方式,用来指导搜索引擎更好地抓取网站内容,而不是作为搜索引擎之间互相限制和不正当竞争的工具。

  在2012年由中国互联网协会举行的《互联网搜索引擎服务自律公约》签约仪式上,百度、即刻搜索、奇虎360、搜狗等12家搜索引擎服务企业签署公约,共同承诺:互联网站所有者设置Robots协议应遵循公平、开放和促进信息自由流动的原则,限制搜索引擎抓取应有行业公认合理的正当理由,不利用Robots协议进行不正当竞争行为,积极营造鼓励创新、公平公正的良性竞争环境。

  Robots协议初衷:保护网站内部信息,保护服务器流量平衡

  在互联网发展早期,搜索引擎还没有为网站带来明显的商业价值,搜索引擎爬虫也没有受到网站的普遍欢迎,主要有如下原因:

  一、快速抓取导致网站过载,影响网站正常运行;

  二、重复抓取相同的文件,抓取层级很深的虚拟树状目录,浪费服务器资源;

  三、抓取网站管理后台等内部敏感信息,或抓取临时文件等对用户没有价值的信息;

  四、抓取会对投票等CGI脚本造成负面影响,可能出现虚假的投票结果。

  Robots协议正是针对搜索引擎爬虫的这些弊端而设计的约束措施。1994年,Robots协议由荷兰籍网络工程师Martijn Koster首次提出,Martijn Koster也因此被誉为“Robots之父”。之后直到2008年6月,Yahoo、Google和MSN Live Search共同通过非官方途径宣布采纳该标准,各大搜索引擎公司开始对Robots协议进行商业研究,各种公司标准的Robots协议开始产生。

  对于网站来说,设置Robots协议主要有三个目的,首先是保护网站内部信息不被搜索引擎爬虫抓取;其次是引导爬虫不要抓取对用户没有价值的信息;最后是为了保护中小网站的流量平衡,避免爬虫快速抓取给网站服务器带来过大压力。

  但通常来说,用户在利用搜索引擎检索到内容网站时,对内容网站并不构成伤害,反而会为内容网站带来更多用户。绝大多数网站非但不会使用Robots协议禁止搜索引擎抓取,反而希望自己的网站内容能够更快、更全面地被搜索引擎收录,并展现在搜索结果的前列,由此也催生出搜索引擎竞价排名、SEO(搜索结果优化)等商业模式。

  Robots协议使用现状:绝大多数网站对搜索引擎一视同仁

  Robots协议也就是robots.txt文本文件,当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt。如果存在,搜索爬虫就会按照该文件中的内容来确定访问的范围;如果robots.txt文件不存在,搜索爬虫将会抓取网站上所有没有被口令保护的页面。

  商业网站大多会在robots.txt中提供SiteMap文件链接地址,为搜素引擎指路,方便爬虫更好地抓取网站内容。此外,网站也可以使用robots.txt屏蔽网站中一些比较大的文件,如:视频、图片等,节省服务器带宽,也可以屏蔽网站的一些死链接。

  Robots协议的写法包括两类:

  一类是对所有的网络爬虫一视同仁,使用UserAgent * 这样的写法,明确写明不允许抓取的目录,这也是国际上商业网站Robots协议的主流用法,在Alexa的网站排行榜上选取前100个有Robots协议文件的国外网站,其中有85个站点使用了Original Robots协议规范,即不设置任何黑白名单,对所有爬虫一视同仁,或只针对部分爬虫做细微的规则指导,但是不禁止任何爬虫抓取;

  另一类是如Facebook、LinkedIn、Twitter这种采用黑白名单机制写robots.txt的网站,在robots.txt中针对每种网络爬虫规定哪些目录不能抓取,LinkedIn在robots.txt文件中还列出了申请将网络爬虫加入白名单中的联系方法。Alexa上有Robots协议文件的TOP100网站中,有15个网站在robots.txt中设置了黑白名单,但只有一个是对通用搜索引擎的爬虫进行了黑名单设置,其他都是针对一些非通用搜索引擎的特殊爬虫设置黑名单。

  Robots协议的误区:并非真正意义的“协议”

  Robots协议虽然名为“协议”,但只是行业惯用的说法,它并非真正意义上的协议,也不受任何机构保护。

  “Robots之父”Martijn Koster对Robots协议的性质进行了如下阐述:Robots协议是一个未经标准组织备案的非官方标准,它也不属于任何商业组织。本协议不受任何机构保护,所有现有和未来的机器人不一定使用本协议。Robots协议是Robot创作者们向互联网社区提供的用来保护互联网服务器免受骚扰的一个通用工具。

  早在1997年,Martijn Koster曾向IETF(互联网工程任务组)提交申请,试图把Robots协议作为该组织规范,但被IETF拒绝。之后,国际电信联盟(ITU)、万维网联盟(W3C)的规范也同样拒绝采纳Robots协议。欧美电信专家担心,由于Robots协议包含排斥性条款,搜索巨鳄可能会利用Robots协议的条款,迫使某些热门网站与其签署排他性协议,从而将后起竞争者挡在门外,维护垄断。

  在2012年11月1日,中国互联网协会在北京举行《互联网搜索引擎服务自律公约》签约仪式。据中国互联网协会胡启恒理事长介绍,“本次公约的制定充分体现了互联网的精神,一方面,公约对非法律条文规定、国际互联网界拥有共识的Robost协议给予了的充分的尊重和肯定。另一方面,互联网是生而自治的,在日后随着互联网技术应用的不断发展,还会有许多新兴问题出现,同时也希望业界能够基于诚信、自主自治的互联网精神来解决互联网的争议,共同讨论和解决出现的问题。”

  《互联网搜索引擎服务自律公约》明确规定,“互联网站所有者设置Robots协议应遵循公平、开放和促进信息自由流动的原则,限制搜索引擎抓取应有行业公认合理的正当理由,不利用Robots协议进行不正当竞争行为,积极营造鼓励创新、公平公正的良性竞争环境。”

  百度、即刻搜索、盘古搜索、奇虎360、盛大文学、搜狗、腾讯、网易、新浪、宜搜、易查无限、中搜等12家发起单位在现场共同签署了《互联网搜索引擎服务自律公约》,表示将自觉遵守自律公约各项规定,不断提升服务水平,努力改善用户体验,积极为搜索引擎服务行业的健康发展贡献力量。




关注ITBear科技资讯公众号(itbear365 ),每天推送你感兴趣的科技内容。

特别提醒:本网内容转载自其他媒体,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。


返回网站首页 本文来源:互联网

本文评论
天翼10年 为美好加速
11月23日,在用户代表、智能终端品牌厂商、渠道合作伙伴、江苏知名媒体的共同见证下,中国电信江苏...
日期:11-24
上海移动大流量宽带融合套餐缘何倍受欢迎?“四新”成果惹人眼红!
魔都,中国发展最快的城市之一,无数个变化每一天都在生活在这里的人们身边发生。日新月异之中,总...
日期:11-23
华为云应用编排  手把手教您轻松搭建TensorFlow环境
随着全球科技变革的推进,人工智能成为各大公司的研究热点和战略重心。TensorFlow是谷歌推出的开源...
日期:11-23
20年一道坎,互联网巨头们的生死劫
欢迎关注“创事记”的微信订阅号:sinachuangshiji
日期:11-23
CCTV-1《生活圈》联合趣头条APP活动征集
11月22日CCTV-1《生活圈》栏目携手移动内容平台趣头条APP发起征集活动,主题为“第一次见丈母...
日期:11-22
中国网络安全细分领域矩阵图发布  安博通影响力持续上升
简介:安博通入选态势感知矩阵,综合排名第7位
  2018年11月21日,安全媒体安全牛首次发布《...
日期:11-22
这群人踏遍960万平方公里,拍下了16582张日常,告诉你祖国有多美!
无论生活在哪座城市,我们出门都离不开手机地图!只要打开手机,动一动手指就能找到你想要的目的地。...
日期:11-21
UC开创视频AI交互新模式  270万用户剁手“灌篮”圈球大作战
近日,频上热搜的篮球竞技类综艺节目《这!就是灌篮》决出总冠军,优酷超12亿总播放量,见证了热血篮...
日期:11-21
中德合作结出新硕果 人工智能助力粤港澳经济发展
作为新一轮产业变革的核心驱动力,当人工智能遇到“机遇之城”珠海,二者将擦出怎样的火...
日期:11-21
云知声 AI 全栈能力再获突破!人脸识别技术达业界领先水平
《经济学人》杂志称:许多硅谷公司以“全栈”(fullstack)而自豪。其原意指打造一套完整的...
日期:11-21
打造智慧生活场景  分布式路由Mesh WiFi技术开启家庭无缝覆盖时代
现在最新最有效的家庭WiFi组网方法,你知道是什么吗?无线扩展器、电力猫,高功率路由器…&hel...
日期:11-21
知道创宇赵伟:态势感知是承载网络安全产业的航空母舰
面对新的安全形势,传统安全体系正在遭遇瓶颈,需要进一步提升安全运营水平的同时积极的开展主动防...
日期:11-21
亚马逊直销苹果产品,小卖家躺着赚钱的机会不再
11月21日消息,据国外媒体报道,本月亚马逊与苹果达成了一项协议,亚马逊能够直销诸如iPhone XS、iP...
日期:11-21
从优秀到伟大  虎牙探索游戏直播平台新时代的使命
近日,虎牙(NYSE:HUYA)公布了2018年第三季度财报。在这个刚刚结束的季度,虎牙多项关键指标表现抢...
日期:11-19
KoiMiner 6.0盯上SQL Server服务器 腾讯智慧安全展开全面防御
作为一个远程桌面的端口,1433端口主要供SQL Server(微软公司开发的数据库系统)对外提供服务。由于...
日期:11-19
谷歌拟推出用户实名评价搜索结果功能
北京时间11月19日上午消息,据外媒“Search Engine Journal”报道,谷歌打算推出一项的新...
日期:11-19
互联网太老了 2030年有望出现新一代互联网
你可曾想过,当我们兴奋的畅谈美好智能时代的时候,我们的网络世界却还未到达现实世界的智慧?原因就...
日期:11-19
百度云计算中心深谙IDC发展之道 安全是目标 能耗是方向
随着《国务院关于加快发展节能环保产业的意见》、《国家绿色数据中心试点工作方案》等等政策的陆续...
日期:11-19
谷歌安卓应用防护增强:号称一个应用也不漏过
11月19日消息 据ZDNet消息,谷歌用于扫描用户手机所安装应用的服务Google Play Protect已经大大增强...
日期:11-19
海南首个5G基站开通:进入5G预商用时代
根据海南日报的报道,11月16日,海南移动在海口开通海南省首个5G基站,标志着海南进入5G预商用时代...
日期:11-19