Robots协议:友好沟通工具而不是竞争武器-ITBEAR科技资讯
您的位置:首页>>互联网
搜索: 标题  

Robots协议:友好沟通工具而不是竞争武器

发布时间:2013-10-12 13:10:57  来源:互联网   编辑:即时新闻  背景:

  Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。Robots协议的本质是网站和搜索引擎爬虫的沟通方式,用来指导搜索引擎更好地抓取网站内容,而不是作为搜索引擎之间互相限制和不正当竞争的工具。

  在2012年由中国互联网协会举行的《互联网搜索引擎服务自律公约》签约仪式上,百度、即刻搜索、奇虎360、搜狗等12家搜索引擎服务企业签署公约,共同承诺:互联网站所有者设置Robots协议应遵循公平、开放和促进信息自由流动的原则,限制搜索引擎抓取应有行业公认合理的正当理由,不利用Robots协议进行不正当竞争行为,积极营造鼓励创新、公平公正的良性竞争环境。

  Robots协议初衷:保护网站内部信息,保护服务器流量平衡

  在互联网发展早期,搜索引擎还没有为网站带来明显的商业价值,搜索引擎爬虫也没有受到网站的普遍欢迎,主要有如下原因:

  一、快速抓取导致网站过载,影响网站正常运行;

  二、重复抓取相同的文件,抓取层级很深的虚拟树状目录,浪费服务器资源;

  三、抓取网站管理后台等内部敏感信息,或抓取临时文件等对用户没有价值的信息;

  四、抓取会对投票等CGI脚本造成负面影响,可能出现虚假的投票结果。

  Robots协议正是针对搜索引擎爬虫的这些弊端而设计的约束措施。1994年,Robots协议由荷兰籍网络工程师Martijn Koster首次提出,Martijn Koster也因此被誉为“Robots之父”。之后直到2008年6月,Yahoo、Google和MSN Live Search共同通过非官方途径宣布采纳该标准,各大搜索引擎公司开始对Robots协议进行商业研究,各种公司标准的Robots协议开始产生。

  对于网站来说,设置Robots协议主要有三个目的,首先是保护网站内部信息不被搜索引擎爬虫抓取;其次是引导爬虫不要抓取对用户没有价值的信息;最后是为了保护中小网站的流量平衡,避免爬虫快速抓取给网站服务器带来过大压力。

  但通常来说,用户在利用搜索引擎检索到内容网站时,对内容网站并不构成伤害,反而会为内容网站带来更多用户。绝大多数网站非但不会使用Robots协议禁止搜索引擎抓取,反而希望自己的网站内容能够更快、更全面地被搜索引擎收录,并展现在搜索结果的前列,由此也催生出搜索引擎竞价排名、SEO(搜索结果优化)等商业模式。

  Robots协议使用现状:绝大多数网站对搜索引擎一视同仁

  Robots协议也就是robots.txt文本文件,当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt。如果存在,搜索爬虫就会按照该文件中的内容来确定访问的范围;如果robots.txt文件不存在,搜索爬虫将会抓取网站上所有没有被口令保护的页面。

  商业网站大多会在robots.txt中提供SiteMap文件链接地址,为搜素引擎指路,方便爬虫更好地抓取网站内容。此外,网站也可以使用robots.txt屏蔽网站中一些比较大的文件,如:视频、图片等,节省服务器带宽,也可以屏蔽网站的一些死链接。

  Robots协议的写法包括两类:

  一类是对所有的网络爬虫一视同仁,使用UserAgent * 这样的写法,明确写明不允许抓取的目录,这也是国际上商业网站Robots协议的主流用法,在Alexa的网站排行榜上选取前100个有Robots协议文件的国外网站,其中有85个站点使用了Original Robots协议规范,即不设置任何黑白名单,对所有爬虫一视同仁,或只针对部分爬虫做细微的规则指导,但是不禁止任何爬虫抓取;

  另一类是如Facebook、LinkedIn、Twitter这种采用黑白名单机制写robots.txt的网站,在robots.txt中针对每种网络爬虫规定哪些目录不能抓取,LinkedIn在robots.txt文件中还列出了申请将网络爬虫加入白名单中的联系方法。Alexa上有Robots协议文件的TOP100网站中,有15个网站在robots.txt中设置了黑白名单,但只有一个是对通用搜索引擎的爬虫进行了黑名单设置,其他都是针对一些非通用搜索引擎的特殊爬虫设置黑名单。

  Robots协议的误区:并非真正意义的“协议”

  Robots协议虽然名为“协议”,但只是行业惯用的说法,它并非真正意义上的协议,也不受任何机构保护。

  “Robots之父”Martijn Koster对Robots协议的性质进行了如下阐述:Robots协议是一个未经标准组织备案的非官方标准,它也不属于任何商业组织。本协议不受任何机构保护,所有现有和未来的机器人不一定使用本协议。Robots协议是Robot创作者们向互联网社区提供的用来保护互联网服务器免受骚扰的一个通用工具。

  早在1997年,Martijn Koster曾向IETF(互联网工程任务组)提交申请,试图把Robots协议作为该组织规范,但被IETF拒绝。之后,国际电信联盟(ITU)、万维网联盟(W3C)的规范也同样拒绝采纳Robots协议。欧美电信专家担心,由于Robots协议包含排斥性条款,搜索巨鳄可能会利用Robots协议的条款,迫使某些热门网站与其签署排他性协议,从而将后起竞争者挡在门外,维护垄断。

  在2012年11月1日,中国互联网协会在北京举行《互联网搜索引擎服务自律公约》签约仪式。据中国互联网协会胡启恒理事长介绍,“本次公约的制定充分体现了互联网的精神,一方面,公约对非法律条文规定、国际互联网界拥有共识的Robost协议给予了的充分的尊重和肯定。另一方面,互联网是生而自治的,在日后随着互联网技术应用的不断发展,还会有许多新兴问题出现,同时也希望业界能够基于诚信、自主自治的互联网精神来解决互联网的争议,共同讨论和解决出现的问题。”

  《互联网搜索引擎服务自律公约》明确规定,“互联网站所有者设置Robots协议应遵循公平、开放和促进信息自由流动的原则,限制搜索引擎抓取应有行业公认合理的正当理由,不利用Robots协议进行不正当竞争行为,积极营造鼓励创新、公平公正的良性竞争环境。”

  百度、即刻搜索、盘古搜索、奇虎360、盛大文学、搜狗、腾讯、网易、新浪、宜搜、易查无限、中搜等12家发起单位在现场共同签署了《互联网搜索引擎服务自律公约》,表示将自觉遵守自律公约各项规定,不断提升服务水平,努力改善用户体验,积极为搜索引擎服务行业的健康发展贡献力量。




返回网站首页 本文来源:互联网

本文评论
【晚报】苹果又要推出新接口    三星SDI天津工厂起火
三星SDI合资方回应天津厂爆炸:工厂仍正常生产;微软小冰“操刀者”王永东任微软全球资深副总裁;继Lightning和USB-C后,苹果将再推一款新接口;苹果翻新手机印度“合法化”遇阻;苹果独占全球智能手机利润92% 三星只有9%;苹果Apple Watch霸主地位遭动摇;Google Brain创造像素化图像技术;夏普计划在美国建液晶面板工场 或于今年上半年动工;
日期:02-08
Google Brain创造像素化图像技术
Google Brain计划现在已经创建了一个新的软件,可以从微小的像素图像当中创建出详细的图像。这种新...
日期:02-08
渠道收割之后,互联网手机如何冲出泥沼?
IDC、Counterpoint等相继公布了2016年智能手机的销量数据,尽管在排名上彼此有些出入,无不指向了同...
日期:02-08
2017年的渠道战争,将是中国手机行业决定排名的最后一战
2016年结束了,中国智能手机行业的最血腥的一年也终于随着各统计公司的数据发布也落幕了。
日期:02-08
赵雷刷屏科技圈,2017年行业到底怎么了
作为一个科技圈的媒体人士,我拥有近5000名的行业好友,但是最近几天看到,在朋友圈里出...
日期:02-08
直播新政明日起实施 行业洗牌分化加剧
11月30日上方网消息,国家网信办在11月4日发布了《互联网直播服务管理规定》(以下简称《规定》),对...
日期:02-08
【晚报】Facebook股东要求扎克伯格放弃董事长职位   iPhone 6P充电时起火
苹果获准设厂 智能手机“混战”印度;Facebook股东要求扎克伯格放弃董事长职位;iPhone 6P充电时起火 苹果回应正在调查事故原因;快手或于今年下半年赴美上市 目前估值30亿美元;授权协议达成,黑莓手机将正式登陆印度;沃尔玛半年内三度增持京东;苹果iPad Mini或将于3月发布 配置及售价曝光;英国通信巨头公开支持谷歌:担心苹果壮大;
日期:02-07
上一个鸡年中国互联网啥样子:BAT在等待中求生
  一百年一个世纪,六十年一个甲子,十二年一个轮回。2017年,我们又来到了一个新的鸡年。
日期:02-07
【晚报】苹果真的要印度生产了!   格力手机要求高价赎回
苹果真的要印度生产了!格力手机要求高价赎回;前联想之星合伙人刘维正式加盟百度;传闻好久的 Google 智能手表将在三天后到来;OPPO成为2016年国内手机出货量冠军;东芝拆分半导体业务 拟发优先股融资27亿美元;
日期:02-06
移动互联网“下乡”:娱乐为王 微信只是QQ替代品
中国互联网已经迈入10亿网民时代,刨除资费承受能力的限制,移动互联网让一线城市和偏远农村上网手段...
日期:02-06
“新零售”突袭O2O后时代 线上线下资本再交锋
带着思念归乡,带着思索回到岗位。
在刚刚过去的春节长...
日期:02-06
马化腾看不懂的Snapchat是如何一步步走向上市的
马化腾曾经说,它也看不懂Snapchat为什么受年轻人喜爱。
日期:02-06
【晚报】谷歌5亿美元买的卫星图像公司要被“贱卖”了     FF回应产能缩水
 花5亿美元买来的卫星图像公司,谷歌现在要“贱卖”了;传联想任命副总裁:来自三星,负责移动中国业务产品管理;FF回应产能缩水:会逐步将工厂建设目标实施;Alphabet列出新对手 苹果和亚马逊在列;诺基亚两款新机获得认证 或将于月底发布;2016年智能手机出货量:小米首度被OPPO、vivo挤出前五;
日期:02-04
【晚报】柯洁四月与AlphaGo再战三番棋 库克两周内狂抛13万股苹果股票
柯洁四月与AlphaGo战三番棋:人类将组团挑战AI;库克两周内狂抛13万股苹果股票 套现1600万美元;法拉第未来工厂规模大幅缩减,产能减至1万辆;特斯拉公司改名 去掉汽车二字;夏普被鸿海收购后起死回生 两年来首现盈利;Uber宣布2月10日起暂停在台湾营运;Uber CEO宣布退出特朗普经济顾问团队。
日期:02-03
全国各地电视台被小黄车霸屏?连央视都未幸免
大年三十晚,在全国人民围坐年夜饭桌期待春晚时,央视《新闻联播》对席卷全国的ofo共享单车春节免费...
日期:01-31
春节你骑小黄车了吗?ofo正引领春节绿色出行新风潮
春节假期这几天,不知细心的你,有没有发现?全国各地街头上,到处是骑着“小黄车”悠闲前...
日期:01-30
霸屏苹果官网的中国女孩:我是插画师
  倪传婧(Victo Ngai),这个年轻的中国女孩,因为给苹果官网设计中国农...
日期:01-30
春节期间发朋友圈 要注意这些个人信息不能晒
根据安全人员的研究,朋友圈越来越成了敏感信息泄露的“重灾区”。春节是合家团圆的时节...
日期:01-29
Twitter推出Explore按钮 提供趋势发现功能
北京时间1月27日早间消息,Twitter近期对移动应用进行了改版,其中的“Moments”按钮被替...
日期:01-27
QQ悄然升级好友添加上限
如果你是一个爱好网络交友的用户,QQ在近段时间的一个小升级,绝对会让你无压力添加更多好友,日前...
日期:01-27