欢迎您,请登录 | 注册 微博 | 腾讯 | 设为首页 | 加入收藏

火学网

咨询电话

您所在的位置:

首页 > 热点资讯 > Robots协议是什么

Robots协议是什么

    发布时间:2020-03-31    作者:火学网

  “三百大战”捧红了“Robots协议”,让广大互联网用户知道了这样一个舶来词。

  Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),Robots协议设定的本意是为了方便搜索引擎更加高效的索引到结果页,方便网民检索以及互联网信息的流动与共享。

  对于网站来说,设置Robots协议主要有三个目的,首先是保护网站内部信息不被搜索引擎爬虫抓取;其次是引导爬虫不要抓取对用户没有价值的信息;最后是为了保护中小网站的流量平衡,避免爬虫快速抓取给网站服务器带来过大压力。

  但通常来说,用户在利用搜索引擎检索到内容网站时,对内容网站并不构成伤害,反而会为内容网站带来更多用户。绝大多数网站非但不会使用Robots协议禁止搜索引擎抓取,反而希望自己的网站内容能够更快、更全面地被搜索引擎收录,并展现在搜索结果的前列,由此也催生出搜索引擎竞价排名、SEO(搜索结果优化)等商业模式。

  最早引入“Robots协议”的搜索巨头谷歌认为,“Robots协议”的宗旨并不是阻止蜘蛛抓取网站内容,而是指导蜘蛛更好地抓取网站内容。它并不是行业规范,同样不具有法律效应,而只是搜索企业之间的一种约定成俗。百度试图通过“Robots协议”来限制竞争对手是不合适的。

  作为“Robots协议”的创始人,MartijnKoster也曾明确说明,“如果该协议被当成市场竞争工具,爬虫不需要采纳”,也就是说如果有相关搜索企业为了市场竞争目的,故意利用“Robots协议”为竞争对手设置门槛和障碍,那么涉事企业不仅可以不遵守“Robots协议”,还能向排他性“Robots协议”缔造者追诉不正当竞争。

  一个致力于为互联网搜索服务的协议,其实具有其两面性:一方面强调商业伦理和契约精神;另一方面也强调防止先发优势的企业设置垄断壁垒。由此可以清晰的看到MartijnKoster创造“Robots协议”的初衷,就是把它用在正当途径为互联网造福。

  令人感到遗憾的是,作为国内搜索引擎的领导厂商,占据绝对话语权的巨头,所作所为非但没有尊重“Robot协议”的本质,更是将“Robot协议”变成了不正当竞争的武器,成为刁难竞争对手的路障。

  通过长达七年的技术积累,依靠360浏览器和360安全网址两个强势的互联网入口。360搜索引擎推出一年后,拿到了近20%的市场份额,使得中国互联网搜索引擎行业重新有了活力,搜索一家独大的局面或能得到改善。

  百度不仅是搜索引擎,同时还是内容提供者,作为内容提供者应允许搜索引擎抓取索引。然而为阻击360搜索,百度通过Robots协议歧视性阻止360搜索对其网站内容进行抓取。还试图通过自身的影响力,说服行业主管部门和行业协会,把Robots协议生搬到中国作为行业标准,以此对搜索领域的对手形成竞争壁垒。

  有专家称,如果把Robots协议生搬到中国,变成行业规范,将会给未来的互联网市场管理带来混乱,歧视性使用Robots协议,将会变成搜索巨头滥用市场支配地位,阻击新公司进入的不正当竞争工具。

  此前,2012年11月1日,中国互联网协会在北京举行《互联网搜索引擎服务自律公约》签约仪式。中国互联网协会胡启恒理事长指出,“公约对非法律条文规定、国际互联网界拥有共识的Robots协议给予了的充分的尊重和肯定。另一方面,互联网是生而自治的,在日后随着互联网技术应用的不断发展,还会有许多新兴问题出现,同时也希望业界能够基于诚信、自主自治的互联网精神来解决互联网的争议,共同讨论和解决出现的问题。”

  《互联网搜索引擎服务自律公约》明确规定,“互联网站所有者设置Robots协议应遵循公平、开放和促进信息自由流动的原则,限制搜索引擎抓取应有行业公认合理的正当理由,不利用Robots协议进行不正当竞争行为,积极营造鼓励创新、公平公正的良性竞争环境。”

  百度、即刻搜索、盘古搜索、奇虎360、盛大文学、搜狗、腾讯、网易、新浪、宜搜、易查无限、中搜等12家发起单位在现场共同签署了《互联网搜索引擎服务自律公约》,表示将自觉遵守自律公约各项规定,不断提升服务水平,努力改善用户体验,积极为搜索引擎服务行业的健康发展贡献力量