bot|公众号可被搜索引擎抓取，微信要更“互联互通”_product|im|im5.0|水晶球|声网|实时

微信公众号的内容只能在微信中看，这可以说早在多年前就已经成为用户的共识。不过最近有消息显示，微信公众号的内容可以被谷歌和必应等搜索引擎搜索到，难道这意味着微信公众号要冲出国门，走向世界？

文章插图
但腾讯方面很快就给出了回应，并表示是因为近期平台技术升级，公众号的robots协议出现了漏洞，致使外部爬虫技术可抓取部分公众号内容，但目前漏洞已修复。按照这一说法，这一次的情况只是技术操作失误。
那么，导致公众号内容出现在海外搜索引擎山上的“元凶”robots协议是什么呢？事实上，robots协议也叫robots.txt，是一种存放于网站根目录下的ASCII编码文本文件，它的唯一作用就是告诉搜索引擎的user-agent（网络蜘蛛），网站中的哪些内容是不对搜索引擎蜘蛛开放，哪些内容又可以被抓取的。

文章插图
作为控制网站被搜索引擎抓取内容的一种策略，该文件一般会放在网站的根目录里，也就是/robots.txt。因此可以直接在网站域名后加上/robots.txt，就能访问到该网站的robots协议页面。
我们以淘宝的“https://www.taobao.com/robots.txt”为例可以看到，这家电商网站采用的robots协议其实非常简单，“User-agent”主要作用是告诉网站服务器，访问者是通过什么工具来请求的，而后面的“Baiduspider”就是大名鼎鼎的百度搜索引擎蜘蛛，而最后的“Disallow: /”，按照robots协议的规则，是禁止被描述的搜索引擎蜘蛛（百度）访问网站的任何部分。

文章插图
其实早在2008年9月百度搜索引擎就已经被淘宝屏蔽，而这几行简简单单的代码，也让淘宝在战略层面掌握了竞争的主动权，避免了流量被百度搜索引擎拿走，同时也避免了平台内的商家要给百度竞价排名付费的可能，更是间接催生了淘宝的竞价排名体系。
而对于微信来说同样也是如此，此前微信公众号的内容只支持在该应用的搜一搜功能，或是腾讯旗下的搜狗搜索引擎中搜索到。这主要要因为用户上网冲浪的最终目地往往是消费内容，而内容、特别是高质量的原创内容更是天然的流量来源，这些内容可以帮助微信形成封闭的商业生态。所以让用户只能在体系内访问微信公众号的内容，也就成为了微信保护私域流量的关键。
那么问题就来了，robots协议会出现漏洞吗？答案是肯定的。robots协议从本质上来说就是网站运营方提供的规则，然而是规则就免不了出现漏洞。不过robots协议也很难出现问题，因为它的书写非常简单、逻辑也很直白，允许什么搜索引擎爬虫访问什么内容都可以清晰地表述出来。特别是微信这种协议非常简单的规则，仅面向自己的应用内搜索和搜狗搜索开放的robots协议，基本也不会有什么多余的内容。

文章插图
更为重要的一点是，robots协议本身其实是一个“君子协议”，是一个搜索引擎与网站之间的共识，并没有任何法律效力，也没有任何技术约束。所以换句话来说，这也意味着robots协议从技术层面是无法与搜索引擎爬虫对抗的。

文章插图
例如，一些网站如果不想让爬虫占据自家宝贵的服务器资源，往往就会直接在robots.txt文件中写上这样的规则，“User-agent: Googlebot，Allow: / User-agent: *，Disallow: /”，意思是本网站仅允许谷歌爬虫抓取，拒绝其他任何搜索引擎。