站长吐槽:头条搜索爬虫暴力抓取网站内容

站长吐槽:头条搜索爬虫暴力抓取网站内容


"multi_version":false

最近有站长在网上发文吐槽表示 , 字节跳动为了快速发展搜索业务派出爬虫四处暴力抓取网站内容 , 部分配置较低的网站已经直接瘫痪 , 给中小网站主们造成了很大的损失和困扰 , 严重影响了网站正常的用户访问 。

该站长表示 , 今年7月份 , 他突然发现公司的网站经常性打不开 , 网页加载极其缓慢 , 有时甚至直接瘫痪 。 经过一系列排查后 , 在服务器日志上发现了bytespider爬虫的痕迹 。 该爬虫抓取的频率每天达几百万次 , 高则上千万次 , 服务器带宽负载飙至100% , 而且该爬虫在抓取时完全不遵守网站的robots协议 。

该站长顺着该爬虫的IP地址查询 , 证实 , 该爬虫就是字节跳动的搜索爬虫 。

并且 , 在CSDN、V2EX等技术论坛也了解到 , 从字节跳动开始做搜索之后 , 其实网络上就一直有站长抱怨头条搜索爬虫抓取过于暴力的声音 , 遭受字节跳动的搜索爬虫暴力抓取的不是个例 , 很多小网站他们也没放过 。

推荐阅读