非法爬取简历、网贷、淘宝……还有啥信息不扒不卖( 六 )

有卖家告诉南都采访人员,此类判决书可以根据客户需要的条件检索爬取,只要给出案件类型、审判程序、案由等关键词,就可以按类别进行海量数据导出,最终交付形式是Word或者Excel格式,提供SQL文件(数据库脚本文件)。

此前,有不少用户反映裁判文书网网站运行速度慢,故障频繁,经常出现页面无法显示的问题,今年2月,最高人民法院在其官网答复称,出现此问题的原因在于有大量技术公司通过爬虫系统无限制并发访问非法获取裁判文书数据,造成网站负荷过大。针对此问题,最高法表示自2018年7月起以验证码的方式上线系统软件防爬功能。

而除了裁判文书网,南都采访人员发现,一些付费网站的数据也同样能被爬取,二手平台上有不少卖家出售知网、万方、知识库;维普等文献期刊数据,“全库数据爬虫抓取,2元起”。

背景

非法爬取“大数据”已呈公司化运营

去年8月,南都联合阿里安全部发布的《2018网络黑灰产治理研究报告》显示,2017年我国网络安全产业规模为450多亿元,而黑灰产已达近千亿元规模。在网络黑灰产的整条产业链中,利用各种手段爬取、窃取或者通过买卖的方式获得个人信息,成为黑灰产获利的主要方式,由此滋生出的电信诈骗、敲诈勒索等下游违法犯罪行为,对公民个人信息安全、财产安全造成严重威胁,成为侵蚀互联网经济正常运转的毒瘤。

推荐阅读