互联网爬虫战争永无休止。这算得上是爬虫斗争历史上具有里程碑意义的一个裁决。本周一,美国法院裁定,数据分析公司 HiQ 控诉 LinkedIn 案维持原判,并且认定从公共网站收集个人资料完全合法。LinkedIn 是微软旗下的职业社交平台,用户可以在 LinkedIn 网站建立个人档案,包括教育背景、工作经历、技能等信息。HiQ 则是一家数据分析公司,从 LinkedIn 爬取公开数据,进行整理分析后将处理结果出售给相关企业。LinkedIn 虽拥有数据,然而数据本身是由用户提供给 LinkedIn 的。在大数据时代,一些互联网平台积累了大量用户数据,并以此建立自身资源优势:在和其他互联网企业与平台的竞争中,用户数据越多利用得越好,就越容易吸引更多用户,从而处于更有利的地位。这种滚雪球式的效应使得互联网企业往往将数据视为竞争中的核心资产。官司打了两三回,最终偏向公共利益在此案之前,任何访问 LinkedIn 网站的人都可以得到这些数据。在数据分析公司 HiQ 长期对 LinkedIn 的网站数据进行爬取行为后,LinkedIn 向 HiQ 发送了禁止通知函,并在函中援引了《计算机欺诈与滥用法案》(Computer Fraud and Abuse Act, “CFAA”)。2017 年,HiQ 先发制人,作为原告方,控诉 LinkedIn 通过法律、技术等多种方式阻止其复制 LinkedIn 用户的公开个人资料,还向法院申请了临时禁令。虽然 HiQ 公司对 LinkedIn 网站实施了网络爬虫,但美法院法官认为,这种爬虫行为并不违反法律,因为 LinkedIn 网站上的数据是公开数据,对于公开数据,即使违反对方设置的 robot 协议,也应当是被法律允许的。这就像在白天推开一家未锁门的商店进去看看,并不能将其认定为非法侵入。因此,法院最后不仅没有认定 HiQ 公司的爬虫行为违法,甚至反过来认定 LinkedIn 的反爬虫技术违法。负责审理此案的地方法官向 HiQ 授予了初步禁令,禁止 LinkedIn 在案件审理期间干扰 HiQ 的数据爬取工作。法官认为,《计算机欺诈与滥用法案》(将“未经授权”或者以“超出所授予访问权限”方式访问受保护计算机,认定为犯罪行为)并不适用于 HiQ 从 LinkedIn 网站收集公开数据的行为。面对不利局面,LinkedIn 选择上诉。早在 2019 年,上诉法院就曾经支持下级法院于 2017 年在 HiQ 诉 LinkedIn 案中做出的裁决,认定网络爬取并不属于“未经授权访问受保护计算机”行为,裁定也依旧维持原判。LinkedIn 再次选择上诉。但两年之后,第九巡回法院仍然站在 HiQ 一边,并将此案发回加州北区法院。LinkedIn 当然对此不服,随后向美国最高法院提起上诉。2020 年 3 月,LinkedIn 要求最高法院审查第九巡回法院做出裁决。该公司辩护称,其以技术手段阻止网络爬取、同时发送终止通告函件的行为,应被视为符合正常授权机制的要求。实际上,作为微软持有的社交媒体网站、LinkedIn 一直努力避免站内结果被外界直接查看,但又不希望因过度封闭而自绝于搜索引擎。LinkedIn 方面的律师在递交给最高法院的申诉书中写道,“根据第九巡回法院的裁定,除非用密码机制将网站彻底封锁起来,否则任何一家决定部分公开网站内容的企业——包括 Ticketmaster、Amazon 等在线零售商,乃至 Twitter 等社交网络平台——都将暴露在批量部署的侵入性爬虫程序的面前。”“而一旦选择密码封锁,则网站将无法被搜索引擎正常检索,导致人们无法经由互联网上最主要的信息获取渠道发现其中信息。”2021 年 6 月 3 日,美国最高法院曾在另一起类似案件,即 Van Buren 诉美国政府案中,缩小过《欺诈与滥用法案》的管控范围。Nathan Van Buren 是佐治亚州的一名警察,有权限为执法目的搜索有关车牌的计算机记录。他中了联邦调查局的圈套,为私人目的搜索这些记录(应联邦调查局线人的要求,该线人提出为这些信息支付数千美元)。最终美法院对他判处了 18 个月的监禁。人们一直批评该法案未对“未经授权”和“超出授权范围”做出清晰界定。美国高等法院在 Van Buren 案中表示,单纯违反服务条款并不符合《欺诈与滥用法案》中提出的“超出授权范围”条件。然而,基于凭证的锁闭机制是否足以作为确定“未经授权”访问的唯一方法,美国高等法院仍未能给出明确答案。两周之后,美国最高法院决定将 HiQ 诉 LinkedIn 案发回第九巡回法院,希望结合 Van Buren 案的判例重新审视《欺诈与滥用法案》的适用范畴。但从结果来看,上诉法院虽然参考了 Van Buren 判例,但最终仍做出了维持两年前原判意见的裁定。第九巡回法院在裁决中指出,“公共网站的一大基本特征,就是其中公开可见的部分不受访问限制;换言之,这些部分将对任何拥有网络浏览器的访问者开放。”“也就是说,如果将这些托管公开页面的计算机视为房屋,那么公共网站设备在部署之初就没有设置任何“前门”,自然不存在提高或降低访问门槛一说。因此,Van Buren 案强化了我们的裁定,即“未经授权”概念确实不适用于公共网站。”但院方裁决并未解决 HiQ 与 LinkedIn 之间的恩怨纠葛,只是单纯禁止 LinkedIn 继续干扰 HiQ 收集其公开网站数据、并表示不支持根据《欺诈与滥用法案》对 HiQ 的分析业务提出索赔。而案件背后真正核心的不公平竞争、隐私侵犯等问题仍未得到解决。在邮件声明中,LinkedIn 发言人表示该公司不会放弃诉讼,将继续在法庭上寻求合理的结果。“我们对结果感到失望,但这只是一项初步裁决、案件还远未结束。我们将继续努力保护 LinkedIn 会员,特别是保护他们在网站上掌控个人信息的能力。”此案的影响力数据抓取行为如今被广泛应用到社会生活当中,不仅仅是在商业上的使用,还有学术研究上的应用等等。因此,本案的判决也受到极大的关注。此案的裁决得到了美国媒体的欢呼和赞誉,认为第九巡回法院的决定是档案工作者、学者、研究人员和记者的“重大胜利”。对于争论不休的数据和隐私的归属问题,这个案件也在一定程度上进行了讨论。从第九巡回上诉法院的观点来看,其裁决支持了用户才是数据的所有者,平台只是依据用户的授权才使用这些数据,而不能完全拥有这些数据。在 Reddit 上,网友们对 LinkedIn 发言人提起上诉的解释发起了大量嘲讽:“这样的解释即使不是荒谬的,也是冒昧的,提供数据的用户从来没有得到平台的反馈”,“保护客户隐私的说法被夸大了”,“现在谁会相信这样的解释是有意义的?”…另一方面,数据抓取也是现代互联网生态的重要组成部分,根据 Akamai 的统计,全球互联网流量中,近 40% 的流量由爬虫所占据。在 2021 年第二季度,全球遭遇的爬虫攻击达到了 700 亿次,同比增长 15%。美国法院这一裁定,也意味着从此百亿爬虫抓取在线零售商和社交网络平台的公开信息,是合乎美国法律的。中美法律不同,需谨慎使用爬虫技术或许正是由于数据的重要地位,近年来中外关于数据的争议问题层出不穷。在中国,爬虫行为引发的不正当纠纷案件也不在少数。德恒律师事务所曾发布过一篇名为《爬进“不正当竞争”的虫,代价不菲》的文章,在文章中讲述道,他们以“爬虫”等关键词在北大法宝检索并筛选出自 2016 年起的爬虫类相关案件共 49 件,大部分为刑事案件,涉及侵犯著作权罪、非法经营罪、侵犯公民个人信息、诈骗罪、敲诈勒索罪等,也包括部分民商法案件,主要涉及著作权和不正当竞争纠纷。其中一个典型案例是大众点评诉百度案。2016 年,百度因大量使用爬虫抓取大众点评的点评信息,在百度地图中进行展示,后被大众点评诉至法院。法院审理认为,百度的行为违反了公认的商业道德和诚实信用原则,构成不正当竞争。在大众点评诉百度的二审判决中,法官明确指出:“在自由、开放的市场经济秩序中,经营资源和商业机会具有稀缺性,经营者的权益并非可以获得像法定财产权那样的保护强度,经营者必须将损害作为一种竞争结果予以适当的容忍。本案中,汉涛公司所主张的应受保护的利益并非绝对权利,其受到损害并不必然意味着应当得到法律救济,只要他人的竞争行为本身是正当的,则该行为并不具有可责性。”虽然技术是中立的,但是技术应用存在着边界。目前,平台的数据权属无法进行明确化的界权,所以界定法律责任的过程还是比较复杂的。也因此,随着互联网技术的发展,“爬虫”二字在中文语境逐渐带上了“贬义”色彩。对编写网络爬虫的程序员来说,如果爬到不该爬取的数据,则存在违法的可能。“爬虫写得好,牢饭吃得早”戏称的存在,也说明了我们需要谨慎对待爬虫技术。就像 LinkedIn 平台,获取公共数据一般有两个选择:使用爬虫 /scraper (免费但有风险),使用 API(不是免费但安全),如果一定需要使用这些公开数据,需要我们做出谨慎的抉择。参考链接:https://www.theregister.com/2022/04/19/scraping_public_data_linkedin/https://news.ycombinator.com/item?id=31075396《数据抓取的边界在哪里?》:http://rmfyb.chinacourt.org/paper/html/2020-03/19/content_166271.htm?div=-1《爬进“不正当竞争”的虫,代价不菲》:http://www.dehenglaw.com/CN/tansuocontent/0008/023370/7.aspx?MID=0902了解更多软件开发与相关领域知识,点击访问 InfoQ 官网:https://www.infoq.cn/,获取更多精彩内容!