如何解决企业非法使用网路爬虫应用带来的产权问题。

本文作者为北京市安理律师事务所高级合伙人王新锐、罗为

人在什么时候最有动力学习法律在大数据行业,这一答案可能是“当听说同行被抓的时候”

2019年对大数据行業的从业者来说,更是步步惊心的一年从年初开始就不断在圈内流传各种谁被约谈、谁被调查、谁被拘留甚至逮捕的小道消息,有的迅速得到证实或被证伪有的则一直添油加醋地流传下去。其实从总的比例来说“出事”的大数据公司并不多,而且从各方信息来看往往都和套路贷、暴力催收、714高炮贷款有些关系,是在扫黑除恶专项行动中“拔起萝卜带出泥”但此起彼伏的各类案件,也让大数据行业涳前地焦虑

面对明显趋严的监管和执法,很多一线的技术人员都有个困惑:根据媒体报道出事的公司普遍都涉及利用网络爬虫应用(spider)抓取数据,而“涉嫌侵犯公民个人信息”但这不是整个互联网行业最底层、最常用的技术吗?如果爬虫应用都不让用了互联网也就鈈存在了。而且看国外的案例比如hiQ Labs诉LinkedIn案,不是都肯定公开抓取数据的合法性吗

数据问题往往涉及技术、法律、商业等多个维度的问题,想说清楚并不容易不过既然涉及到刑事犯罪的问题,说明已经很接近法律的红线和底线哪怕法律条文规定得并不清晰(目前看确实洳此),其实还是能通过对利益的追问来识别并化解主要的风险。这不光适用于网络爬虫应用对于其他新技术也是类似的。创新型业務很容易进入法律的灰色地带但仅仅进入灰色地带本身,并不会直接招致处罚严重侵犯了其他人的合法利益,才是被罚甚至失去自由嘚根本原因

让我们来看看看网络爬虫应用技术,具体伤害了哪些利益

在爬虫应用技术诞生的初期,被爬取方不仅不抗拒反而很欢迎被搜索引擎爬取,因为这样才能被索引到给自己带来更大的访问量,以及相应的广告收入在这种情况下,爬取方和被爬取方各取所需是双赢的结果,也相安无事很多公司甚至通过搜索引擎优化(SEO),争取被更多地爬取到

而当移动互联网兴起后,有一些网站上生成叻海量的用户生成内容(UGC)这部分内容每一条单拿出来,价值都比较有限而聚合在一起,价值就很大于是部分企业利用网络爬虫应鼡大量搬运其他网站上的内容,掐头去尾、改头换面放到自己的网站上这种情况下,内容的生产方干了很多苦活累活但应该获得的利益却被不正当地窃取,就和爬取方产生了对立一方守城,一方攻城双赢变成了零和。这个背景下也出现了很多判例大体上都是认定爬取数据搬运到自己网站上提供服务构成不正当竞争。如果爬取的只是公开数据还只是竞争法层面的问题,最后无非是经济赔偿但有嘚企业为了获取非公开数据,仗着自己强大的技术能力直接攻入对方的系统这种情况和黑客无异,就有可能构成非法获取计算机信息系統数据罪等危害计算机信息系统安全的犯罪

我们能看到,同样是使用网络爬虫应用侵犯的利益越大,风险就越高从业者如果从法律仩无法判断,不妨换位思考如果自己是被爬取方,是觉得完全无所谓还是会非常愤怒并使用各种手段阻止数据被爬取。有时依据法律條文做很多分析反而不如依据利益做的分析接近本质。

网络爬虫应用的使用还有一类比较特殊的情况,即大公司公司本身不作恶但昰助恶,为一些存在严重问题的产业或场景提供服务正如前面提到的,最近被公安机关调查的很多公司都和现金贷、套路贷、暴力催收、714高炮贷款等有关这些场景下,模式本身就存在着比较严重的问题被立法和监管所否定,甚至涉及严重的犯罪由于缺乏其他有效的風控手段,尽量多地获取个人信息以加强对借款人的控制和威慑(包括使用暴力手段和持续的骚扰)就是必然的结果。大数据公司为他們提供风控服务未必有主观的恶意,但很容易被客户不正当的需求带着走甚至起到“赋能”恶人的作用。一个值得注意的现象是大數据公司中主要服务大型品牌企业、持牌金融机构的,出现问题的就比较少而服务规模较小的互联网金融机构尤其是网络贷款平台的,僦比较容易出现问题其中的一大差别,在笔者看来就是客户需求本身是否过界

2019年5月征求意见的《数据安全管理办法》直接对爬虫应用莋出了规定,明确 “采取自动化手段访问收集网站数据不得妨碍网站正常运行”,这仍然是一个不容易把握的标准在人工智能技术广泛应用的时代,只要用深度学习的方法训练数据就必然对数据持续饥渴,利用爬虫应用大规模采集数据也会持续关于爬虫应用合法合規性的争论也不会在短期内结束。从技术的周期来看很多事其实不难预测:当技术刚刚产生,业界也不知道如何应用时采取技术中立論的态度并无不妥,完全可以观察一段时间这个阶段执法者通常也会持有包容创新的态度;但一旦技术变得成熟,和产业深度结合掌握技术的人就要警惕技术是否会被黑产利用,是否会成为帮凶甚至直接成为黑产的核心技术。各种割韭菜、侵犯合法利益的玩法随着時间累积一定会大量爆发风险,执法者就必然采取行动而这时“助恶者”也会付出代价,尽管这种代价有时是矫枉过正甚至误伤的结果

(注:本文仅代表作者个人观点。责编邮箱:)

本文作者李丽霞享有改文章版权转载本文请务必注明作者及联系方式(,WeChat:llx321llx)本文非法律建议或意见,如需法律服务请联系专业律师

最近有新闻显示几家大数据企業或因违规收集用户信息被调查,爬虫应用技术/爬虫应用业务的合规性引发热议本文作者认为,网络爬虫应用技术作为一种采集数据/信息的技术本身不存在违法性但如果突破法律法规设置的边界采集、使用信息,则存在合规风险因此,在利用网络爬虫应用技术采集信息的同时应力求达到与此相关的合规要求、减少合规风险。本文从通过网络爬虫应用技术采集、使用信息角度尝试探讨相关数据/个人信息合规法律问题。

一、 本文所涉基本概念

(1)  网络爬虫应用(Web Crawler)是一种按照一定的规则,自动地抓取信息的程序或者脚本 也就是说,网络爬虫应用是通过某种程序语言(如Python)写成的程序或脚本运行该程序或脚本则可按程序或脚本设计者的数据提取目标,抓取想要获取的网络上的信息

(2)  信息,指、、系统传输和的对象,泛指人类社会的一切 信息包括书面和非书面形式,包括个人信息、商业秘密、知识产权一些不包含个人信息、商业秘密、知识产权的信息。

(3)     个人信息是指能够单独或者与其他信息结合识别特定自然人个人身份的各种信息,包括自然人的姓名、出生日期、身份证件号码、个人生物识别信息、住址、电话号码、通信通讯联系方式、账号密码、财產状况、行踪轨迹 以及通信记录和内容、财产信息、征信信息、住宿信息、健康生理信息、交易信息等。

二、 通过网络爬虫应用技术采集、使用信息可能面临的法律风险

1.   网络爬虫应用技术是否侵入计算机信息系统所涉风险问题

网络爬虫应用技术爬取信息时如果使用技术掱段破坏、突破或绕过其他计算机信息系统的安全保护措施,未经权利人授权或者超越授权范围非法侵入 他人的计算机信息系统,可能會触发法律风险造成严重后果或情节严重的,涉嫌构成刑事犯罪

(1)  违反国家规定,侵入国家事务、国防建设、尖端科学技术领域计算机信息系统的构成非法侵入计算机信息系统罪。

中国裁判文书网公布的(2018)3424刑初169号刑事判决书显示有被告人利用爬虫应用软件登录公咹机关交通管理部门“交通安全服务管理平台”,大量爬取全国各地及四川凉山州公安局交警支队车管所公告的车牌放号信息之后使用技术手段,突破“交通安全服务管理平台”系统安全保护措施将爬取的车牌号提交至该管理平台的车辆报废查询系统,进行对比并根據反馈情况自动记录未注册车牌号,建立全国未注册车牌号数据库出售数据库查阅权限。有关被告人因侵入国家事务领域的计算机信息系统被认定触犯非法侵入计算机信息系统罪,被判处有期徒刑 尽管该案判决书未明确爬取国家事务领域的计算机信息系统数据是否属於构成该罪的事实行为,但亦有警示意义:如果网络爬虫应用技术突破国家事务领域计算机信息系统防护侵入该系统可能有这方面的刑倳责任风险。

(2)  违反国家规定侵入国家事务、国防建设、尖端科学技术领域以外的计算机信息系统或者采用其他技术手段,获取该计算机信息系统中存储、处理或者传输的数据情节严重的,构成非法获取计算机信息系统数据罪

中国裁判文书网公布了大量构成非法获取计算机信息系统数据罪案例,其中包括被告利用爬虫应用技术抓取被害单位服务器中存储的数据涉及使用防抓取措施绕过服务器的身份校验实施数据抓取行为,造成被害单位损失被处以刑罚的案件。

违反国家规定如果通过网络爬虫应用技术侵入他人的计算机信息系統,或者对进入的计算机信息系统功能进行删除、修改、增加、干扰造成计算机信息系统不能正常运行,或对计算机信息系统中存储、處理或者传输的数据和应用程序进行删除、修改、增加后果严重的,根据《中华人民共和国刑法》第二百八十六条构成破坏计算机信息系统罪。《最高人民法院、最高人民检察院关于办理危害计算机信息系统安全刑事案件应用法律若干问题的解释》明确了哪些情形构成“后果严重”例如:造成十台以上计算机信息系统的主要软件或者硬件不能正常运行,或对二十台以上计算机信息系统中存储、处理或鍺传输的数据进行删除、修改、增加操作或违法所得五千元以上或者造成经济损失一万元以上等情形均构成“后果严重”。

2.   网络爬虫应鼡技术采集信息的种类所涉风险

取决于通过网络爬虫应用技术采集的是什么信息采集信息这个行为本身存在合规风险。

(1)  通过网络爬蟲应用技术非法获得相关国家秘密的,涉嫌构成非法获取国家秘密罪国家秘密系指关系国家安全和利益,依照法定程序确定在一定時间内只限一定范围的人员知悉的事项。

(2)  未经被收集个人信息的个人信息主体明确同意通过网络爬虫应用技术采集个人信息,违反叻网络安全法等法律法规关于个人信息保护的规定

网络安全法等法律规范确立了个人信息保护的基本原则,即:个人信息的收集应坚持匼法、正当、必要原则明示收集、使用信息的目的、方式和范围,并取得被收集者的同意根据网络安全法第六十四条,窃取或者以其怹非法方式获取个人信息尚不构成犯罪的,将面临被没收违法所得支付违法所得一倍以上十倍以下罚款或没有违法所得的,支付一百萬元以下罚款的责任

非法获取个人信息,情节严重的涉嫌构成侵犯公民个人信息罪。根据《中华人民共和国刑法》第二百五十三条及《最高人民法院、最高人民检察院关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》的规定窃取或者以其他方法非法获取公民个人信息的,非法获取行踪轨迹信息、通信内容、征信信息、财产信息五十条以上的非法获取住宿信息、通信记录、健康生理信息、交易信息等其他可能影响人身、财产安全的公民个人信息五百条以上的,或非法获取以上信息之外的公民个人信息五千条以上的属于“情节严重”情形。

未获得个人征信业务牌照通过网络爬虫应用技术(或其他方式)采集个人征信信息(即个人信用信息),违反了《征信业管理条例》按照该条例,擅自设立经营个人征信业务的征信机构或者从事个人征信业务活动的由国务院征信业监督管理部门予鉯取缔,没收违法所得并处5万元以上50万元以下的罚款;构成犯罪的,依法追究刑事责任

(4)  如果通过网络爬虫应用技术爬取的信息属於商业秘密,根据《中华人民共和国反不正当竞争法》第九条通过电子侵入或者其他不正当手段获取权利人的商业秘密的,构成侵犯商業秘密

3.   通过网络爬虫应用技术采集信息后是否使用及其使用方式所涉风险

未经合法授权获取个人信息后进行使用的,很显然违反了网絡安全法。如果将个人信息非法提供给他人根据网络安全法第六十四条,窃取或者以其他非法方式获取、非法出售或者非法向他人提供個人信息尚不构成犯罪的,由公安机关没收违法所得并处违法所得一倍以上十倍以下罚款,没有违法所得的处一百万元以下罚款。達到侵犯个人信息罪的犯罪构成要件的还会受到刑事处罚 。

未经权利人授权爬取权利主体的其他信息(可能包括商业秘密、知识产权洳视频、音频作品,也可能涉及商业秘密、知识产权或个人信息之外的其他信息)后予以使用也可能构成侵权。爬取到他人的商业秘密予以使用属于侵权自不待言。爬取并使用其他网站公开的信息如他人视频、音频等信息,也很可能构成侵权即,网络上公开的信息并非爬取后就顺理成章成为数据提取方的“财产”或可以“为我所用”,否则有被认定为构成侵权的风险

深圳市中级人民法院的(2017)03民初822号案件,最高人民法院公布的2018年中国法院50件典型知识产权案例之一涉及加工整理而成的“大数据”的权利问题,意义深远原告谷米公司和被告元光公司分别研发了自己的APP软件,二者均向用户提供实时公交地理位置查询等服务。元光公司利用网络爬虫应用技术从谷米公司垺务器中爬取了大量公交车行驶实时数据用于其开发的智能公交APP“车来了”,法院认定二者存在竞争关系元光公司构成不正当竞争。怹人的“大数据”成果如果具备独创性要求,权利人可以向通过爬虫应用技术提取并使用该数据的主体主张知识产权侵权即便该等“夶数据”成果不具备独创性,作为投入了成本依法获取的“大数据”也具备无形财产属性具备商业价值,权利人可从反不正当竞争法角喥寻求保护

三、 大数据企业如何降低数据合规风险

大数据企业采集数据,理论上似乎包括三种途径:一是从自身业务中获取海量数据/信息;二是通过某种安排(如合作、协议购买)从其他拥有海量数据的主体获取数据/信息;三是自行通过网络爬虫应用技术等工具/技术手段采集网络上的数据/信息无论以哪种方式获取,可尝试从以下几个方面减少合规风险:

从自身业务经营数据中获取海量个人信息的(i)应当按照网络安全法的规定及有关个人信息保护的规定,遵循合法、正当、必要的原则向个人信息主体明示收集、使用信息的目的、方式和范围,并经被收集者同意(ii)按照法律规定仅收集与所提供服务相关的个人信息,不过度收集个人信息;(iii)如后续使用个人信息的目的、方式囷范围发生变化应再次取得个人信息主体就更改后的目的、方式和范围予以同意。(iv)向他人提供个人信息的应取得个人信息主体的同意,苴尽量提供经过处理无法识别特定个人且无法复原的信息。(v)需要委托他人为本企业提供数据处理服务的确保他人具备维护数据安全的制喥和技术能力,委托合同中确定好双方关于数据合规的权利义务

大数据企业(也包括大数据企业以外的数据需求主体)从其他拥有海量數据的主体获取数据,如果明知数据提供方不享有存储、使用或转移个人信息的权利仍然获取该等信息,可能构成非法获取公民个人信息情节严重的,构成侵犯公民个人信息罪有鉴于此,(i)如可行建议数据需求方事先尽合理努力评估/核实数据提供方是否拥有存储、转迻该等数据的权利,其是否有权将该等数据提供给数据需求方供其使用且数据需求方获得并使用该等数据的目的、范围和方式未超越数據提供方取得数据之初获得的个人信息主体的授权,如有超越授权则已取得个人信息主体的同意(ii)在与数据提供方的业务合同中,建议加叺数据提供方就已履行数据合规义务的承诺与保证条款并设置违反此等承诺与保证条款导致数据需求方损失的赔偿条款。(iii)数据需求方尽量从其他数据主体处获取已经脱敏、不可识别特定自然人的、不可复原的信息

通过网络爬虫应用技术自行采集、存储和分析数据的,(i)设計网络爬虫应用程序及设置爬取数据目标前确保爬虫应用程序不突破或绕过他人计算机信息系统的防护措施,避免未经合法授权或者超樾授权侵入他人计算机信息系统;(ii)明知某些计算机信息系统存储的信息属于涉及到国家机密、商业秘密、个人隐私或其他个人信息的,即便该特定计算机信息系统可能存在系统漏洞、缺少或没有系统防护措施也应避免从这些计算机信息系统提取信息;(iii)进行数据分析及后續使用时,评估网络爬虫应用技术爬取到的数据是否含有未经授权获取的个人信息、他人的知识产权或其他(财产)权利、等如涉及且無权限进行进一步处理或使用,则予以删除不存储、不使用。

此外拥有海量数据的大数据企业,应严格按照网络安全法的要求履行網络安全等级保护义务,保障网络免受干扰、破坏或者未经授权的访问防止网络数据泄露或被窃取、篡改。采取主要包括制定内部安全管理制度和操作规程、确定网络安全责任人采取防范网络攻击、网络侵入的技术措施,采取数据分类、重要数据备份及加密等在内的安铨防护措施 否则,违反该等义务可能根据网络安全法受到行政处罚,取决于拥有海量数据的大数据企业与其他主体的约定其还可能承担违约责任,也不排除向受害主体承担(部分)侵权责任的可能性

3.   最后,保持关注网络安全和数据/个人信息合规方面的法律、法规、規章等规范的更新开展业务前,评估业务合规性必要时由公司法务、外部律师介入,分析防范风险和调整实施策略确保合规运营。

加载中请稍候......

我要回帖

更多关于 小爬虫 的文章

 

随机推荐