找回密码
 立即注册
搜索

大数据公司接连被查,爬虫技术惹的祸?| 数据观



全文共计3609字,估计阅读工夫9分钟


作者 | 陈近梅

来源 | 数据观

编辑 | 蒲蒲

2019年,大数据行业迎来了“大清洗”。

往年3月以来,北京、上海、深圳、杭州等地大数据公司被查音讯陆续传出。这些地区监管部门与警方正加大对行业乱象整治力度,十余家大数据公司或被查、暂停业务,或被警方带走配合调查。

2019年大数据公司被查事情回顾

10月21日,“51信誉卡”位于杭州西溪谷的办公地点被警方调查。该公司于2018年香港主板上市,天眼查数据显示,51信誉卡的运营主体为杭州恩牛网络技术有限公司,业务涵盖个人信誉管理服务、信誉卡科技服务、线上信贷撮合及投资服务。



截至发稿时,警方除了通报其涉嫌寻衅滋事等犯罪外,并未泄漏太多被查缘由,但多位业内人士猜测能够还与爬虫程序不合理获取用户信息有关。这一猜测次要来源于在21日当天,一封某银行致51信誉卡公司的函件,该函件称,该行技术监控发现,51信誉卡经过爬虫程序对该行用户信息停止抓取,但51信誉卡并未与银行签署授权书、赞同书或默许其获取用户个人信息。

9月26日,有媒体报道知名大数据公司同盾科技有限公司爬虫类产品“数聚魔盒”担任人被查。9月27日,同盾科技发表公开声明回应此事,称“为配合警方调查曾经服务的某第三方单位,杭州信川(即“杭州信川科技有限公司”)及有关人员正积极协助警方调查取证,以协助相关部门查清该第三方单位的状况。”

公开材料显示,数聚魔盒运营主体为杭州信川科技有限公司,成立于2016年5月,同盾控股有限公司为全资控股股东。数聚魔盒以“爬取互联网公开数据+打通同盾体系内数据+用户授权数据采集”交叉关联的方式,经过用户授权,应用网页极速抓取技术获取各类用户个人数据,经过海量数据比对和分析,交叉验证,最终为各类机构提供用户的风险分析判别。

9月11日,公信宝运营公司杭州存信数据科技有限公司办公室被杭州市公安局西湖分局古荡派出所查封。据了解,公信宝成立于2016年,是一家以区块链为核心技术的数据科技公司。根据公信宝官网,公信宝为全球数据经济服务,并开发了一条名为公信链(GXChain)的底层基础链,旨在提供企业间、个人世、企业与个人之间的数据买卖/交换服务。从公信宝合作方看,公信宝所售出的个人信息大规模流向网络借贷范畴,而这些信息数据来源除了顶着挖矿的名义获取外,公信宝还经过爬虫途径来获得用户隐私数据。

9月12日上午,据业内人士爆料,中国电信控股的子公司天翼征信的总经理、副总经理以及市场人员约十人被警方带走。据外部员工泄漏:“由于我们跟后面两家被调查的爬虫公司有合作,去自动阐明状况。”

9月6日,杭州魔蝎数据科技有限公司疑似被相关执法人员控制,与此同时,魔蝎科技为合作方提供的服务曾经中止,官网也无法登陆。但到目前为止警方尚未披露相关信息。相关材料显示,魔蝎科技成立于2016年,是国内大数据智能风控服务供应商,次要业务包括提供精准营销模型、反欺诈、多维度用户画像、授信评分、贷后预警、催收智能运筹等片面风险管理服务。


同日,多方音讯称,上海新颜人工智能科技有限公司CEO黄向前被带走,新颜科技人士表示,协助调查是由于与其合作的一家持牌网贷平台触及暴力催收成绩,新颜科技本身的业务并未受影响。据官方网站信息显示,新颜科技经过云计算、机器学习等技术,逐渐打造了以人工智能为核心的先进技术体系,向银行、保险、证券、基金理财、社交平台、电商、共享平台等多个行业停止定制化的产品设计与运用开发。

4月22日,北京海淀公安在官方微信公号上披露,招聘信息创业公司巧达科技(北京)有限公司王某某等36人因非法获取计算机信息系统数据,已被检察机关依法同意逮捕,其中王某某曾多次被公安机关处理。公开材料显示,巧达科技成立于2014年7月,号称拥有中国最大的简历数据库。据北京警方披露,巧达科技公司在未经授权的状况下,经过应用大量代理IP地址、伪造设备标识等技术手腕,绕过某公司服务器防护策略,大量恶意窃取放在服务器上的用户数据。在窃取过程中,由于传输数据量过大,还曾导致该公司的服务器数十次中缀服务,影响上千万用户正常访问,给其带来了严重的经济损失。

以上只是部分公开报道的大数据被查公司事情,从中可以看出,国家以及各地相关部门对大数据行业的监管力度在逐渐加大,整理态势趋严。


公司被查,“爬虫业务”成为导火线

随着市场对于数据服务的需求逐渐增大,数据就成为了某些公司的次要盈利工具。但数据从何而来?

据中国互联网络信息中心(CNNIC)发布的第44次《中国互联网络发展状况统计报告》显示,截至2019年6月,我国网民规模达8.54亿人,这些人无时无刻都在“消费”数据,各个方面的数据不断在汇集。正是有了这些数据,让某些“大数据公司”看到了商机。

互联网平台上的数据有些是公开的,也有非公开的,但只需经过网络爬虫技术,获取这些数据并不难。而且,在这个竞争激烈的市场环境下,假如有人提供所需求数据,不用就是“损失”。所以,供需方市场条件曾经满足的状况下,这条产业链逐渐构成,其中不凡有许多正轨持牌金融机构、咨询公司等也参与运用第三方数据公司经过各种渠道抓取的用户数据。

网络爬虫技术成为第三方数据公司获取网络数据信息的基础工具,而伴随“爬虫业务”而来便是数据窃取、泄露、滥用等成绩。从这些被查大数据公司可以看出,大部分公司与爬虫业务及违规抓取、贩卖个人隐私数据、助力暴力催收等有关。

据了解,网络爬虫又称为网页蜘蛛或网络机器人,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。网络爬虫技术并不难,而且爬虫技术本身是中性的,关键在于能否合规运用。也正是数据获取与运用的门槛较低,大量不具有基本从业素质、缺乏风险看法的企业参与到了这场大数据发展浪潮中,过度依赖“数据采集”停止无序竞争。

由于此次行业整理的影响,目前部分依赖于“数据采集”的公司自动或被动地关停了爬虫业务。而且,此番严查仍在继续,有些抱着侥幸心思继续触碰法律红线的企业,置信也不会逍遥太久。


大数据行业发展需及时“止痛”

大数据是一个新兴行业,具有良好的发展和运用前景,但它所存在的一些痛点成绩正在妨碍其健康发展,相关部门的此番监管举动无疑是在为大数据行业及时“止痛”。

目前,行业内除了被查的大数据公司,很多触及数据业务的公司也存在或多或少的成绩。比如,墨迹科技IPO被否,证监会明白指出该公司关于运营资质、收益用户数据、支出来源单一、关联客户等四大成绩。另外,也还存在其他一些比较典型的行业痛点成绩需求惹起注重。

首先,技术运用的边界成绩被忽视。数据成为新的消费材料和有形资产,企业要想在大数据时代抢先,需求多方合作获取更多的数据。而部分大数据公司,尤其是创业公司,由于没有原始数据的积累,也没有可产生数据的业务或产品支撑,一些企业选择经过购买或者运用相关技术窃取别人隐私信息,忽略技术运用边界成绩,碰触法律红线,甚至在各种变现的压力下,不惜成为信息贩子。

其次,数据归属权不明白,数据共享和买卖工作推进受阻。数据运用过程中,触及其一切权、隐私权等,其中一切权成绩最为模糊。数据到底归谁一切?是至今不断没有明白答案的命题,这让部分数据在运用过程中无法被界定能否构成侵权,容易出现数据滥用的状况。

数据共享可以加强企业间的结合,可以加快数据与产业的交融,可以促进产业优化晋级。同时,假如交换数据权,数据整合会愈加完善。目前,我国除了部分地区政府部门建立政府数据共享交换平台,推进政府数据陆续得到有效运用外,各地所成立的大数据买卖企业或平台几乎没有太分明的工作推进成效,其缘由包括企业要保护商业机密不情愿买卖本身数据、企业买卖机制不健全、法律法规不完善等。

再次,数据安全保障工作看法薄弱,专业人才短缺。公民个人信息常常在网上被以白菜价格倒卖;多数企业数据中心安全防护措施薄弱,被恶意攻击、内鬼泄露等成绩大量存在。次要由于大家对个人用户、密码以及相关数据保护看法不足,企业对于数据安全的保障工作往往处于被动形状。此外,我国大数据产业人才培育体系处于建立初期,在短期内专业人才供不应求,限制了大数据产业创新发展的成效。

写在最后

处理行业发展痛点刻不容缓,但大数据行业的发展也不会由于部分公司被调查而溃不成军。发展大数据,最终目的是与各个行业深度交融,促进各行业各范畴转型晋级,并建立良好的产业生态。这是一个需求渐渐探求和推进的过程,假如想要在这个风口上投机取巧,牟取暴利,最终只会害人害己。

合法合规的大数据企业一定是靠技术构成核心竞争力,随时把握好发展契机,积极探求合规可行的商业形式,不断长大和壮大本人。正如畅销书《失控》作者凯文·凯利所言,大数据会缔造大公司,十年、二十年之后,在全世界最大的公司就是有最多数据、最大数据的公司。将来谁在数据方面能胜出,谁有最大的数据公司,谁就是最大的胜者。

- END -

|SUGGESTED READING




关注我们

区块链,人工智能,

行业相关资讯 ,干货,

报告等,可搜索
数据观微信公众号
进入查看。
数据观
公众号:cbdioreview
官网:www.cbdio.com
微博:数据观官微

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评19

漠风逆 2019-11-15 14:00:31 显示全部楼层
罚的好,公民个人信息被恶意窃取。放到欧盟早被罚死。GDPR
回复

使用道具 举报

芬里斯之子 2019-11-15 14:11:30 显示全部楼层
中国数据保护这一块做得是真差
回复

使用道具 举报

海角蝶恋花 2019-11-15 14:14:16 显示全部楼层
營爬虫技术屁事!没有爬虫技术,他们也会经过其他技术窃取公民信息!不是能不能的成绩,而是敢不敢的成绩!只要严查严惩,才能产生对法律的敬畏心!
回复

使用道具 举报

无名小乞丐 2019-11-15 14:25:05 显示全部楼层
干的工夫长,头脑发热,没留意
回复

使用道具 举报

day打铁男 2019-11-15 14:32:50 显示全部楼层
,, , :
回复

使用道具 举报

马远 2019-11-15 14:36:59 显示全部楼层
这些触及公民信息安全的行为,国家应该严峻打击,把技术人才引导出来军队信息中心,其他投资人或运营人员全部刑事责任并罚没一切全部家产
回复

使用道具 举报

@Xizi_ilO0nitY 2019-11-15 14:37:21 显示全部楼层
去行政大厅办理注册公司,随后就天天有人打电话,我家人和身边的冤家都不知道我注册公司了,可这些生疏人都称呼我是老板总经理,知道公司需求什么业务和产品。电话号只是留给工商税务部门了。
回复

使用道具 举报

含雪的家 2019-11-15 14:43:36 显示全部楼层
大数据时代,个人信息安全引发了严重的考验……
回复

使用道具 举报

hhh336688 2019-11-15 14:48:00 显示全部楼层
盆友是安全信贷的,经过一些渠道获得好多人信息,一毛钱一条,你手机号工作单位啥的都有
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies