智客公社

标题: 基于区块链管理数据,大数据管理的新思绪 [打印本页]

作者: 真的乐乐    时间: 2021-6-10 15:07
标题: 基于区块链管理数据,大数据管理的新思绪
[attach]622984[/attach]

作者孟小峰、刘立新
全文共5610个字,建议阅读需15分钟


当下,大数据的“堰塞湖”曾经构成,数据管理成绩火烧眉毛。传统的管理概念来自政府、企业、IT范畴,数据管理既有其普通性,也有其特殊性。本文提出数据管理的根本保障在于添加大数据价值完成过程的透明性。
区块链仰仗去中心、公开透明和不可篡改的特性与大数据价值完成的透明性需求相契合,可以克制当前数据管理存在的成绩,为数据管理提供了新的处理思绪。同时,基于区块链完成数据管理也面临诸多应战。
大数据时代,数据源源不断产生并自主汇聚至少方数据搜集者,数据曾经成为企业间竞争的关键和影响国家竞争力的重要要素,由此数据管理成为企业管理和国家管理的重点范畴和重要方式。但是,大规模数据搜集也带来严峻的隐私泄露、数据滥用和数据决策不可信等成绩,对传统的数据管理提出了新的应战。例如,“Facebook-剑桥分析”事情就是大规模数据搜集导致的隐私泄露、数据滥用和决策不可信的典型案例。
进一步,大规模数据自主汇聚还导致数据垄断困境的出现,使数据被不合理的分配与享用。大数据的“堰塞湖”曾经产生,如何使这些成绩得到有效处理,并使数据得到正确和规范的运用是决议大数据继续发挥价值的关键,也是目前数据管理亟待处理的成绩。
上述成绩产生的次要缘由是大数据价值完成过程的不透明。大数据搜集和共享流经过程不透明导致隐私泄露和数据滥用等成绩追踪问责困难,并且致使数据垄断成绩悄然构成却缺乏评价和处理根据;大数据存储、处理和共享流通等过程中缺乏透明导致数据被篡改等成绩难以被发现,影响决策数据质量并最终导致数据决策不可信。
由此可以得出,当前数据管理的根本保障在于添加大数据价值完成过程的透明性数据搜集和共享流经过程透明地对数据流向停止记录,以溯源问责的方式停止隐私保护和为处理数据垄断提供根据;数据存储、处理和共享流通等过程透明使决策数据可审计和促进数据决策可信。
数据管理完成途径有多种方式,除了法律法规和政策标准,还需求技术方法的保驾护航。区块链来源于数字货币,具有公开透明、去中心和不可篡改的特性。该技术的提高发展为处理应前数据管理面临的成绩带来新的机遇。
本文提出了数据管理的根本保障在于添加大数据价值完成过程中的透明性,总结了数据管理的发展历程和技术上完成数据管理的关键内容,并对基于区块链完成数据管理的研讨现状停止分析和总结,最后提出目前数据管理面临的应战。


01 数据管理概述

“管理”(Governance)一词来源于拉丁文“掌舵”(Steering),最后用于“政府管理”,目的是协调政府与其他社会主体之间的利益。后来逐渐遭到企业的认同和注重,出现了“企业管理”,目的是协调企业外部利益相关者的利益。
伴随着IT资源和数据资源的日益丰富,又出现了“IT管理”和“数据管理”。后来,由于大数据的流通性、多源数据交融和触及多方参与主体等运用特性,“数据管理”又进一步延伸,出现了“大数据管理”。“大数据管理”关注大数据生命周期中数据消费者、数据搜集者、数据运用者、数据处理者和数据监管者等各方参与主体,其目的是在兼顾各方参与主体的权益、责任和利益的前提下发挥数据价值,即大数据价值完成和风险规避。
由于“大数据管理”是“数据管理”的延伸,为避免混淆,本文后续内容采用“数据管理”的概念来讨论大数据时代的数据管理。数据管理的发展过程和触及的参与主体如图1所示。

[attach]622985[/attach]

图1 数据管理发展过程和触及的参与主体

大数据的运用特性与数据管理的目的决议了当下数据管理的关键内容。目前,数据管理的关键内容和应战聚焦在以下3个方面:
(1)提高决策数据质量。大数据价值完成需求多源数据的交融,但是大数据来源广泛且生命周期内触及多方参与主体,数据能否真实产生、数据被篡改和多源数据的标准和类型不分歧等成绩都会影响决策数据质量,进而影响数据运用者的数据决策结果。所以,数据管理需求支持大数据在其全生命周期内的溯源。
(2)评价与监管个人隐私数据的运用。大数据运用的流通特征使数据消费者对数据获取和共享缺乏知情权和控制权。作为数据消费者,用户不知道哪些数据被搜集、被谁搜集、搜集之后流向哪里和作何运用。同时,数据的搜集汇聚导致数据垄断现象出现。数据垄断能够会妨碍市场竞争、使消费者福利受损、妨碍行业技术创新和带来更严重的个人隐私泄露风险等成绩,但数据监管者却无法对数据运用停止评价和监管;此外,大数据运用的多源数据交融特征还能够会引发更严峻的隐私泄露成绩。所以,数据管理需求对个人隐私数据运用停止评价与监管。
(3)促进数据共享。数据共享可以促进大数据价值完成和缓解数据垄断,但同时也需求处理隐私保护等成绩。一方面,数据共享单方之间发生数据共享流通时,思索到隐私成绩,需求以有效的方式保护数据消费者的个人隐私。另一方面,限于法律和实践运用中的一些要素,需求在不直接传输原始数据状况下,根据多方数据持有者的数据完成分布式数据集停止统计分析和分布式机器学习。由于多方参与者之间不存在完全的可信性,此时应该可以保护数据运用者对其共享过程停止验证。所以,数据管理需求在权衡数据消费者和数据运用者等参与主体利益的前提下促进数据共享。
数据管理需求综合法律法规、政策标准和技术方法等多种途径完成
一方面,国际组织和国家相关部门出台相应的法律法规和政策标准。例如,国际数据管理研讨所从组织、规则和过程三方面总结数据管理的要素;以及,国际标准ISO/IEC 38505-1《信息技术—IT管理—数据管理》为数据管理参与主体提供准绳、定义以及模型,协助数据管理参与主体评价、指点和监督其数据应用的过程。
另一方面,数据管理亟需安全、牢靠的技术方法,为大数据运用过程中数据隐私保护、提高决策数据质量、促进数据共享和评价监管数据运用的合规性等成绩提供技术支持。


02 基于区块链完成数据管理

区块链本质上是一种去中心化的分布式数据库,在添加大数据价值完成过程的透明性方面具有自然的优势,为处理应前数据管理的关键成绩提供了可行性。
2.1 支持审计的数据存储和处理
数据决策浸透在人们消费、生活的方方面面,由于触及多方利益相关者,数据在存储、处理和共享流通等过程中存在数据被篡改、数据伪造,以及不同来源数据的类型和标准规则差异等成绩,这些成绩都会影响决策数据质量。所以,数据运用者需求对决策数据停止审计。区块链作为去中心化的分布式数据库,可以完成支持审计的数据存储和处理。此外,基于区块链在不同利益主体之间构建去中心分布式数据库系统,数据经过全网疾速广播至各个利益主体,也可以保证数据共享流通的真实性和及时性。
区块链网络内各节点都存储数据,数据一旦存入区块链就不会被篡改或者丢失,即便存在通讯缺点和蓄意攻击等成绩,也照旧能保证数据存储的正确性,数据运用者可以对其停止审计。此外,将数据存入区块链还支持数据处理过程和处理结果的可审计性。对于传统的数据库管理系统,数据库中存储和维护当前数据形状,仅将数据处理过程等信息存在数据库日志,用于缺点恢复,并不支持数据的历史形状查询。
但是,区块链作为去中心分布式数据库,支持数据的历史形状查询,用以确认当前数据形状能否正确。基于区块链停止数据存储和处理,在保险、医疗和供应链等数据残缺性要求较高范畴是有重要意义的。由此,数据运用者可以对决策数据停止审计并在可信数据上执行分析和停止决策。
针对不同来源数据的类型和标准规则不分歧等成绩,可以基于区块链和智能合约制定一致的数据类型和标准规则智能合约会被存储和同步在区块链各个节点,区块链会根据智能合约上的代码自动执行验证。由于智能合约的执行过程公开透明,使其执行过程和执行结果是可审计的,能提高多源数据共享效率且不存在单点失败。
2.2 支持溯源问责的数据获取和共享
在传统的数据获取和数据共享过程,由数据搜集者制定数据运用协议并据此告知用户数据搜集、共享和运用等信息。用户作为数据消费者,对数据的知情权和可控权照旧限于法律约束和第三方信誉背书。但是,由于数据获取和共享等过程对外不可见,其契约实行状况也无从考证。
2014年皮尤研讨中心关于美国隐私状况的报告指出,91%的受访者以为他们曾经得到对数据搜集者搜集和运用个人数据的控制,61%的受访者对不了解数据搜集者如何运用个人数据感到懊丧;2016年《中国网民权益保护调查报告》显示,84%的网民对个人隐私泄露带来的不良影响有深切的感受。数据获取和数据共享不透明导致隐私泄露成绩更为严峻。传统的加密、差分等隐私保护技术虽然对数据隐私具有一定的保护作用,但是目前还不足以应对大规模数据搜集带来的隐私泄露风险。
运用区块链的去中心性和不可篡改性,可以记录数据的获取和共享状况,进一步实施追踪溯源,并结合策略承诺(Policy Compliance)、违犯检测(Violation Detection)和隐私审计(Privacy Audit),可以在隐私保护技术有效的状况下以溯源问责的方式保护隐私,也可以为评价监管数据和处理数据垄断成绩提供技术支持。
目前,已有研讨应用区块链添加移动运用、医疗和物联网等范畴的数据获取和共享流通的透明性。基于区块链完成数据获取和共享的框架可以分为四层:数据获取层—存储层—区块链层—共享层。
2.3 支持验证的分布式数据统计分析和机器学习
在医学研讨、公共安全和商业合作等一些运用范畴,需求在大规模分布式数据集上执行统计分析和机器学习义务,但思索法律法规等要素的限制,需求在不泄露隐私数据前提下停止分布式数据统计分析和机器学习。
针对分布式数据集统计分析,现有方案基于安全多方计算、机密共享、本地化差分隐私和同态加密等技术完成。但是,安全多方计算方法不适用于大规模数据提供者参与;机密共享使数据提供者得到数据控制权;本地化差分隐私需求平衡数据的可用性和隐私损失;同态加密可以保证数据提供者不得到数据控制权,而且不需求思索隐私损失,但是完成的前提是数据提供者提供真实数据和计算节点的可信计算。
针对分布式机器学习,由于数据提供者和数据需求者之间不存在完全的信任,各个数据提供者也能够会提供不牢靠的数据或参数扰乱最终结果,以及由于经济利益等要素提早加入。所以,数据运用者需求对分布式数据集统计分析和分布式机器学习停止验证,以及需求合理的经济激励促进其顺利执行。
基于区块链完成可验证的分布式数据集统计分析常包括数据提供者、多个计算节点、多个验证节点和数据查询者。其中,数据提供者提供加密数据,多个结算节点执行密文计算,由区块链组成多个验证节点并对计算节点的计算停止验证。除此之外,分布式数据集统计分析需求思索数据机密性、数据提供者和数据之间不可衔接性、查询结果机密性和计算结果的鲁棒性等安全和隐私成绩。为此通常采用洗牌和同态加密等技术停止保护。
基于区块链完成可验证的和公平的分布式机器学习,数据提供者将本地机器学习参数上传和存储至区块链,由区块链执行交叉验证,将分布式机器学习过程的每一步都记录在区块链。同时,还可以结合零知识证明和密码学承诺对恶意的参与方停止经济惩罚,经过经济激励促进公平。除此以外,分布式机器学习需求思索数据提供者本地参数的安全性,由于本地参数也能够会泄露数据或者机器学习模型。为此通常采用差分隐私、机密共享和同态加密等技术对其停止保护。


03 应战与成绩

区块链为数据管理提供了新的思绪,但数据管理详细完成过程中也将面临诸多应战,同时对区块链本身技术有了更高的要求。此外,基于区块链完成数据管理会导致政府和企业的管控机制和业务流程发生严重变革,这将对政府管理和企业管理提出新应战。目前,数据管理完成过程面临的应战与成绩次要包括以下3个方面:
(1)数据管理完成过程中面临的应战。一方面,虽然将数据共享流通讯息记录在区块链可以完成溯源问责,但是在大规模数据搜集和数据共享流通错综复杂背景下,如何完成跨平台和跨范畴的溯源问责是具有应战性的成绩。同时,溯源问责也能够会带来隐私泄露成绩,所以溯源问责过程的隐私保护也至关重要。另一方面,虽然将数据存入区块链,可以一定程度上防止数据篡改和保证数据可以停止追踪溯源,但是保证数据存入区块链之前的真实性和牢靠性仍存在应战。
(2)对区块链本身技术提出的新应战。区块链本身的存储需求限制、隐私与安全、可扩展性和互操作性等方面还存在大量待处理的成绩,现有比特币、以太坊和超级账本等主流的区块链还不能满足数据管理的需求。为此应该思索设计轻量级的、高可扩展的、互联通性较强的适用于数据管理需求的区块链。同时,伴随着各类区块链系统的出现,区块链系统评价标准与评价规范也成为亟待处理的成绩。
(3)对政府管理和企业管理提出的应战。区块链的去中心化特性将打破传统的中心化管理方式,对政府和企业的管理威望带来应战;同时,去中心化特性还会使数据安全和保密的责任置于多方,对政府和企业的数据管理等方面带来新的应战。此外,基于区块链完成数据管理并据此对数据执行相应的监管措施需求一个过程,而且随着区块链技术的迅猛发展,将会对传统的监管制度和法律法规政策提出新的要求。


04 结语

数据管理曾经成为国家管理和企业管理的重点范畴和重要要素。随着各个范畴数据的不断开放共享,数据管理对数据共享、数据监管和隐私保护等方面都提出了更高的要求。这些成绩经过与区块链相结合可以提升数据管理的效率和透明度,将会有利于构建一个全新的数据信息时代。与此同时也会带来诸多新的应战,需求多学科、多范畴和多部门共同的努力去完成数据管理的新篇章。
本文来源《中国迷信基金》,作者孟小峰、刘立新
作者: 从从容容    时间: 2021-6-10 20:44
路过 帮顶 嘿嘿
作者: 典狱长icon    时间: 2021-6-11 15:25
纯粹路过,没任何兴趣,仅仅是看在老用户份上回复一下
作者: truesteven    时间: 2021-6-12 15:34
这帖子写的不错




欢迎光临 智客公社 (http://bbs.cnaiplus.com/) Powered by Discuz! X3.4