区块链和大数据两者属于不同的时代,区块链是继大数据之后的又一次技术革命。大数据通常用来描述数据集足够大,足够复杂,以致很难用传统的方式来处理。而区块链能承载的信息数据是有限的,离大数据”标准还差得很远。
大数据,需要应对海量化和快增长的存储,这要求底层硬件架构和文件系统在性价比上要大大高于传统技术,能够弹性扩张存储容量。谷歌的GFS和Hadoop的HDFS奠定了大数据存储技术的基础。另外,大数据对存储技术提出的另一个挑战是多种数据格式的适应能力,因此现在大数据底层的存储层不只是HDFS,还有HBase和Kudu等存储架构。
区块链,是比特币的底层技术架构,它在本质上是一种去中心化的分布式账本。区块链技术作为一种持续增长的、按序整理成区块的链式数据结构,通过网络中多个节点共同参与数据的计算和记录,并且互相验证其信息的有效性。从这一点来说,区块链技术也是一种特定的数据持久化技术。
区块链是一种不可篡改的、全历史的分布式数据库存储技术,巨大的区块链数据集合包含着每一笔交易的全部历史,随着区块链技术的应用迅速发展,数据规模会越来越大,不同业务场景区块链的数据融合会进一步扩大数据规模和丰富性。
区块链和大数据是两个在过去几年中都得到飞速发展的技术。2016年第46届世界经济论坛达沃斯年会论坛的主题为“掌控第四次工业革命”,包括人工智能、无人驾驶、区块链、量子计算等在内的科技前沿领域在会议中被反复提及。
在今天,区块链能够承载的信息数量是有限的,离我们要用“大数据”的标准来衡量的地步还差得很远,不过,干里之行,始于足下,我们要一步步地来。如果要让区块链承载大数据,那么目前我们所看到的这些区块链系统都还不具备这个能力。
接下来是区块链系统的三个和大数据有矛盾,需要改进的特点:分布式的、有隐私的、安全的。
区块链系统是分布式的,而大数据讲究的是可规模化、可量化的数据;区块链系统是匿名的、有隐私的,而大数据在意的是个性化;区块链系统是安全的,信息是相对独立的,而大数据在意的是信息的整合分析。
区块链系统本身就是一个数据库,而我们所说的大数据指的是对数据的深度分析和挖掘,也就是说,数据分析和数据挖掘需要构建在区块链系统之上,把数据的价值发挥出来。如果要做到以数据为基础来做决策,那么大数据的应用是区块链系统必须要完成的个步骤。
大数据领域的同学们早就关注了区块链系统的发展。R语言是大数据领域中一种重要的编程语言。早在2014年9月, Jan
gorecki就编写了一个可以用来分析比特币区块链的程序库, Bitcoin。在htts:/cran.r- project. org/web/
packages/Bitcoin中可以查看这个库的细节,研究大数据的同学可以引用这个库来对比特币区块链中的交易数据历史记录进行分析。
从区块链技术生态圈示意图中我们可以看到,如果我们想要把区块链上的大数据做好,则需要的不只是对区块链平台技术的改进,还需要在平台之上的大数据公司为区块链系统做数据分析和数据挖掘,以及提供最好的商业智能解决方案。
大数据是一个通用的词,我们通常用它来描述数据集足够大,足够复杂,以致我们大数据的区块链化Oracle甲骨文的副总裁 Neil
Mendelson曾经对于大数据的安全性表示过深切的关很难用传统的方式来做处理。他认给网都在拼命提高数据存储的量和数据处理的能力,却鲜有人关注大数据本身的安全性。
区块链是一个诞生不久的分布式数据存储系统。它不同于以往数据存储系统的一个有趣特点在于,你无法对系统上的数据做随意的修改,而这个特点是之前其他数据系统所不具有的当区块链技术出现之后,笔者就在想这个问题:能否在大数据的系统上添加“区块链”的原理,从而使得原有大数据系统中的数据不能被随意添加、修改和删除呢?
如果我们考虑的是数据的全部内容,那么把所有的数据都放到区块链系统上是不现实的,也是不可能做到的。笔者认为这里可能有两种做法:
对于存放进来的历史数据源,因为它们是不能被修改的,我们可以对大块的数据做Hash处理,并加上时间戳,存进区块链中。在未来某一时刻,当我们需要验证原始数据的真实性时,可以对对应的数据做同样的Hash处理,如果得出的答案是相同的,则说明数据是没有被篡改过的。
只对汇总数据和结果做处理。这样,我们就只需要处理增量数据,那么应对的数据量级和吞吐量级可能是今天的区块链或者改善过的系统可以处理的。
免责声明: 文章源于会员发布,不作为任何投资建议
如有侵权请联系我们删除,本文链接:https://www.sws100.com/qukuai/133471.html