为什么小数据比大数据更重要

 

大数据在2015年一年的收集量比有史以来人类总共收集到的数据总和都要多,可是有90%都没有被利用,成了废数据。问题出在哪里?请看下文:

早在2014年,加州大学戴维斯分校的技术管理学教授巴格瓦(Bargava)博士就指出了大数据发展的困境。大数据的最显著的4项特色为

1.大小 (size)

2.格式 (format)

3.年龄 (age)

4.发现 (discovery)

 

首先讲数据大小。很明显地,大数据就是有大量的数据,大量的数据中还有更多的数据属性(attribute),利用这些数据的方法就是通过这些大量的属性来衍生可能被利用的推算。但是如此多的推算并不是每一个都可以被利用的,这么多属性的推算很多在实际场景中是无法运作的,无法使用的概率高。这是数据大小的问题。

 

格式。大数据的数据种类已经从单纯的数字数据转移到多种格式的数据(如图片,视频,文章等)。多种类型格式使得大数据的可以在更宽广的生活特定场景中运用,这是领域方面的一个拓展。

 

再来看数据年龄。从前,从大数据的收集到分析与采用通常需要以月记、甚至年记的时间,等到可用时数据已老化,但目前技术已经达到了可以实时收集并使用。

 

最后是数据的发现。当今数据的发现已经可以使数据分析师与分析系统在数据上进行元信息(meta-information)标注,使得机器可以理解并使用。结果是一个分析系统能够自动找到可以使用的信息。

 

你可能会问,为什么有了这么多的发展,仍然会有90%的数据是被不被使用的呢?

非常简单,这些数据不是不能被机器使用,而是单纯地被垄断。

 

2016年的谷歌云 NEXT的旧金山论坛有一个关于the Internet of Things (物联网,简称IoT)的为题“数据与分析:从小数据到大数据”的演讲,旨在通过谷歌云平台利用各种日常电子设备进行小数据收集(如手机,亚马逊Alexa,Fitbit健康跟踪)来满足谷歌云的数据库。IoT的技术是非常好的,但有一个问题,这个问题就是前文提到的“数据垄断”。大公司们都不想将自己的数据给别的平台分享,谷歌云就不肯与亚马逊分享,都不想流失自己的用户,使得数据使用这一条道路始终难走,大公司主导大数据成为时代障碍。

于是有人就开始找办法,矛头直对准小数据。

 

 

(图为仅有35%的大数据使用用户可以分享其数据,仅有12%的大数据被数据分析师使用)

 

小数据与大数据不同,小数据针对使用场景单一,对应算法专业。如果大数据的使用场景是特斯拉的自动驾驶系统,那么小数据的使用场景就是系统的摄像头中的寻找汽车这一单一物体的算法。小数据的好处就是数据种类需求非常的明确,将数据提供的门槛放低,使得个体提供者有提供的机会。

 

 

(图为特斯拉自动驾驶系统的实时图像)

 

一个非常经典的例子就是一个识别数字的深度学习算法:

 

 

这一个算法恐怕是专一得不能再专一的了—— 只用来识别0-9中的一个数字,比如上图中就需要识别左上角的数字“1”。训练这样一个算法所需要的数据就得用个性化的小数据,这些数据必须得是0-9的数字,并且每个数字的写法输入越多,算法训练得就越精准。同时,这些数据是任何人都可以提供的,随便画两笔创造一个数字图形数据就行,门槛非常低。

 

所以,现在只要有一个民主化的平台,个体贡献就可以实现。从目前来看,实现此类型平台,区块链技术是最好的选择。区块链技术的P2P特点与其智能合约技术,使得数据提供者有一个可以分享自己数据的平台,从而打破只有35%的数据被分享的局面。同时利用其代币可以建造一个奖励数据提供者的激励机制,使得数据收集、分享、使用成为一个生态系统。根据小数据与信息民主化的道理,咱们来分析几个已有的区块链技术平台。

 

Steemit。这个写文章就赚美元的平台大家都知道,你作为作品贡献者,个人就可以为自己的作品得到报酬,报酬根据你的作品受到的关注度/热度成比,质量越高报酬越高。非常简单的通过写作就可以赚钱的平台,只不过在这个平台上,写作就是你的数据贡献。

 

Bottos(中文叫铂链)。这个是贡献前文所说的人工智能算法数据就可以赚币的平台,你作为数据贡献者,只要数据质量高,可以为算法训练所用,数据就可以被挑选参与到算法的发展(development)中,这样就能赚币,数据质量越高报酬越高。

 

第三个是Lampix,叫做“神灯”,投影交互技术(interactive interface),用户可以在投影下用手操作程序,通过用户提供数据来训练交互系统的准确性,同样是有贡献就有货币报酬。

 

还有什么项目大家可以一起分享。