高扬
經由 在 8月 13, 2018
14 閱讀
人们把那些不想或不被发现的人才叫做藏龙卧虎。该成语出自北周•庾信《同会河阳公新造山地聊得寓目》。为了人尽其才,才尽其用,古代圣贤还发明了另外两类成语:一方面鼓励有识之士敢于亮剑,如毛遂自荐、自告奋勇、挺身而出等;一方面建议广开言路举贤荐才,如伯乐相马、火眼金睛、慧眼识珠等。
虽然“江山代有人才出”,然而世事无情,“大江东去,浪淘尽,千古风流人物”。人才如此,知识更是这样。知识挖掘就是要发现深藏在组织内部、个人头脑和数据内部的知识,而不是那些飘浮于数据表面的信息。于是,伴随数字挖据技术的发展,知识挖掘也应运而生。
关于数据挖掘这个术语曾有过一场争论,是继续沿用KDD(Knowledge Discovery in Database,数据库中的知识发现),还是改名为Data Mining(数据挖掘)?
上世纪90年代,在第一届KDD国际会议上,科学家聚在一起来投票表决。结果是7票对7票,没办法只好由一位元老最后定夺:“数据挖掘这个术语过于含糊,做科研应该要有知识。”于是,科学界继续沿用KDD这个术语,而商用领域则嫌其繁琐选择了简洁的Data Mining(数据挖掘)。也就是说,数据挖掘其实是知识发现或知识挖掘。
尽管如此,人们对于数字挖掘还是仁者见仁智者见智,而且概念上也是众说纷纭。《数据挖掘原理》的作者David Hand认为,数据挖掘就是对观测到的数据集(经常是很庞大的)进行分析,目的是发现未知的关系和以数据拥有者可以理解,并对其有价值的新颖方式来总结数据。《数据挖掘--概念、模型、方法和算法》的作者Mehmed Kantardzic认为,运用基于计算机的方法,包括新技术,从而在数据中获得有用知识的整个过程,就叫做数据挖掘。
比如,怎样摆放水堆更能促进销售?什么年龄的消费者在水堆前停留更久,他们一次购买的量多大?气温的变化让购买行为发生了哪些改变?竞争对手的新包装对销售产生了怎样的影响?
这是当年一直困扰农夫山泉决策层的问题。虽然靠过去经验能够回答一些,但农夫山泉的CIO却坚持用数据说话,寻找真实的市场认知。于是,每天100G、每月为3TB的数据源源不断地从全国各地10000个业务员那里发回总部。
从2008年开始,农夫山泉规定每个业务员必须例行公事:每天要跑15个点,拍摄10张照片:水怎么摆放、位置有什么变化、高度如何……并在下班之前将这150张照片传回杭州总部。每个业务员,每天会产生的数据量大约10M之巨。
2011年,SAP推出了创新性的数据库平台SAP Hana,农夫山泉成为全球第三个、亚洲第一个上线该系统的企业,并在当年9月宣布系统对接成功。对比发现,在没有数据实时支撑时,农夫山泉在物流领域花了很多冤枉钱。没有数据支撑的知识挖掘是浪费时间和财力。
比如某个小品相的产品(350ml饮用水),在某个城市的销量预测不到位时,公司以往通常的做法是通过大区间的调运,来弥补终端货源的不足。结果华北往华南运,运到半道的时候,发现华东实际有富余,从华东调运更便宜。但很快发现对华南的预测有偏差,华北短缺更为严重,华东开始往华北运。
如果此时太湖突发一次污染事件,很可能华东又出现短缺。采用SAP Hana后,同等数据量的计算速度从过去的24小时缩短到了0.67秒,几乎可以做到实时计算结果,这让很多不可能的事情变为了可能。有了强大的数据分析能力做支持后,农夫山泉每年以30%-40%的年增长率,在饮用水方面快速超越了原先的三甲:娃哈哈、乐百氏和可口可乐。
根据国家统计局公布的数据,饮用水领域的市场份额,农夫山泉、康师傅、娃哈哈、可口可乐的冰露,分别为34.8%、16.1%、14.3%、4.7%,农夫山泉几乎是另外三家之和。
无独有偶。挖掘大数据,让阿迪达斯有了许多有趣的发现。同在中国南部,那里部分城市受香港风尚影响非常大;而另一些地方,消费者更愿意追随韩国潮流。同为一线城市,北京和上海消费趋势不同,气候是主要的原因。还有,高线城市消费者的消费品位和习惯更为成熟,当地消费者需要不同的服装以应对不同场合的需要,上班、吃饭、喝咖啡、去夜店,需要不同风格的多套衣服。但在低线城市,一位女性往往只要有应对上班、休闲、宴请的三种不同风格的服饰就可以。
两者对比,高线城市,显然为阿迪达斯提供了更多细分市场的选择。不难看出,数据挖掘就是从藏龙卧虎的大数据中提取或“挖掘”知识。因此,从知识管理的角度来看,对隐性知识的挖掘比一般显性知识挖掘的效果更好。
无疑,我们每个人都是从受精卵、胚胎逐渐发育起来。科学家算过,如果把人的每一个原子和分子的数据都用普通U盘记录下来,可塞满整艘泰坦尼克号。人类通过基因组把这些庞大的数据在人类代际之间传递下去,繁衍至今。
通过数据挖掘和基因分析,科学家发现,大自然把这些信息塞进了22对染色体和两条新染色体及线粒体里,编排成一个31.61亿长的字符串,准确来说是六十几亿个字符,我们人体的很多信息就囊括在这些字符串里。从这个层面上来说,每个人都是条字符串。如何应用区块链技术进行知识挖掘?值得我们探讨。
对此,SAP全球执行副总裁、中国研究院院长孙小群指出,企业对于数据的挖掘使用分三个阶段:
第一步,把数据变得透明,让大家看到数据,能够看到数据越来越多;(数据呈现)
第二步,提问题形成互动,通过各种支持工具帮我们做出实时分析;(数据分析)
第三步,通过信息流来指导物流和资金流,让数据告诉我们未来,告诉我们往什么地方走。(知识挖掘)
在强调透明性、安全性的场景下,区块链有其用武之地。区块链解决了数据共享最基础的信任问题——数据可以安全地被共享,但不会被滥用。从这个角度上,区块链降低了数据的原子性,让数据颗粒度变得更小更原子,应用密度变得更高。数据提供方不一定提供聚合的数据,而是更原始的数据,然后使用方通过智能合约上的模型计算想要的结果。同时,区块链能够增强数据的聚合,为人工智能的深度学习奠定大数据分析基础。
在大数据的系统上使用区块链技术,可以使得数据不能被随意添加、修改和删除,当然其时间和数据量级是有限度的。以时间、数据量为坐标轴,列出了目前大数据引擎大致擅长处理数据的范围,区块链可在其中成为一种很好的补充。通过把大数据与区块链相结合,能让区块链中的数据更有价值,也能让大数据的预测分析落实为行动,它们都将是数字经济时代的基石。
知识是系统化组织化的高质量信息,尤其是隐性知识更是隐蔽在人的大脑中深藏不露。读链(READ CHAIN)打造的是一个知识管理平台,将通过挖掘储存在用户大脑中的隐性知识,成为知识创造、知识转移和知识分享的工具。读链利用区块链技术和网络力量改变知识存储和获取的方式,以用户为连接、以知识分享为特色,并依靠人机关系传播进行病毒式营销,以提高知识转移速度,知识传递广度和知识传播效率。
读链中人才济济,内容不乏真知灼见,可谓藏龙卧虎。读链不仅帮助用户快速找到专家及相关文件数据,还可针对具体问题,找到相应专家的意见和解决方案,而且能搭建一个协助解决问题的敏捷工作平台。只要在系统里输入几个关键词,很快就能邀请专家参与讨论,直至问题解决。不难看出,读链应用区块链技术进行知识挖掘的前途无量。
比如,通过加密算法对知识进行确权和定价,以便进行交易,所有交易都将储存在区块中,不可篡改,提高了知识挖掘的效率和准确度。另外,读币RT(Reads Token)是读链用户交换可共享知识资源的媒介,是有效的激励工具。由于读链的存在,区块链公开透明、不可篡改、可追溯等特性得以充分发挥,从而保证用户的知识创造、存储、转移和分享,以及在知识挖掘和使用过程中的公正、透明、可量化,可追溯。
分類: 9.其他類別