019 藏龙卧虎知识的挖掘

經由高扬在 8月 13, 2018

(繁|简)

116 閱讀

人们把那些不想或不被发现的人才叫做藏龙卧虎。该成语出自北周•庾信《同会河阳公新造山地聊得寓目》。为了人尽其才，才尽其用，古代圣贤还发明了另外两类成语：一方面鼓励有识之士敢于亮剑，如毛遂自荐、自告奋勇、挺身而出等；一方面建议广开言路举贤荐才，如伯乐相马、火眼金睛、慧眼识珠等。

虽然“江山代有人才出”，然而世事无情，“大江东去，浪淘尽，千古风流人物”。人才如此，知识更是这样。知识挖掘就是要发现深藏在组织内部、个人头脑和数据内部的知识，而不是那些飘浮于数据表面的信息。于是，伴随数字挖据技术的发展，知识挖掘也应运而生。

关于数据挖掘这个术语曾有过一场争论，是继续沿用KDD（Knowledge Discovery in Database，数据库中的知识发现），还是改名为Data Mining（数据挖掘）？

上世纪90年代，在第一届KDD国际会议上，科学家聚在一起来投票表决。结果是7票对7票，没办法只好由一位元老最后定夺：“数据挖掘这个术语过于含糊，做科研应该要有知识。”于是，科学界继续沿用KDD这个术语，而商用领域则嫌其繁琐选择了简洁的Data Mining（数据挖掘）。也就是说，数据挖掘其实是知识发现或知识挖掘。

尽管如此，人们对于数字挖掘还是仁者见仁智者见智，而且概念上也是众说纷纭。《数据挖掘原理》的作者David Hand认为，数据挖掘就是对观测到的数据集（经常是很庞大的）进行分析，目的是发现未知的关系和以数据拥有者可以理解，并对其有价值的新颖方式来总结数据。《数据挖掘－－概念、模型、方法和算法》的作者Mehmed Kantardzic认为，运用基于计算机的方法，包括新技术，从而在数据中获得有用知识的整个过程，就叫做数据挖掘。

比如，怎样摆放水堆更能促进销售？什么年龄的消费者在水堆前停留更久，他们一次购买的量多大？气温的变化让购买行为发生了哪些改变？竞争对手的新包装对销售产生了怎样的影响？

这是当年一直困扰农夫山泉决策层的问题。虽然靠过去经验能够回答一些，但农夫山泉的CIO却坚持用数据说话，寻找真实的市场认知。于是，每天100G、每月为3TB的数据源源不断地从全国各地10000个业务员那里发回总部。

从2008年开始，农夫山泉规定每个业务员必须例行公事：每天要跑15个点，拍摄10张照片：水怎么摆放、位置有什么变化、高度如何……并在下班之前将这150张照片传回杭州总部。每个业务员，每天会产生的数据量大约10M之巨。

2011年，SAP推出了创新性的数据库平台SAP Hana，农夫山泉成为全球第三个、亚洲第一个上线该系统的企业，并在当年9月宣布系统对接成功。对比发现，在没有数据实时支撑时，农夫山泉在物流领域花了很多冤枉钱。没有数据支撑的知识挖掘是浪费时间和财力。

比如某个小品相的产品（350ml饮用水），在某个城市的销量预测不到位时，公司以往通常的做法是通过大区间的调运，来弥补终端货源的不足。结果华北往华南运，运到半道的时候，发现华东实际有富余，从华东调运更便宜。但很快发现对华南的预测有偏差，华北短缺更为严重，华东开始往华北运。

如果此时太湖突发一次污染事件，很可能华东又出现短缺。采用SAP Hana后，同等数据量的计算速度从过去的24小时缩短到了0.67秒，几乎可以做到实时计算结果，这让很多不可能的事情变为了可能。有了强大的数据分析能力做支持后，农夫山泉每年以30%-40%的年增长率，在饮用水方面快速超越了原先的三甲：娃哈哈、乐百氏和可口可乐。

根据国家统计局公布的数据，饮用水领域的市场份额，农夫山泉、康师傅、娃哈哈、可口可乐的冰露，分别为34.8%、16.1%、14.3%、4.7%，农夫山泉几乎是另外三家之和。

无独有偶。挖掘大数据，让阿迪达斯有了许多有趣的发现。同在中国南部，那里部分城市受香港风尚影响非常大；而另一些地方，消费者更愿意追随韩国潮流。同为一线城市，北京和上海消费趋势不同，气候是主要的原因。还有，高线城市消费者的消费品位和习惯更为成熟，当地消费者需要不同的服装以应对不同场合的需要，上班、吃饭、喝咖啡、去夜店，需要不同风格的多套衣服。但在低线城市，一位女性往往只要有应对上班、休闲、宴请的三种不同风格的服饰就可以。

两者对比，高线城市，显然为阿迪达斯提供了更多细分市场的选择。不难看出，数据挖掘就是从藏龙卧虎的大数据中提取或“挖掘”知识。因此，从知识管理的角度来看，对隐性知识的挖掘比一般显性知识挖掘的效果更好。

无疑，我们每个人都是从受精卵、胚胎逐渐发育起来。科学家算过，如果把人的每一个原子和分子的数据都用普通U盘记录下来，可塞满整艘泰坦尼克号。人类通过基因组把这些庞大的数据在人类代际之间传递下去，繁衍至今。

通过数据挖掘和基因分析，科学家发现，大自然把这些信息塞进了22对染色体和两条新染色体及线粒体里，编排成一个31.61亿长的字符串，准确来说是六十几亿个字符，我们人体的很多信息就囊括在这些字符串里。从这个层面上来说，每个人都是条字符串。如何应用区块链技术进行知识挖掘？值得我们探讨。

对此，SAP全球执行副总裁、中国研究院院长孙小群指出，企业对于数据的挖掘使用分三个阶段：

第一步，把数据变得透明，让大家看到数据，能够看到数据越来越多；（数据呈现）

第二步，提问题形成互动，通过各种支持工具帮我们做出实时分析；（数据分析）

第三步，通过信息流来指导物流和资金流，让数据告诉我们未来，告诉我们往什么地方走。（知识挖掘）

在强调透明性、安全性的场景下，区块链有其用武之地。区块链解决了数据共享最基础的信任问题——数据可以安全地被共享，但不会被滥用。从这个角度上，区块链降低了数据的原子性，让数据颗粒度变得更小更原子，应用密度变得更高。数据提供方不一定提供聚合的数据，而是更原始的数据，然后使用方通过智能合约上的模型计算想要的结果。同时，区块链能够增强数据的聚合，为人工智能的深度学习奠定大数据分析基础。

在大数据的系统上使用区块链技术，可以使得数据不能被随意添加、修改和删除，当然其时间和数据量级是有限度的。以时间、数据量为坐标轴，列出了目前大数据引擎大致擅长处理数据的范围，区块链可在其中成为一种很好的补充。通过把大数据与区块链相结合，能让区块链中的数据更有价值，也能让大数据的预测分析落实为行动，它们都将是数字经济时代的基石。

知识是系统化组织化的高质量信息，尤其是隐性知识更是隐蔽在人的大脑中深藏不露。读链（READ CHAIN）打造的是一个知识管理平台，将通过挖掘储存在用户大脑中的隐性知识，成为知识创造、知识转移和知识分享的工具。读链利用区块链技术和网络力量改变知识存储和获取的方式，以用户为连接、以知识分享为特色，并依靠人机关系传播进行病毒式营销，以提高知识转移速度，知识传递广度和知识传播效率。

读链中人才济济，内容不乏真知灼见，可谓藏龙卧虎。读链不仅帮助用户快速找到专家及相关文件数据，还可针对具体问题，找到相应专家的意见和解决方案，而且能搭建一个协助解决问题的敏捷工作平台。只要在系统里输入几个关键词，很快就能邀请专家参与讨论，直至问题解决。不难看出，读链应用区块链技术进行知识挖掘的前途无量。

比如，通过加密算法对知识进行确权和定价，以便进行交易，所有交易都将储存在区块中，不可篡改，提高了知识挖掘的效率和准确度。另外，读币RT(Reads Token)是读链用户交换可共享知识资源的媒介，是有效的激励工具。由于读链的存在，区块链公开透明、不可篡改、可追溯等特性得以充分发挥，从而保证用户的知识创造、存储、转移和分享，以及在知识挖掘和使用过程中的公正、透明、可量化，可追溯。

分類: 14.其他類別

讚好

5 讚好

大施, 稻穗小編和 3 其他讚好

編輯建議

高端礼品重在人格化

經由：高扬

早在2000多年前，孔子就看到了礼品的意义：“发乎情，止于礼。”这就是告诉我们，礼品的本质就在于这个“情”字，人是有感情的动物，中国又是世界著名的礼仪之邦，更注重“感情”二字。如今，人们已经从之前的物...

505 閱讀

小小花絮大大连

經由：高扬

“八年了，别提它！”这是当年八个革命样板戏京剧《智取威虎山》中最火的一句台词，它表现了老猎户常宝爹对八年前那场人祸的刻骨铭心，要不是当时剿匪官兵给他撑腰请他控诉，他是绝不愿再触及那份伤痛的。然而这次的...

430 閱讀

打造虚拟现实的云展示

經由：高扬

早在17世纪，微型时装模特就是他们的标配，带着它们四处周游，向世界各地的客户展示自己的作品。如今，设计师们使用人体三维扫描仪，获取穿上他设计服装的模特三维数据，然后利用3D打印机打印出微缩模特。这些3...

601 閱讀

我的一封绝交信

經由：高扬

常言道，“人之将死其言也善”；又言“君子绝交不出恶语”。本着一向与人为善，与事随缘的心态，在2016年的最后一天，写下我与她的绝交信，希望从此不再与她有任何瓜葛，更不想因为她影响我充满况味的一生。于是...

835 閱讀

019 藏龙卧虎 知识的挖掘

019 藏龙卧虎知识的挖掘