网站导航

新闻中心

当前位置:主页 > 新闻中心 >
动不起来的大数据都是发酵中的垃圾
时间:2017-10-20 10:57 点击次数:

    主持人:潘柱廷

    承办:中关村大数据产业联盟

    潘柱廷:江湖人称大潘。启明星辰首席战略官,中国计算机学会CCF大数据专委会副秘书长,本联盟副秘书长。担负联盟与学术界沟通的纽带。

    今天议题:探讨数据交易中的“数据分类”问题。 

  数据交易就要有市场,市场中的交易就要有交易品。而要形成一个繁荣的市场,交易品的品种分类,肯定是一个绕不过去的关键话题。

互动内容:

    Q1肖永:大潘先前曾给出过数据分类方式。按照数据的性质分类,一是涉及国家安全及战略的数据,可看作是战略物资;二是由大众产生的,或公共事业产生的,无法明确版权的公共数据,类似于阳光空气,大众都享有使用权利;三是各种可供交易的商品数据。
潘柱廷:对于数据的分类应当有很多方法,与分类所要达成的目的相关。@肖永提到的这个分类,主要的出发点是将“数据是资源”这个命题细化落地。

    肖永:对,这三种数据分类是按数据的性质来分类,也可按数据来源、数据格式等维度进行分类。

    Q2潘柱廷:一些领域重大的机会,常常是解决了最最基本的问题之后才有了飞跃。

    比如:有了物种分类才有了后来的生物学和进化论;有了门捷列夫的元素周期表,才有了化学的飞跃。而数据分类就是大数据、数据产业、数据科学的最最基本问题之一。当然,数据分类也是“数据交易”的最最基本的问题之一。

    赵国栋:不愧是大潘!

    潘柱廷:在数据交易中,数据的属主是一个绕不过去的关键问题。数据属主特性的分类,在交易中很重要很直接。
 
    1)涉及国家安全及战略的数据,可看作是战略物资

    2)是由大众产生的,或公共事业产生的,无法明确版权的公共数据,类似于阳光空气,大众都享有使用权利;

    3)各种可供交易的商品数据。

    这只是从所有权形态上的分类
 
    当然,为了促进数据产业特别是数据交易的长期发展,数据的所有权到底要极端明确呢?还是要保持一定的模糊?这都还需要探讨。

赵国栋:我在说明大数据预测价值时,按照过程数据和结果数据来分类。并说过程数据对未来更具预测意义。

    肖永:目前看很多数据的所有权想极端明确非常难。

    潘柱廷:而数据作为一个交易品,与实体类产品、软件产品,都有很多的不同。其所有权也是一个新课题。而基于所有权相关的分类也会非常有趣。

    肖永:嗯,很多科研项目产生的数据所有权就存在类似问题。

    赵国栋:不同的数据类型,对应不同的权利!

    白硕:对围绕数据的各种权利也需要细分。不光是所有权,使用权,修改权,衍生权,许可权,再许可权……

    潘柱廷:不同的人、不同的视角会看到不同的分类。

    肖永:抛开数据的所有权,根据数据的来源或应用场景分类,可能是数据的使用者最关注的,比如data.gov上的数据按农业、教育、能源、健康

    赵国栋:如果从我们司空见惯的世界像虚拟世界的映像来看,也许参照现实世界的物质分类是否是可行的思路?当然虚拟世界还精确的记录 了现实世界无法记录的“脚印”。

    肖永:@赵国栋是一种思路。数据分类是个盲人摸象的过程,不同的人、不同的思路会产生不同的分类。数据分类是个大学问,就好比给世界做分类。

    Q3潘柱廷:从学科基础的角度,我觉得从数据本身的结构进行分类,对研究有效的数据处理方式、存储方式、传输方式非常重要。

肖永:@大潘是说按结构化、非结构化、半结构化来分类?

    潘柱廷:我认为所有的数据都是有结构的,“非结构化”是一个不科学的说法。比如:表结构数据:交易类数据、适宜数据库存储图像数据流媒体数据(又分为音频、视频等),具有明显的时间顺序结构,图数据等等,都有结构。

    张涵诚:@大潘是相对的。

    Q4老虞:任何事务都可以从不同角度得出不同分类,这个分类又是一个新事物,如此深入分类到无穷,我们可以先讨论符合实际应用,容易落地的一级分类。

    赵国栋:一级分类!这个思路好。

    老虞:转到了分类的角度讨论了,哪个角度更容易分析,更接地气呢?可以罗列

    赵国栋:可有数据的门、纲、目、科、属、种?

    老虞:确定一级分类角度,一级分类就容易了

    潘柱廷:物种分类是数据分类应当学习的目标

    赵国栋:文明的思路好!

    潘柱廷:物种分类的门、纲、目、科、属、种,就如同数据的自身结构性分类;而生物能够飞、游泳、奔跑,这样的分类就像数据的应用属性,数据的应用价值会有自己的分类;而数据的操作会有自己的分类。找到容易操作的数据,而却具有高应用价值,这就产生了交易的欲望。

    赵国栋:从什么角度来谈一级分类。的确是个问题!

    Q5张涵诚:按照IT的观点来分类,操作系统数据,应用系统数据,机器数据,数据库数据,网络数据等等。

立得空间郭晟:数据应该按需求分类,其包含的要素会通过市场反馈自发聚类

    赵国栋:或者说我们为数据分类为了什么?有哪些需求?

立得空间郭晟:@赵国栋联盟秘书长 比如导航地图有车载需求、人行导航需求、查找兴趣点需求,现在O2O又延伸至对商品的数据整合,这一切都是在市场无形之手之操控下完成的。

    肖永:分类以致用,另外一个数据可以同时归属于多个分类。一个分类的角度供参考,分3类:商业应用程序产生的,人为产生的,机器产生的。现在最多的是机器数据(如log),其次是人类自己产生的(如邮件),最后才是商业程序产生额(如交易数据);

    潘柱廷: @肖永回到数据交易的数据分类问题,能否请数据堂分享一下你们在数据分类上的做法。

    潘柱廷:@大潘数据堂目前主要以科研数据共享为主,按照学科类目来进行分类。按照信息科学、人文社科、工程技术等三级分类,便于科研用户检索和分类使用数据。

    Q6伍星:在下也发表一点观点,从自己的角度出发,对数据主要有如下两类分类方式,一个是基于重要性的,一个是基于对象的。重要性的分类:最重要的存数据库里,还多次备份,比如用户关系,交易数据。次重要的可能保存备查就可以了,不一定要备份,比如像用户的行为日志。最不重要的数据,可能就是放在缓存里,随时可以丢失的。

    赵国栋:@伍星重要性因应用场景而定。

    潘柱廷:会按照数据的结构性特点分类吗?

    肖永:@大潘数据堂现在语音数据、图像数据、视频数据和微博数据都不少,分类的目的还是为了促进数据的使用。

    潘柱廷:现在,要推动政府、机构对数据进行有计划的积累和存储,而有好的分类方法论,是基础。

    伍星:基于对象的,我们有属性数据(比如用户信息),行为数据(比如玩游戏的动作、交易),静态描述数据(比如商品分类)等分类。   
    同意国栋的观点,大数据思维下,所有日志数据都是有用的。

    Q7老虞:数据为了决策,解决社会问题,经济问题是物质基础,决定政治文化。经济问题就是行业问题,可以涵盖社会万象,如果从涉及经济的主要社会行业来分,可以快速对应现实数据。分类角度是否可以考虑从这个出发点切入探讨呢。

    赵国栋:大数据思维指导下,可能认为日志中蕴含更加重要的信息,轻易丢弃不得。这是另外的话题了。

    老虞:@赵国栋联盟秘书长 应用场景是相对最优分类角度

    赵国栋:@老虞金融数据、电信数据、物流数据?是不是太空泛?

    Q8刘东华:从交易的角度看,我觉得应该把权益分类作为第一个维度。

    潘柱廷:还有一种分类就是:原始数据、抽样数据、筛选数据、元数据Metadata等等。我现在比较主张尽力保存原始数据,因为对数据的任何处理,都会损失一些价值内容

    肖永:@大潘同意,原始数据最有价值。另一种极端的观点:数据不需要分类,只要数据有足够的标签属性。

    张强:@潘柱廷-启明星辰-安全我同意。数据的具体应用要结合应用场景和分析师的判断,每个人的使用应该都是不一样的。这也凸显行业专家的重要性

    Q9张涵诚:哈哈,这里有天天玩数据的人吗?出来说说啊,我觉得技术层面说这个问题比较好。

    赵国栋:@张涵诚 splunk公司不就是这方面的翘楚么?

    Q10刘东华:交易物如何使用,如何发挥最大价值,其实并不是交易市场要解决的核心问题。交易市场主要解决的是交易性质(交易规则)。

    赵国栋:数据是原子性的,细分到最后就是0、1的组合。

    老虞:@赵国栋联盟秘书长 这些数据来源和使用更直接,研究更容易落地,交叉分析后容易有决策。

    潘柱廷:我认为,数据不能把原子定为0,1。就好像研究化学的,不能直接冲刀夸克,数据的原子应当是有结构的,就像“分子”的感觉。而且具有重大交易价值的常常是“数据大分子”。数据的交易模式,肯定与实体的交易模式完全不同。

    Q11刘东华:如果把数据交易定位于产权交易,那么交易之后,数据已经不再属于出售方。如果是使用权交易,买入方是不能转售的,需要买什么数据,a还是f(a),原始数据还是加工清洗过的数据,是买卖双方供需博弈决定的,不应该是交易市场来决定。

    潘柱廷:数据a属于甲方,那么乙方处理生成的f(a)是不是属于甲方,这就是一个很难明确的问题。

    刘东华:交易市场可以定义“什么不能买卖”——比如个人隐私;但不宜定义“商品应该是什么”。

    皇上:标的物可以明确法律权利啊,如果数据a销售的是使用权,也就算。也就是a销售出去,f(a)无法再行销售,如果是“产权”,那么f(a)可以继续销售。类似于足球行业中球员的所有权、销售分成权利。

    白硕:a的拥有者是否对f(a)拥有衍生权利,很好的问题。

潘柱廷:由于数据的可复制性,这种控制很难。而互联网模式就是把软件、服务、数据的这种难于控制性,通过免费来回避,用互联网模式在其他方式获得收益。数据交易也许将来也会被迫走向这条道路。

    Q12刘东华:举个例子:在菜市场里,有人愿意买馒头馅饼,因为他想解决的是“饿”的需求;也有人想买面粉,因为他想自己蒸馒头烙饼。还有的人信不过市场上的面粉质量,他也可以去买麦子回家自己磨。这就好比我们争论应该买卖原始数据?加工数据?f(a)结果?

    潘柱廷:我们每个人的通话记录,如果属于每个人的话;那么电信运营商是否可以通过拥有的整体电话记录的销售、分析等获得利益。这就是a和f(a)的权益问题的例子。

    刘东华:我觉得当a是按使用权来交易时,不一定买方就不能卖f(a)。

潘柱廷:我个人意见,对于产权的要求要宽松,因为无法落实兑现。而要学习互联网模式,进行价值的转换。我比较主张“f(a)是可以由a的买方再销售的”。因为f(a)是一个产生增值的过程。

    赵国栋:我赞同大潘的意见。

    皇上:价值转换其实带来的成本会更高,光是各个环节的价值清结算,就非常痛苦了。

    Q13刘东华:比如咱上书店买本书,假设把书的内容当做是一种数据,买的显然是使用权。但咱消化吸收以后,自己也出书了,可能把前书的精华消化了,也可能有一定的引用,这就是我在卖f(a)了。

    潘柱廷:那是不是a和f(a)的差异化足够大,f(a)就可以独立销售?

    刘东华:@大潘我个人理解,a和f(a)不是特别具有直接对比性

    Q14潘柱廷:而回到分类的话题:分类是需要说明两类数据之间的差异。那么怎么描述两个数据体之间的差异?

曾经的小卢:只要数据是可以轻易复制的,所有的价值体系似乎都很YY。就好像黄金之所以可以成为货币标的的前提是其不易获取特征。

    Q15潘柱廷:现在的互联网模式很好地解决了软件和服务的易复制问题,数据交易也要找这种方式。

    曾经的小卢:@潘柱廷-启明星辰-安全 How?我的观点是恰恰相反,正是以为数据的易复制性,才导致有价值的数据变得很难定价。

    刘东华:@曾经的小卢黄金是作为投资品交易的,数据的性质更想是消费品

    刘东华:比如全国土地和房屋销售数据是a,根据这些数据我判断房价会升还是降,升多少降多少,这些是f(a)、g(a)、p(a) 不同的人拿到同样的数据会采取不同的推理演绎算法,得出不同的结论。

    曾经的小卢:我拿到10克黄金,我没办法把它变成100克,所以该多少钱就是多少钱,但是只要一份数据可以轻松复制为10份,100份,你如何定价?

    刘东华:定价不是交易市场解决的问题,交易市场可以发现价格。

    曾经的小卢:是吗?黄金也不光是投资品。

    Q16潘柱廷:因为直接就数据进行交易的困难,也许要在其他地方寻求交换价值。就像互联网模式,用免费的软件换取广告价值。有些交易,也许不一定需要货币?

    曾经的小卢:所有以前的交易品的确可以按供需关系定价,但是数据的易复制性打乱了供需关系。

    邢艳凯:各种模式只是价值的变种,核心是不变的!利益的获取只是来自于不同的角度,本质是没有变化的。

    刘东华:@大潘是的,数据堂现在的“交易”大部分没有用到货币,同时也是“使用权”而非“产权”交易。

    张涵诚:所有以前的交易品的确可以按供需关系定价,但是数据的易复制性打乱了供需关系!赞!!!

    Q17曾经的小卢:就那黄金的例子做比,如果任何人都可以轻易复制黄金,很难想像黄金会有今天的地位。

    邢艳凯:流通是价值提升唯一的方式!

    刘东华:大家如果买黄金,是因为看中它今天的价值,还是明天的价值?

    白硕:所以交易的对象不是数据,而是与数据相关联的权利。

    徐琪:之所以使用权而非产权,主要在于交易价格的原因。当然也在于数据类型有关。

    肖永:@刘东华对,用户购买的还是“使用权”,所属权还在数据所有者手里。

     Q18曾经的小卢:交易“使用权”?这个也有些奇怪,你没有所有权可以交易使用权?就像微博上的转发一样廉价,偷来的“信息”只需要说一声“版权”归“原作者”就可以了?!

    TOM:那看你买的是投资金条还是佩戴的首饰了,今天还算有点投资价值,首饰基本没有,可是中国的大妈们依旧傻傻的买着,其实不过是消费行为。

    曾经的小卢:黄金之所以成为等价货币并不是因为它的投资价值,而恰恰相反,是它对当前价值的通用性认可,至于它以后是升值还是贬   值在交易的瞬间是不重要的。

    赵国栋:赞同!难以要求数据离场。

    Q19皇上:数据不离场,对使用者来说,就变得非常困难。

    肖永:@皇上同意,至少现阶段是这样

    张涵诚:数据从产品的角度讲,是要素品牌,哈哈,看看一本书,要素品牌战略

    刘东华:中国大妈买金首饰显然主要不是用来戴(消费)的,因为大妈们相信金子会升值,金饰品也会跟着升值。

    曾经的小卢:以在法律层面要求,事后再论,但是必须有一个虚拟的干净、安全的环境谈“数据价值”。

    刘东华:@曾经的小卢如果是看黄金的“通货”属性,那就跟数据没有任何可比性了

    皇上:我们举例,假设amazon的交易中需要对用户进行个性化产品的推荐,在这样的计算负载情况下,调用外部数据平台的数据源,这需要数据提供商拥有多高的数据吞吐能力?

    张涵诚:所以数据的产品分类和定价会不会不存在?

    邢艳凯:不是不存在,而是在于有没有去开采利用,流通换取社会价值!

    Q20邢艳凯:个人感觉所属权需要重新定义,不一定在数据所有者手里。就像所有自然矿产都属于地球,但真正拥有者是对其开采利者用,黄金也一样,是开采者在特定条件下开发出来的阶段性价值!数据价值也具有效性和所属性

刘东华:从使用者角度看,基于数据起源或用途的分类应该是有意义的。从交易的角度,权属分类也是有意义的。

徐琪:其实脱离了具体案例很难讨论数据的定价和交易模式,产权还是使用权。我相信每笔交易时,市场会告诉买卖双方何种模式和定价最合适。Follow the flow

    Q21 TOM:没有表现能力叫什么投资未来价值?你看金饰涨了他们有表现能力吗?他们充其量是卖给原厂家,人家再用金饰为抵押做了一个期限内的融资。而且大多数是不能回购的,只能换同样克数的金饰,在主权货币脱离了金本位之后黄金不过就是一个骗局。

    邢艳凯:同意@TOM 的看法,数据只是价值的载体。

    刘东华:@邢艳凯各类交易,交易的不正是各种“价值的载体”么?如果数据是“价值的一种载体”,那就说明数据有交易价值。

    TOM:你有你的f模型做出来好的价值数据就够了,至于你的库,人家淘宝不给你独家你也没辙不是。这就是你的add value,就够了吧。其实数据本身就是价值不是载体,这是科技发展了,而大家可以获得更多的数据而已。

    肖永:数据有价值毫无疑问,关键在于怎么让数据更好的流通发挥更多的价值。

    张涵诚:数据如语言,如知识论,我们如何描述这个世界。数据目前是在承担这样的工作吗?

    Q22潘柱廷:兑现需要 vs.使用需要,如果有很大矛盾的话,使用需要最终一定会赢。就像免费个人杀毒干掉了付费杀毒。泛泛地谈数据的交易、所有权等等都很困难,还真的需要对于数据进行分门别类。针对不同的分类,再具体落地地谈交易、所有权、操作等话题。今天的话题“数据交易中的数据分类”还真是一个非常基础而困难的话题。我觉得数据分类应当有一个国家工程,建立“数据标本库”。而这个的前提条件就是产业界有这样迫切的需求和愿望。每个互联网公司所拥有的也是某个门类的数据标本集合。数据堂就是一个民间的数据标本库。而要实现生物标本库那个水平的数据标本库,还需要社会的合力,国家的基础投入。数据交易肯定一直是大数据产业中的重要话题,而数据交易有很多模式,不一定经过货币。而且数据也不一定一定要交易,可以交换或其他。

    肖永:欢迎大家访问数据堂网站并指导!

    邢艳凯:将来数据开放基于政府引导还是市场倒逼都会走向公开

24小时客服服务热线:4001616691

联系我们

Copyright © 2002-2020 北京中科新远科技有限公司 版权所有 京ICP备19012332号-1 京ICP备19012332号-1

地址:北京市-海淀区-上地信息路7号 昊海大厦305室