网站导航

新闻中心

当前位置:主页 > 新闻中心 >
互联网产业占GDP比重世界第一!看大数据、共享经济如何加速改变中国
时间:2017-10-23 13:44 点击次数:
“中关村大数据产业联盟”推出“大数据100分”论坛,每晚9点开始,于“中关村大数据产业联盟”微信群进行时长100分钟的交流、探讨。
 
    【大数据100分】中科院刘颖:基于互联网数据的社会经济预测

    主讲嘉宾:刘颖

    主持人:中关村大数据产业联盟副秘书长陈新河

    承办:中关村大数据产业联盟
 
    嘉宾介绍:

    刘颖,中国科学院大学管理学院讲师、EDP中心副主任。主要从事网络经济、互联网金融、电子商务、商业数据分析等领域的研究工作。学术和社会兼 职:2011年获得阿里巴巴最佳学者荣誉称号;2009-2012年在国务院发展研究中心从事"宏观经济预测与产业分析"研究工作。主持国家自然科学基 金、北京市自然基金、中国博士后特别资助等多项科研项目。
 
    以下为分享实景全文:

    大家好,感谢新河老师的安排,现在进入自动驾驶模式。很高兴与大家分享我过去几年关于互联网行为分析的一些研究成果。今天的主题是:基于互联网数据的社会经济预测。

    谈到预测,首先简要梳理下现有的预测方法及其数据基础:

    现有社会经济统计数据存在1-2月的延迟,比如CPI、工业增加值、GDP等。为了尽早获知经济变量的未来趋势,常用的预测方法有:

    1、时间序列模型,其原理是根据历史推测未来

    2、计量模型,其假设前提是环境变量不发生变化(没有突发因素)

    3、人工智能模型,其参数设置缺少理论和经济意义支撑

    这些方法在常规条件下比较有效,但是当市场常受到大规模促销、社会或自然事件影响时,传统方法对市场最新变化和突发事件的捕获能力很有限。互联网数据为预测研究开辟了新空间,网络数据记录了数亿用户点击行为、搜索意图、倾向性、情绪,其优势有:

    1、互联网数据是一种“准自然”采样,比调查数据具有更强的普遍性;

    2、互联网数据的及时性也强于传统调查数据

    具体来看,我们把网络数据分成三种:

    一是浏览数据,主要用于电商领域的消费者行为分析,浏览数据反映了用户每一步的访问脚步,进一步刻画出用户的访问路径,分析不同页面的跳转概率等。

    二是搜索数据,主要指搜索引擎记录的关键词被搜索频次的时间序列数据,能反映数亿用户的兴趣、关注点、意图。

    三是互动数据,主要是微博、微信、社交网站的数据,反映用户的倾向性和情绪因素。

    今天主要和大家分享的是关于搜索数据的预测研究。共2个研究:一个是应用海量搜索数据预测中国股票市场;二是基于百度搜索竞价数据的中小企业景气指数研究。

    先分享第一个。首先,梳理一下互联网搜索行为与股票市场的关联机理。
 


 
    这 个研究属于行为金融与互联网的交叉领域,其原理是:股票量价调整是投资者行为在股票市场上的反应;与此同时,投资者行为在互联网搜索市场也有相应地行为 迹象,我们要做到是:找到互联网搜索市场中领先于股票交易的行为指标,综合众多投资者的先行搜索指标,对未来的股票交易作出预判。

    那么,海量搜索数据的选取、预处理、模型分析是关键,我们提出了一个数据分析流程架构。
 


 
    这部分不详细展开了,感兴趣的朋友可以查阅我的一篇论文。“互联网搜索数据预处理方法及其在股市分析中的应用”。

    这种分析股票市场的方法靠不靠谱呢?下面列举下2011年的测试数据,当时作为指导教师,带领中科院的几个学生拿这项研究成果参加了“2011花旗杯金融信息技术应用大赛”,还拿到了全国第七名的成绩。记得当时白硕老师还是大赛评委,再次向白硕老师表示感谢。
 


 
    采取一个简单地投资策略:如果预测结果未来一周大盘会涨,那么,本周就买进;反之,就卖出。投资测试结果显示:这样的策略的年化收益率是28%(如图黄色曲线)。

    为了进一步消除人工调参、主观性影响,我们随机采取了模型的参数,那么,测试结果是:最差的情况下年化投资收益15%;最好情况下年化收益31%。
 


 
    而且,这种投资策略的一个优势是:在股票熊市时,有很强的抗风险能力。

    第二个研究:基于百度搜索竞价数据的中小企业景气指数研究

    我国中小企业在数量、创造GDP、拉动就业方面的占比均已超过60%,特别是对于小微企业,好像还没有一个有效的指数度量企业的活力。PS. 景气这个词有点大:)这项研究与百度公司合作,百度提供了几十万企业的搜索竞价数据。

    把数据分成几个维度:企业规模维度:按企业规模分为两类:

    大企业,即百度搜索引擎营销中的大企业客户;

    中小企业,即剔除大企业用户后的企业群体;

    行业维度与样本量:基于百度搜索推广所覆盖的企业用户,选取“所有行业整体”、“旅游票务业”、“教育培训业”、“机械制造业”作为典型代表

    指标维度:备选指标从以下几个方面来选择:

    反映市场需求的指标:点击统计量;

    反映企业对搜索营销投入的指标:消费统计量;

    时间维度:2009年11月——2012年7月的每周的时间序列数据。
 



 
    基于百度数据的中小企业景气指数,曲线形态如上图。

    一个规律是:小企业指数是市场反应最灵敏的指标,小企业指数走势先行于全部企业;全部企业走势先行于大企业
 



 

 
    如上面两个图所示:都是中小企业指数最先下滑、探底、回升,之后全部企业指数、大企业指数才跟随着变化。为了印证百度指数的有效性,我们和国家统计局中国经济景气监测中心发布的经济先行指数做了一个对比。
 


 
    上图中,蓝线是百度大企业指数,红线是中国经济景气监测中心发布的经济先行指数,二者的相关系数为90.5%,并且,百度大企业指数领先于经济先行指数3个月。如果和中国经济景气监测中心发布的经济一致指数相比较,发现百度大企业指数领先5-6个月。如下图
 


 
    如 果说百度大企业指数能够一定程度上代表了中国经济景气监测中心的经济景气,那么,百度中小企业指数是否也可以代表统计局没有调查到的中小企业运行状况 呢?这是我们的一个推断,当然还需要进一步的验证。我们还构建了景气对比指数:景气对比指数=中小企业景气度/大企业景气度,景气对比指数小于100%, 说明中小企业景气扩张程度低于大企业景气度,景气对比指数值越低,说明中小企业相对于大企业的运营状况越差。
 

 
    此外,还做了分行业的指数。
 

 
 
 
    每个行业形态各部相同。一个有意思的现象是:发现教育培训业的指数具有反经济周期规律。我们结合中科院管院MBA招生情况,还真是经济比较差得时候,我们 MBA招生比较火爆。说明大家可能在经济萧条时更喜欢充电学习。这项研究,百度大数据部正在进行产品上线,如果顺利的话,下半年大家就会看到有相关数据的 定期发布。

    此外,基于互联网搜索数据的预测研究,我们还做过CPI、汽车销量、旅游客流量等指标的研究。感兴趣的朋友再交流,今天先分享这么多。谢谢大家的耐心和支持
 

 
 
    交流互动
 
    郭义民:
    cpi做出来的效果如何。
 
    刘颖:
    CPI这篇文章已在《管理科学学报》发表,结论是,具有监测CPI拐点的能力。
 
    郭义民:
   你们是和百度合作研究吗?
 
    刘颖:
    中小企业指数这个是和百度合作。因为是企业购买关键词竞价的数据,只有百度有,且不公开
 
   尚硕:
    宏观经济的关联性更强,尤其是中小企业指数这个项目,很有价值
 
    刘颖:
    恩,宏观经济的关联分析,我们除了应用搜索数据外,目前也在做微博数据,我有个课题是:微博情绪对旅游客流的影响。
 
    郭义民:
    是吗,那百度的数据是免费提供吗?
 
    刘颖:
    百度的搜索频次数据,可以在百度指数上查到:http://index.baidu.com/
 
    郭义民:
    你们的数据都是如何取得呢?
 
    刘颖:
    百度指数对公众是免费的,但是不能下载。只能看,不能下。
 
    尚硕:
    看看微博分享的美食或其他日用消费数据内容,与cpi关联分析应该也很有意思
 
    尚硕:
    @尚硕-拉卡拉数据 建议非常好,正在做尝试,微博文本分析有一定难度
 
    郭义民:
    另外,你们处理的数据量有多大,是否有自己的平台,使用什么工具处理?谢谢!
 
    刘颖:
    数据收集,一开始有个抓取工具,自己开发的。后来百度改版了,不能用了。目前就是跟百度合作,拿数据方便一些。数据抓取的平台,正在开发之中,但是估计是一个定制化的平台,不能满足所有的数据需求。
 
   郭义民:
   是吗,是自己开发还是请公司开发的呢?
 
    刘颖:
    自己学生开发,进度比较慢
 
    郭义民:
    是吗,可能商业化的要可靠些!
 
    刘颖:
    恩,因为是纯做研究,有些数据够用就行,要求比较低。
 
    陈新河:
    刘颖这个研究与统计局正在与阿里巴巴、我的钢铁网进行合作的项目结合,效果估计会更好。

24小时客服服务热线:4001616691

联系我们

Copyright © 2002-2020 北京中科新远科技有限公司 版权所有 京ICP备19012332号-1 京ICP备19012332号-1

地址:北京市-海淀区-上地信息路7号 昊海大厦305室