主讲人:王博龙
主持人:郑毅
承办:中关村大数据产业联盟
郑毅:今晚“大数据100分”三分钟后正式开始,由数音堂CEO王博龙@数音堂-楚人怀玉和大家聊聊音乐大数据。
我是云基地大数据实验室合伙人郑毅,也是中关村大数据产业联盟副秘书长。今天由我来主持“大数据100分”。
云基地大数据实验室依托北京云基地与宽带资本,投资了一批大数据创业公司。@数据堂-齐红威 已经和大家聊过好多次数据市场,数据堂也是我们投资的公司之一。
本周是大数据实验室投资的大数据公司集中亮相时间。
周一,数音堂CEO王博龙@数音堂-楚人怀玉 和大家聊聊音乐大数据;
周二,快逸行COO罗洪涛@Simon 和大家聊聊车联网与大数据;
周三,数联寻英首席市场官曾舒煜 @RockyZeng 和大家聊聊大数据用于人才招聘与企业绩效管理
周四,中国最早的3D打印实践者张铭 @zhangming 和大家聊聊3D打印。
周五,有神秘嘉宾出现。
一周精彩活动,敬请期待。
王博龙@数音堂-楚人怀玉 是北京航空航天大学研究生,同时也是摇滚乐队“楚人怀玉”的主唱,他创办的数音堂致力于将大数据用于音乐领域。
王博龙@数音堂-楚人怀玉 你还是先给大家介绍一下你的数音堂吧。
互动内容:
Q1数音堂-楚人怀玉:#音乐大数据# 或者说网络歌曲的创作模式已经异化成了一部机器。但在个推之外,音乐产业的行业数据以及它所可能产生的商业模式同样让人浮想联翩。如果把大数据采集分成 基于“利”跟基于“名”的话,音乐大数据更倾向于后者。
郑毅:是啊,@数音堂-楚人怀玉 就做了很多有意思的商业模式。看来,歌手要出名就要找数音堂啊
赵国栋:数据与时尚、流行元素的结合!
innovate511:@郑毅 可以尝试用大数据快速捧红一个歌手试试,如果能行,这个产业不错,哈哈
郑毅:@innovate511 数音堂已经开始做这些工作了
Q2数音堂-楚人怀玉:另据相关经纪公司透露,吴莫愁同志近期正在筹划自己的IPO事宜
郑毅:哈哈,吴莫愁如何做信息披露?是不是要靠你的音乐大数据啊?
数音堂-楚人怀玉:ok,刚刚是抛出一些遐想,也许二十年之后人类将习惯通过股票交易的方式支持自己看涨看跌的歌手。@郑毅 唱片公司宣传艺人的思路往往高度定制化,充满了偶发性与不确定性。唱片公司判断一个艺人往往就是两个状态 火 没火,这也是行业数据缺乏导致的
郑毅:哦,看来唱片公司发奖金都是看老板的心情了
Q3徐琪:据爆料1974年生的京东掌门人刘强东和1993年生的清纯“奶茶妹妹”章泽天在一起了!音乐大数据有没有这样的预测数据?
数音堂-楚人怀玉:@徐琪 这的是音乐么。。。。貌似更偏事件,而非音乐传播规律的发掘
Q4数音堂-楚人怀玉:通过去年对30余家唱片公司的接触,我们普遍发现,唱片公司,缺,行业数据。版权部门缺数据,不知道怎么收,收多少,渠道数据不真实,很多谈判式的版权收缴木有数据作为底牌。宣发部门缺数据,不知道怎么打宣传,怎么花钱,走什么样的渠道更高效,到达率如何。唱片制作部门缺数据,不知道今年什么流行,编曲方向如何定,收了100首歌的词曲该用哪些。所有这一切的根本原因是行业数据缺乏整合,甚至在某些维度上连最初级的抓取工作都还没开始。所以不同于电商,金融大数据,音乐大数据的大量数据都不是现成的。唱片公司属于比较懒散的作风,很少见到唱片公司有明确的kpi。曾经的唱片工业是有唯一评价标准的,一如现在的电影市场,以票房论英雄,90年代的唱片公司的硬指标就是专辑销量。所以什么才是音乐传播真正的渠道数据所在呢,我们可以分成四大布局,八大终端去看待这个问题。四大布局:传统媒体(电台,电视台),现场(音乐会,卡拉ok),背景乐,互联网(彩铃,个人终端,流媒体)。八大终端各自分散在不同的宇宙里,需要去整合,整合不了的需要弯下腰去挖掘。数音堂就在做这样的整合与挖掘,从传统媒体入手。最后阶段奉献给大家一段我们跟恒大音乐合作的大张伟的数据可视化。就是那个feel 倍儿爽的传播,我们从20天2万条微博数据中抓取,分析,并针对72个省级音乐台进行监听。
Q5 innovate511:@数音堂-楚人怀玉 是否可以根据欧美流行音乐和国内的情况预测呢?
数音堂-楚人怀玉:@innovate511 “情况”指的是。。。
innovate511:@数音堂-楚人怀玉 欧美流行的风格,元素和趋势
Q6徐琪:艺术创新领导新潮流?还是艺术复制跟随大数据?
数音堂-楚人怀玉:@徐琪 其实@智能养老牟荣增 可以这样看,音乐在制作环节是不受大数据影响的,作为一个音乐创作者,我可以说这是艺术创作的内在规律
徐琪:是先有中国的摇滚市场再有崔健?还是先有崔健才触发了中国摇滚乐的市场?
数音堂-楚人怀玉:@徐琪 鸡蛋蛋鸡,啊啊啊啊。
Q7徐琪:我家里有音乐人,我问她N次,大数据是否能够帮助她写出迎合市场的歌曲,回答是“我是音乐创作者,不是音乐加工匠”。
数音堂-楚人怀玉:@徐琪 音乐加工匠在业内其实也不少,比如“冒牌唱片公司”
Q8智能养老牟荣增:张雨生自己制作的那两张艺术性强的专辑根本卖不动
数音堂-楚人怀玉:@智能养老牟荣增 就像不要称呼独立小众音乐人为“歌手”一样
Q9郑毅:现在唱片公司更看重什么呢?专辑销量这个指标肯定不行了
数音堂-楚人怀玉:@郑毅 看重各大榜,但是不参考各大榜的数据。“榜”非但没有提供行业数据的重要参考,维持公正与客观,反而沆瀣一气,成了唱片公司竞相购买贿赂的商品
Q10智能养老牟荣增:湖南卫视因为爸爸去哪收视火爆,所以拍了一个低成本电影,创造了4亿神话,各位专家是不是也归功于大数据?
数音堂-楚人怀玉:@智能养老牟荣增 影视行业现在充满了大量的大数据成功学
郑毅:@智能养老牟荣增 条条大路通罗马,大数据是其中一条而已。
智能养老牟荣增:@数音堂-楚人怀玉怎么赚钱?
数音堂-楚人怀玉:@智能养老牟荣增 面向唱片公司做咨询,我们一主一从两个盈利模式,更多的问题可以私聊哈。
智能养老牟荣增:呵呵,歌手上一些电视台的烂选秀节目和搞搞炒作跟有效
Q11数音堂-楚人怀玉:#音乐大数据# 以上是我们为唱片公司行业定制的艺人行情客户端。所以以后真的上市了人类是可以交易的
郑毅:哈哈,我们可以开始买 汪峰 这个股票了
数音堂-楚人怀玉:我们综合播放平台在微博上的分享数据,微博上艺人的舆论数据,以及广播电台的播放数据做整合
Q12徐琪:问题来了,五个网络播放平台又占所有听音乐的人群的百分比是多少?我每天听歌三小时以上(工作时背景音乐),但是使用网络播放平台很少。
数音堂-楚人怀玉:@徐琪 贵公司会在工作时播放背景乐是吗,我们其实也开发了这样的嵌入式设备,永不间断的听歌识曲,作为下一步背景乐的布局,每一台成本约在300元左右
徐琪:@数音堂-楚人怀玉 能介绍一下你们获取那五家平台的数据模式和成本吗?
数音堂-楚人怀玉:@徐琪 其实是通过微博分享数据倒退的,这样做成本不高。也在跟运营商沟通,拿数据不是问题,意愿也很明确,难的是我们这边需要做音乐品类的DPI。每天几十亿条的数据处理并发是个大坑
徐琪:@数音堂-楚人怀玉 确实音乐品的DPI模型需要经验和许多修正
数音堂-楚人怀玉:@徐琪 不过价值还是蛮大的,平台数据可以充分满足唱片公司跟播放平台之间扯皮的需求
徐琪:@数音堂-楚人怀玉 改天请教一下获取数据的经验。
数音堂-楚人怀玉:@徐琪 荣幸荣幸,坐等DPI大牛排忧解难。
Q13郑毅:Cool,数音堂的音乐识别技术做得怎么样了?
数音堂-楚人怀玉:@郑毅 针对电台的打磨的不错了,不同于一般的音乐识别技术,电台在播放歌曲时声音波形跟原曲有很大不同,需要在几个参数里调优。
Q14数音堂-楚人怀玉:我们结合我们的监测技术不光提供播放这首歌的时间点,还提供当时的音频回溯,然后唱片公司看重的是这里头DJ介绍这首歌的串词,把不同的串词剪辑到一块特别有排山倒海的效果
郑毅:音频回溯?
数音堂-楚人怀玉:是滴 追根溯源
郑毅:哈哈,回头找你听一听“排山倒海”
数音堂-楚人怀玉:就这时间点去找播放点前后的广播事件。用针对广播进行调优后的音频指纹识别技术对电台节目流作清洗
郑毅:哦,看来你也维护了一个音频指纹库啊
数音堂-楚人怀玉:是滴~~200万首歌曲
郑毅:200万首歌曲~~~,世上一共有多少歌曲啊
数音堂-楚人怀玉:华语乐坛基本覆盖了,英文歌曲的产量远高于中文歌,据不完全统计接近3000万首。不过国内传播还是以中文为主,大的曲库量需要分布式索引。
郑毅:这个音频指纹库就很有价值了。除了监听,你们还用这个曲库做了什么别的好玩的东西?
数音堂-楚人怀玉:电台的录音也很有价值,@郑毅 对于这种低读取率的东东下一步准备用蓝光
Q15程耀东:@数音堂-楚人怀玉,你们的可视化工具用的是什么
数音堂-楚人怀玉:破碎的可视化全靠ps,infogram不好用
Q16皇上:按照1首5M来计算,200W首存储其实也不算太高,但是需要做这么多家广播电台的监听,应该是数据流计算,类似storm这种计算框架处理的么?
郑毅:5M * 200W = 1PB,也不少了。不过,我相信数音堂只是把音乐的一些关键特征进行抽取、存储。这些技术机密,也许适合私聊
数音堂-楚人怀玉:我们是拿ttserver+solr常驻内存的方案,同步在跑的beta版改进算法会改成mongoDB,因为结构作了调整。
数音堂-楚人怀玉:这个是我们的二梯队官方微博针对广播电台播放摇滚乐这类事件做的统计,然后被郝云同志转发了两次,因为他的名字实在太大了。