找回密码
 立即注册
搜索

大数据没你想的那么玄



作者 | 张慧芳

题图 | 站酷海洛

刘鹏,现任科大讯飞副总裁、消费者事业群副总裁,兼任大数据研讨院院长。知乎著名网友“北冥乘海生”本尊,DT君最后对他的印象大概可以用“人有多大胆,我就多敢吐槽”来描画,经过著作《计算广告》,他成功俘获了大批大数据圈子人的“跟随”。“混迹”互联网圈子多年、在计算广告范畴发光发热的刘鹏却选择于往年加入科大讯飞。DT君前段工夫飞奔北京采访了刘鹏博士,对这位被戏称为“大数据喷子”的数据迷信家有了新的看法。
往年四月份末尾,刘鹏多了个新的身份——科大讯飞大数据研讨院院长,与此同时他也是一位资深数据迷信家。
对于以往的采访者,我们都会问一个成绩:“您以为什么是数据迷信?”刘鹏稍作思索说道:“没有明白定义。”他提到,大数据不是学术界或者工业界提出的,而是咨询公司提出来的,不是很严谨,不同的人有不同的了解,究其根本,他以为大数据是个工程成绩,“我以为谈不上迷信,这都是工程,谈到迷信有点小题大做。”
如今的大数据和AI曾经密不可分,刘鹏以为数据是AI的基础,而数据迷信是迷信地运用数据,刘鹏有个“江湖匪名”叫“大数据仁波切”,后来是为了调侃那些不迷信运用数据,而把大数据当做宗教信仰的一群人,最后倒成了刘鹏的“标志”。



(图片阐明:刘鹏给本人“大数据仁波切”刻的一方印章)
刘鹏在加入科大讯飞前曾在互联网范畴“闯荡”了近10年,努力于数据变现这一方向。他以为大数据变现一定要运用在数据体量足够大的行业,其中独一构成规模化、博得利润的行业,就是广告业。
但在探求大数据变现的计算方法之前,刘鹏不断学习的是语音辨认。
▍“我可没研讨人工智能”

“听说你在研讨人工智能?那你一定是骗子。”1995年,刘鹏在清华大学电子工程系末尾学习语音辨认时,这是业界对当时自称研讨人工智能群体最直接的评价,“我当时不断就以为本人学的是电子系的语音辨认,不是人工智能。”刘鹏跟DT君说,当时的清华电子系计算机系的确有人工智能的方向,“但是我们不敢讲。”当时的人工智能并不被看好。
在过去60年里,人工智能三起两落。恰巧在刘鹏学习语音辨认的那段日子,人工智能照旧处在第二个低谷期。



(图片阐明:人工智能的历史发展曲线)
1999年,正是大先生创业的好时分,也是语音产业的第一次浪潮。
国内语音研讨有“二王”,南王是中科大的王仁华教授,如今科大讯飞的创始人团队当时都是王教授的先生,王仁华教授在他们创业路上起到了一定的推进作用。
而国内语音“北王”则是清华大学的王作英教授,2000年读研时期,刘鹏成了他的门生,并继续学习语音辨认方向的内容,次要以信号处理的基础研讨为主,“我当时不以为我学的是人工智能,学术界没有一个人在提自已研讨的是人工智能。”不过,在学习语音辨认系统知识的过程中,刘鹏非常感激王作英教授给其的协助。
“王教师是从苏联留学回来的,他最大的特点是教学基础特别雄厚,说假话到如今我对他的一些教学知识还是一知半解,但是实际化、系统化地去研讨成绩是我跟王教师学到最多的东西。”刘鹏向DT君真诚地说。不过从大学进入清华到博士毕业的十年间,刘鹏以为本人只是在不断学习和积累实际知识,但并没有做出实践有意义的事情。



(图片阐明:刘鹏博士正在接受DT数据侠的专访)
2005年,刘鹏又进了MSRA(微软亚洲研讨院)的语音组,师从当时语音组高级研讨员和研讨组主任宋歌平教授,仍是停留在实际知识的探求中。
MSRA是李开复于1998年创建的,当年以强有力的“江湖号召”鼓励中国的先生进入语音辨认范畴,MSRA也随之被带“火”,到明天曾经成功向中国输入了大量迷信家。刘鹏说MSRA被称为“黄埔军校”是丝毫不夸张的,对于中国的AI发展起到了奠基作用。“尤其是UR部门(University Relations 大学关系)对中国高校的影响非常大,可以说是协助中国建立了计算机迷信跟工业界结合比较严密的研讨方法论。”
到了2006年,科大讯飞曾经处于上升发展阶段,并决议本人做语音辨认(正式与语音辨认技术提供商Nuance公司结束合作关系)。那年刘鹏和胡郁(现任科大讯飞执行总裁、消费者事业群总裁)末尾有了联络,在语音辨认上有过多次交流,为科大讯飞的发展也提供了一些建议。
人工智能的发展有了转机也是在2006年,在学术界很少有人宣传本人在做人工智能时,不断坚持研讨人工智能的多伦多教授Geoffrey Hinton将深度学习技术带进了主流学术界。
这一年,世界赶上了Geoffrey Hinton的步伐,其于1986年提出的经过反向传播来训练深度网络实际在2006年计算机运转速度大幅提升后成了能够,Hinton紧接着发表论文,提出神经网络之后的又一打破——深度学习,人工智能的发展末尾有了质的飞跃。



(图片阐明:深度学习之父Geoffrey Hinton;来源:人工智能网)
不过刘鹏以为那只是算力上的提高,实际上照旧毫无停顿。“2009年以前,人工智都还是处于低谷期。”
▍语音辨认不work,去互联网试试

“怎样想到去互联网行业研讨商业变现的呢?”DT君问道。
“如今看来能够不对,但是当时觉得语音辨认不work,想去别的范畴试试。”刘鹏照实回答。
不断在语音辨认范畴做研讨的刘鹏觉得当时的speech范畴没法真正运用到实际中,他想着是不是可以将语音辨认的方法论运用到互联网行业中,用数据和计算改变商业世界。在学术界,数据的获取比较困难,到了工业界,动辄便是上亿人的数据,质变可以产生质变。
2009年,美国雅虎在北京建了个分部。一次契机,当时雅虎北京实验室的创建人张晨和郑浩回国后找到了刘鹏,自此末尾了其在互联网广告业务的探求之路。
2016年,AlphaGo打败李世石,这个时分大众才真正了解AI的存在,3000年的围棋历史并没有为人类留下具有遗传性的系统算法,直到李世石伤心哭泣时,人们看法到机器真的会打败人类,以一种猝不及防的姿态“侵入”。
“人在本人没有经过退化选择的范畴里,实践上才能非常弱,相当的弱。”在广告范畴,人是比不上机器的,由于人没有才能“对抗”高维数据。
提到当时的工作内容时,刘鹏笑着说:“我们当时次要做的尝试就是计算广告,这是互联网里最重要的事,由于能直接带来钱。”
“计算广告”一词最早由雅虎首席迷信家Andrei Broder提出,刘鹏将这个概念简单解释为:把收费用户产品得到的资产变成钱的一种系统性手腕。这些资产次要包括:数据、流量和品牌价值,旨在用计算和数据方法驱动去处理广告的成绩,即优化支出。
2015年刘鹏出版的《计算广告》一书中初次对计算广告停止了系统的引见和分析,其中提到,计算广告是大数据运用中最为成熟、市场规模最大的行业。
“互联网给我们打开了一个新思绪:用收费的产品去获得低成本的数据,这件事情价值很大。”刘鹏向DT君说到。2010年年底,科大讯飞曾开了一场发布会,刘鹏回忆说,他以为这是科大讯飞真正“降落”的时辰,开放语音云平台,收费供开发者运用,“这件事并没有给科大讯飞带来直接现金流,但是他们的数据从上千万忽然变成了上亿,经过上亿数据分析出来的模型对于当时的科大讯飞来说起到洗心革面的效果。”刘鹏在这过程中起到了一定的火上浇油的作用。
在雅虎的阅历给刘鹏在广告变现上积累了一定的阅历,其中针对日本雅虎的搜索广告变现,应用算法根据用户搜索行为停止数据分析,获得支出的大提升。“这是在当时的人工智能范畴感受不到的快感,那个时分发现广告支出的核心不再是销售和运营,而是技术。”但是当时雅虎北京研讨院不担任中国业务。刘鹏希望将这类技术带到中国广告市场中,协助中国广告人员处理营销困境。



(图片阐明:2010年IBM公司计算机沃森参加智力比赛节目《风险边缘》并获得冠军,图片来源:cnmeonline)
2011年,IBM的沃森计算机系统在智力竞赛节目《风险边缘》中打败了两名人类应战者,纽约时报称这是大数据计算的成功,大数据进入抢手阶段。同年刘鹏回归国内广告市场,担任Media-V的首席迷信家,希冀打造新的技术广告公司。“我们是最早一批拥抱RTB(实时竞价)和DSP(需求方平台)技术的公司。”
但是随着国内对于技术型广告看法的加强,大企业纷纷建立本人的数据库和程序化广告平台,对于第三方公司非常不敌对,再加上刘鹏是北京人,回家乡发展更方便点,最终在2013年底去了360出任商业化首席架构师,顺带驱动了360对聚效的并购与整合。“当时的Media-V次要是两个业务:广告代理业务和广告技术DSP,代理的部分卖给了利欧,而360想要收买一家技术型广告公司,Media-V成为了首选。”
也是在去360之前,刘鹏末尾沉下心来整理《计算广告》一书,与他来说,他并不是为了成为畅销书作者,而是为了再次做点有社会增量价值的事情。



(图片阐明:《计算广告》对数据变现基本原理的阐述,经过数据分析发现左图只针对男性用户,剩下的女性客户可以针对性投放化妆品广告,多出来的就是数据价值)
“在我的前半生里,能称得上有点儿社会增量价值的事,除了奉养双亲、抚养儿女,恐怕只要一件。那就是在研讨生时代,我几乎将一切的专业工夫,都投入到了整理老戏曲曲艺录音并数字化这件事儿上。此事是如此令人兴奋,我日复一日地反复着简单的把老录音和唱片转成mp3的过程,并且开了个ftp(文件传输协议软件),让戏迷们下载。其间,我用坏了不少的录音机和硬盘,却从来没有想过在其中挣哪怕一分钱。”(选自刘鹏公众号《计算广告》诞生记一文)
历时两年多《计算广告》才真正面世,“初次片面系统地阐述计算广告学的著作,覆盖了商业逻辑、产品结构、关键技术、工程实际和运用实例。在内容结构编排上,本书由浅入深,从宏观背景到技术细节,从经典的搜索广告到最新的实时竞价”,360副总裁杨炯伟这么评价此书。
刘鹏向广告人引见了后向变现的商业思想:正面的收费服务是为了获得流量和数据,而背面的广告业务则是将这些流量和数据变成金钱,用降维打击的形式应对时辰变化的互联网时代。
刘鹏一直以为计算广告可以优化数据,处理广告的投放策略,甚至是创意策略。“十年前大众不以为然,2017年中国在线广告市场份额超过中国广告市场的一半,不是技术抢了传统广告的市场,是数据和技术让参与广告的人变多了,给了中小型企业机会。”刘鹏如是说。



(图片阐明:刘鹏在书中将互联网思想以硬币正反面来表示)

“在互联网的这么些年对我来说是非常宝贵的阅历,我很庆幸。”互联网广告业务的本质是把数据变成钱,刘鹏此前在公开演讲中提过,这个互联网时代没有专家,数据就是专家。
▍走出温馨圈

“大数据时代的最大应战,就是如何在海量的大数据专家们的精深阐述中,发掘出一些有价值的信息。”——来自刘鹏公众号语录
“那您为什么又回到语音辨认范畴了呢?”
“我是个机会主义者。”
往年4月中旬,刘鹏去了科大讯飞。提及科大讯飞吸引他的缘由时,刘鹏显得很轻松,端起茶杯抿了一口,然后“窝”在沙发上对DT君说:“我和科大讯飞太熟了,回这里就像回家一样。”
从2006年末尾和科大讯飞的人有了联络后,在这之后的十二年里刘鹏常常和胡郁见面交流,在360待了四年之久,刘鹏逐渐发现“人工智能走得动了”。
他提到,互联网企业给了人工智能一条腿,即拥有大规模的数据搜集才能,GeoffreyHinton给了另一条腿,即新的计算方法,处理算力成绩,“两件事一凑,语音辨认好像可以做了。”在互联网范畴待了将近10年的刘鹏走出本人的温馨圈,他想看看互联网的思想能不能运用在人工智能上,为科大讯飞带来更多新的变现场景。
“人们如今曾经看法到数据是个极为重要的资产,包括如今的人工智能都是为了获得更多数据而努力,提高算力。”人工智能的发展进入第三次浪潮,但刘鹏并不看好这次的兴起,他以为我们目前做的都是用深度神经网络经过数据凑答案,但是没有新的洞察,“这是最不坚实的一次停顿,之后会遇到更多硬骨头。”



(图片阐明:刘鹏以为人工智能的发展此后还会下滑)
采访的最后,DT君问了刘鹏关于AI恐慌论的成绩,他表示他是一个悲观主义者,“机器在AI功能成熟的范畴,替代人的工作是必然发生的事情。”但这不是他最担忧的事情,他不断在想人工智能发展到强者工智能时代能否会形成毁灭性的灾难,“当然,我们希望造出来的是没无看法的智能机器人。”



(图片阐明:刘鹏在某社交平台的发言)
刘鹏在社交平台上给本人起的称号是“北冥乘海生”,取自庄子《逍遥游》:北冥有鱼,其名为鲲。鲲之大,不知其几千里也;化而为鸟,其名为鹏。鹏之背,不知其几千里也;怒而飞,其翼若垂天之云。也正如刘鹏本人给DT君的感受一样,对大数据的研讨静得下心,沉得下气,他说他是个悲观主义者,在DT君看来,他却是少见的豁达,或许也更像他的自我描画:二。
▍数据侠门派

刘鹏,科大讯飞副总裁、消费者事业群副总裁,兼任大数据研讨院院长。曾先后任职于微软亚洲研讨院、雅虎北京研讨院、Media-V以及360等,所著《计算广告》一书成了业界全球第一本此范畴的学术专著,遭到了大数据和互联网行业的分歧好评,并成为很多互联网公司搭建变现体系时的指点教程。





▍加入数据侠

“数据侠计划”是由第一财经旗下DT财经发起的数据社群,包含数据侠专栏、数据侠实验室系列活动和数据侠联盟,旨在聚集大数据范畴精英,共同发掘数据价值。了解数据侠计划概况请回复“数据侠计划”,投稿、合作请联络datahero@dtcj.com。





本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评2

只看文字不过瘾啊~
回复

使用道具 举报

青岛空气1983 2019-2-20 22:35:38 来自手机 显示全部楼层
撸过
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies