阿里人工智能这五年天才的野心与自证
采访
四月
撰文
四月
过去五年,阿里在全球人工智能的激烈赛道上悄然跑进了第一梯队,背后一群以达摩院称号对外示人的科学家群体愈发神秘撩人。
这是一群野心勃勃的科学家,亲手打破旁人艳羡的舒适区,踏入充满禁忌的未知地,只为寻觅更广阔的舞台。他们一生都致力「求证」,或于学术理论,或于技术价值,并愿意承担随之而来的冒险和境遇窘迫。
这五年,阿里经历了人工智能技术长征的发端与突围,而他们,也经历了一场巨大的冒险与自证。
初见之时,你或许会讶异他们滔滔不绝地谈起「买单」、「落地」、「规模化」等商业味浓厚的字眼,全然没了学究气,仿若一位身居一线的创业者心心念念……
直到你听说过那段既艰难又幸运的岁月,一切便了然于心——唯有越了解真相,才会变得越务实。
人生的绝妙之处也在于此,改变他们的不是早年风光的求学路,也并非当下所拥有的物质地位,而是源于一次又一次被质疑和误解后的绝地「自证」——不同于象牙塔里、试验台前的公示推理和仿真验证,商业场上的「自证」需要拿出实实在在的业务指标和实际效果,正如阿里办公区里那句随处可见的标语——「NODATA,NOBB」。
强压之下的「自证」氛围造就了科学家们近乎苛刻现实的技术价值观。
待繁务卸下,他们重拾赤子之心,沉浸于算法公式和理论推理的乐趣。但人生并不总有自由浪漫的时刻,更漫长的是披荆斩棘的孤独与煎熬。
通过和近十位阿里巴巴人工智能科学家的对话与交流,本文试图还原阿里打造人工智能技术体系的荆棘路,以及路途中科学家们的内心征途。
1.既艰难又幸运
多年以后,遇上北京的雾霾天,漆远没准依然会想起那个加班的春节——西大望路的阿里妈妈会议室里,一桌人戴着口罩开着会,工位上的空气净化器呼呼作响,窗外是望不到对面楼的雾霾天。
回国前,漆远已经在脑海中罗列过一连串的适应清单,以备回国后的各种挑战,而「迷雾危机」大概是被遗漏的最重要的一条,它不仅来自于北京的天气,还包括那个大胆的决定。
漆远曾走过一条无数理工男梦想的坦途:31岁麻省理工大学博士毕业,39岁成为一流大学终身教授,定居美国,拥有宽敞明亮的实验室和独栋别墅,一位美丽的太太以及两个可爱的孩子,一年两次固定的长假足以让他兼顾工作和生活的完美平衡。
直到一次大胆的决定,漆远亲手打破了这种平衡。在拒绝谷歌、Facebook、百度等公司的邀约后,漆远决定归国到杭州工作,选择了当时看起来「最没有技术范儿」的阿里。
年9月19日,时任阿里巴巴合伙人的王坚带着漆远来到纽交所,共同见证了阿里巴巴的上市,7位敲钟人全是阿里电商的买家和卖家,却没有一位是科学家。
面向华尔街,这家彼时市值亿美金的公司并不满足被定义为一家「电商公司」。他正在谋划一个崭新而宏伟的「想象力故事」,以便让公司在未来获得更强劲的增长动力。
他明白,前沿技术会是这个故事的主角,紧接着iDST(数据科学与技术研究院InstituteofDataScienceTechnologies)宣布成立,漆远和金榕成为早期创始人。
但彼时彼地,故事听起来不免有些冒险主义——中国互联网市场仍处在模式创新的初级阶段,一家以商业利益为本的企业凭什么打造技术驱动的研究院?国内几乎没有任何成功的营运模式可以参考。
未知的挑战首先降临到了早期创始人和研究机制身上。
漆远,现达摩院金融智能实验室负责人
加入阿里后,漆远接到的首个任务是打造一套大规模机器学习平台,落地到淘宝的广告平台阿里妈妈。他清楚地记得,当时手里攥着两千万特征,14天的数据。由于数据量太少,他计划积累到半年数据后再启动。
同时,他还提交了一份申请数千台服务器的计划。这并不是一笔小数目,直到现在一块英伟达的计算卡仍然要价美金,计划讨论后就被否决了。
等了半年,服务器仍没有拨下来,巧妇也难为无米之炊。「当时没有GPU集群,整个集团都没有」,漆远说道,「同事们认为,『你们这帮教授老师过来,基本不懂业务,也不懂技术』」。
秀才遇到兵,有理说不清。漆远的团队陷入了不能「自证」的悖论里:没有GPU集群,如何证明自己的算法和技术高效?不能证明自己的算法和技术高效,如何争取到GPU集群?
漆远曾试图据理力争,僵持状态几近半年,「团队一度走在解散的边缘」。
金榕是iDST的另一位创始人,美国密歇根州立大学终身教授,曾获得过美国国家科学基金会奖(漆远也获得过该奖)——有超过位诺贝尔奖得主都获得过这个奖金的资助。
金榕,现达摩院机器智能研究领域负责人
金榕带领团队为「聚划算」提供流量分发的技术优化,团队很自然地把低价商品排列在搜索和推荐结果的前列以提升成交量,却忽视了对业务本质的理解——低价虽可刺激购买,却让目标用户群从二三城市转移到三四线城市。
「虽然GMV上去了,但产品的价值都变了」,金榕说道。
业务为技术开路,科学家们却在无意中篡改了产品的内核,「短板暴露得非常明显」,金榕谈道。当时团队多为研究背景,精通基础理论,却缺少业务理解和工程实践经验,所以看不到技术到产品中间的巨大鸿沟。
「你们要想在阿里发挥出真正的价值,就必须克服这些困难」,当时的阿里COO张勇找到金榕和几个骨干说道。
既然不够熟悉业务,那就去到第一现场吧!
于是,iDST的早期科学家们兵分多路,以电商和金融两大核心业务为首,深入到产品和工程里。金榕带着团队进入到淘宝和天猫的搜索事业部,漆远和几位同事去了蚂蚁金服,做语音的团队则留在了阿里云。后来这被称为阿里科学家们的「上山下乡」运动。
技术的觉醒并不止于高层,更早些,一股从下至上的创新力量就窜上了头,内部创新的文化开始流行——「只要你的老大不反对,就是对你最大的支持」。
年的十一国庆,李昊印象尤其深刻。他没有旅游计划,也不用回老家走街串巷,而是一人闷头在办公室里捣鼓。一连七天,他都在工位上敲打着键盘,像是着了魔。
终于,赶在假期结束前,他长舒一口气——Demo跑通了,由一块GPU搭上一台主机,纯手写的用于图像搜索的深度学习算法。再简陋不过的装置,但结果令人欣慰——比传统算法的准确度有了明显提升。
正值第三次人工智能浪潮起势,ImageNet大赛进入到第三届,深度学习教父GeoffHinton和他学生设计的AlexNet在赛事中大放异彩,基于深度神经网络的思路一举解决了图像分类的棘手难题,至此开启神经网络百家争鸣的盛况,更深、更宽的网络层出不穷。
李昊从外文网站上读到这些消息时备受鼓舞,他博士毕业于中科院光电技术研究所,来阿里不到一年,满腔学以致用的迫切。
李昊,阿里巴巴资深算法专家
早在年,谷歌豪掷1亿美金收购图像购物搜索网站Like.COM,掀起全球图像搜索的风口。文字搜索场景有限,图片描述更为加精确,微软、亚马逊、百度纷纷出手,阿里也顺势投资了一家图搜购物网站(现名为「淘淘搜」),通过识别图片上的实体物品来索引网络上对应的店铺链接。
遗憾的是,随着移动互联网时代的到来,图搜风口很快熄火,手机实拍图的普及,让搜索结果越来越不可控,图搜应用体验大幅受挫,不少创业公司濒临倒闭。
「实拍图的比对相比PC的原图难得不是一星半点,已经不是传统图搜技术能应付过来的」,李昊说道。
既然传统图搜技术已经无以为继,那在视觉领域技惊四座的深度神经网络能否奏效?为此,李昊花了整个国庆假期来验证这个想法。
「他很兴奋,一直给这个看,给那个看,非常大力地推广」,李昊回忆起将Demo交给主管时的场景。就这样,团队争取到一次向时任淘宝CEO展示的机会,这次是直接在手机端演示——手机拍照,实拍图和库里已有图片做比对检索,找到和相似的照片显示——相比传统算法提升了一倍。
很快,「图像搜索」项目在年正式启动,目标是落地到手淘(手机淘宝应用)平台。
刚来阿里三个月的潘攀被任命为负责人,兼顾算法、工程、产品的统筹,团队力量充沛。潘攀毕业于美国伊利诺伊大学芝加哥分校博士,此前在美国三菱波士顿研究院、北京富士通研发中心从事视觉领域的研发工作。
潘攀,现达摩院视觉智能研究领域资深算法专家
延续此前团队推动的技术路径,「图搜」采用深度学习技术,随之成为阿里历史上最早采用深度学习技术并上线的C端应用产品。
和大多数互联网公司战略先行的思路不同,阿里在技术探索的早期并没有大刀阔斧地批项目,而是从现有的核心业务盘子上找切口,克制而谨慎地实验性验证,然后才推动落地。
「当组织里的算法和研发比较少,更多是由业务和产品构成时,就决定了大家对于技术不确定性的理解会非常有限」,潘攀说道,「对于一家互联网公司,做项目就一定要做出来,看得到结果」。
这是一个又艰难又幸运的过程,当行动早于认知,缺少资源、无人信任、无法施展等困境便接踵而来,这既是商业公司的盈利性质所决定的,也是新生事物萌芽期所必经的考验。
但幸运的是,无论是自上而下的理想主义,还是自下而上的创新力量都得以保留,幸免于昙花一现的口号和想法。
火种尚存便可以燎原。
2.坐在金山上啃馒头
「坐在金山上啃馒头」,这是漆远加入iDST时听马云说过的话。金山就是阿里巴巴拥有的丰富数据。但是即便坐拥金山啃馒头,也难以一口吃成个大胖子,「如果数据的价值不能被挖掘出来,那不过就是普通的土壤」。
随着深度学习算法与模型的普及应用,「调参」工作成为大部分算法工程师的日常,淘宝和天猫的搜索团队一开始也不例外。
因为深度学习算法的不可解释性,很多基于该技术的方案就像是一个「黑盒」,模型中的参数选择和调整成了一件难捉摸的事,往往意味着繁琐而毫无头绪,没有技术含量。
在漆远看来,光是调参远不能建立起技术体系,「虽然属于工程层面的工作,但仍需要科学的思想指导——最好的工程指导就是科学,否则你就只能是一名调参工程师」。
与漆远秉持同一观点的还有金榕。「原来我们都是做些调参工作,直到金榕老师来了之后才把我们带上正轨」,李昊谈道,「他常反问我们,深度学习为什么能奏效?你能从理论上解释吗?」
「图搜」项目之后,李昊便来到了搜索技术部——阿里最为核心的算法部门之一。在这里,李昊遇到了前来深入业务第一线的金榕。
李昊当时的主要工作是为深度学习模型进行压缩与加速优化,一般做法是套用现有模型,但金榕通常会提供新的思路,「他给了我们一堆的公式,让我们去试」,但这一试就是三个月,也没出结果。
当李昊和同事怀着忐忑的心情找到金榕,他并没有因此责备,反而给予鼓励,「如果三个月就能做出来,那就是太简单了,继续去做吧!」直到第四个月算法总算跑通。这套算法将Embedding技术结合深度学习引入到搜索业务中,明显提升了淘宝主搜索的GMV。
李昊回忆,当时金榕还做了一套非常长的理论证明,证明算法是可收敛的,并在内部分享,「他当时给予我们的理论指导,正是我们所稀缺的」,李昊对此十分感激。
来到蚂蚁金服的漆远则接到了智能客服的项目,通过智能交互机器人来解决支付宝的客服问题。这一次,他顺利很多,获得当时集团客户服务部负责人戴珊的支持后(戴珊是阿里巴巴早期创始的十八罗汉之一),很快争取到了资金和资源进行技术的验证。
在阿里科技发展早期,以阿里合伙人为代表,形成了一股来自理想主义的推动力量。
年的双十一,首次采用深度学习技术的支付宝客服实现了94%语音自助,这意味着有94%打来的电话不再需要转接到人工服务,次年,这个数字提升到97%。去除掉人工智能团队的人员工资和计算资源成本,智能客服项目为公司节省了一个多亿。
所谓「知人善用,人尽其才」,技术工具同样如此,唯有了解AI,才能用好AI。
要在一家互联网公司里树立起对于新技术的认知和信仰并非易事,这为科学家们设置了一道又一道的障碍栏,甚至不可避免地造成了人员流失。
但回过头来看,或许正是有了「上山下山」的共事经历,才算是真正打通了「研发」和「业务」的对话体系,让阳春白雪和下里巴人从此互融。
技术之后,便是产品工程化的进阶挑战。
哪怕有高层支持,也不意味着就此被保驾护航,伴随而来的反而是更大的压力。图搜立项的第一年就设定了明确目标——日活过百万,「打从立项之初就不再是实验性的了」。
与初期的深度学习算法探索不同,后期的挑战就像无底洞一样填不满。
「问题的关键在于,我们不是在做一个独立的APP,而是让它落在手淘上」,潘攀说道,「而且还是阿里最为核心的业务平台」。落地手淘,意味着图搜需要调用手淘的底层接口,需要针对淘宝内部的链路架构做额外定制和调配,而淌通这些链路就是最大挑战。
在视觉领域,大规模图片的压缩极其消耗算力,这为大规模的图搜访问埋下了隐患,一次意外报警让潘攀记忆犹新。
一天,图搜的服务器突然被拖垮,后台出现报警。
经过紧急排查,团队才发现,原来是淘系后台针对图像上传的默认压缩功能拖垮了服务器。默认压缩主要针对低频、小访问量的媒体上传需求,但并没有考虑到图搜的特殊情况——数据规模大,且需要实时识别,所以已经在前端预设压缩功能。换句话说,淘系的图片默认压缩对于图搜反而是一种负担。
在发生警报之前,大家都忽略了这么细微的接口。潘攀谈道,「很多时候就是这样,即使我们自己考虑到位了,但如果要连接到更大的系统上,还是会出问题」。
上线并不意味着挑战结束,比如,还有深不可测的入口。潘攀清楚地记得,图搜第一次上线的位置是手淘的一个四级菜单里。「四级」,则意味着你首先要在首页里找到「发现」,然后点开「特色服务」,点击「更多」,再……
作为阿里最为核心的业务战场,手淘的态度显而易见——「愿意给技术机会,但也要求风险可控」。
机会需要争取,更需要「自证」其价值。
从最初上线的数千日活,过百万,过千万,一直到突破万,图搜应用一路跃升为淘宝首页导购类目的第一。但与此同时,外界的质疑声不断,「我印象特别深,每一年大家都在问,数据还能增长吗?……你还在做呀?做啥呢?」潘攀说道。
不被理解似乎成为开拓者的宿命,漆远回忆早期的探索时期,「当时对我最大的锻炼就是,不被理解是正常的」。
这或许可以称之为某种乐观主义,但毋庸置疑,对于技术的信仰正是面对困境和误解时不可或缺的坚实力量。
经历过焦灼而艰难的资源「抗争」后,漆远手中的分布式机器学习平台终于启动,为了尽早让平台上线,团队放弃年底休假,春节期间留守奋战,骨干密集开会头脑风暴。「当时切身地感受到了团队的战斗力,大家真的是非常相信,只要上线效果一定能好」,漆远回忆。
双十一期间,平台首次实现淘宝、天猫个性化推荐的大规模应用。那一年的阿里巴巴集团算法大奖上,漆远带领80人的团队包揽了16项奖中的6项。现在,漆远作为达摩院金融智能方向的负责人,带领团队构建面向金融经济场景的智能分析与决策技术。
另一边,在经历了搜索类目扩增、数据优化、算法迭代等多方面的升级后,「图搜」项目完成三次入口跃迁,终于在年双十一期间进入首页。让潘攀颇为自豪的是,图搜的数据一直依靠自然增长,几乎没有调用过手淘的商业推广资源。
入口升级的本质是一个不断「自证」的过程,由技术和技术背后的推动者们在一次又一次的挑战中完成,继而固化下来成为阿里技术产品的迭代传统。
不同于象牙塔里、试验台前的公示推理和仿真验证,商业场上的「自证」需要实实在在的业务指标和实际效果,正如阿里办公区里那句随处可见的标语——「NODATA,NOBB」。
高速增长的背后是两年一次的系统大改,「阿里其实非常讲究创新,我们一般都不炒冷饭」,潘攀说道,他将图搜系统的发展分为三个时期,「每一次升级不仅是算法进步,而是整体思路的提升」。
「数据、系统、算法三个互为一体。对数据认知和处理方法的不同视角,催生了与之匹配的算法和工程系统,所以升级是整个系统层面的」。
项目早期,数据量少,还需要人工标注,所以研究为之匹配的小模型的系统和算法;随后训练数据解放,团队尝试通过用户行为的三类数据(查询数据、点击数据、未点击数据)分析出数据与排序间的逻辑关系,三元组的DeepRanking框架生成,与之对应的训练框架、系统升级迭代;去年,图搜开始接入超大规模并行处理平台,释放数十亿级数据的训练能力。
与百度识图、
转载请注明:http://www.abuoumao.com/hyfz/1222.html