在阿里 AI Lab 做 NLP 高级税务专家 阿里算法专家是一种什么样的体验

从经济学博士到爬坑机器学习十年,微软首席数据科学家谢梁的AI故事 - CSDN博客
从经济学博士到爬坑机器学习十年,微软首席数据科学家谢梁的AI故事
谢梁,美国微软总部首席数据科学家,本科毕业于西南财经大学经济学专业,然后在中国工商银行从事信贷评估工作,一年后辞职到纽约州立大学学习应用计量经济学。研究兴趣主要是混合模型(mixed model)和数据挖掘方法,以及
SAS 潜力的挖掘(他认为在各大 SAS 论坛帮人解决问题同时学习他人经验,是提升自己最快的途径,曾用网名 oloolo),著有《Keras 快速上手:基于 Python 的深度学习实战》。
十余年的机器学习应用经验,让他成功从一位经济学毕业生转型为云计算领域的顶级数据科学家。近日,谢梁接受 CSDN 专访,分享了从经济学入坑机器学习的原因和挑战;如何深入掌握深度学习;当今工业界应用的模型很多,是否可安心当调包侠等话题。
谢梁 美国微软总部首席数据科学家
另外,10 月 28 日,谢梁将在&SDCC 2017「人工智能技术实战线上峰会」&上带来题为&《使用 Keras 由零开始快速构造自己的深度学习模型》&的分享,更多峰会嘉宾和议题请查看文末。
为何转向机器学习
CSDN:你是经济学博士,什么原因让你着迷于机器学习、数据挖掘和人工智能,并将其应用于 IT 基础架构的优化?
谢梁:我的专业是计量经济学,专注于实证分析各种社会和经济现象,其中很多内容跟统计学习、机器学习都有重合,只是应用领域不同,后面的数理模型还是有很多相通的地方。我一开始也直接从事基于机器学习的商业智能方面的工作,包括自动化的营销、客户画像等,使我对机器学习的应用领域有了比较多的了解。
到微软以后,我先后在 Azure 云计算部门从事了服务层 SaaS 和基础架构层 IaaS 的数据分析工作。SaaS 层专注于使用 Azure 云服务的客户行为分析,而在 IaaS 则重点构筑基于机器学习的基础架构运营优化工作。这些领域都需要对大量的数据进行分析,对客户运营策略和基础架构上运行的软件行为进行优化,都是在有限资源条件下进行最优化的工作,同时需要对结果进行合理的解读与概念推广,这些都与经济学里的工作很像,因此计量经济学所学的理论,方法和技术都能自然地得到运用。
凡是有大量数据,并能根据数据找出某种规律并实施操作的业务都能运用机器学习的方法来自动化和优化。微软 Azure 云计算恰恰提供了一个非常符合这种要求的应用环境,并且其规模和竞争压力促使其无法一直维持最初的粗放型扩张,必须运用现代智能方法提高自动化运维水平。可以说在合适的时间,出现的合适的机会促使我考虑将机器学习和人工智能应用于
IT 基础架构的优化。
CSDN:经济学博士入坑机器学习,你遇到的挑战都有哪些?
谢梁:经济学背景的人进行机器学习有自己的优势和劣势。
优势是经济学出身的人对实证分析结果的解释非常重视,往往考虑的是如何在实证结果的基础之上进一步提供理论总结和可执行的策略。这在以后的发展中非常重要。
劣势是经济学出身的人在编程方面相对较弱,特别是生产系统上进行规范的编程相对科班出身的人来讲差距较大,会影响在 IT 公司里发挥。
经济学里面的一个核心概念是比较优势,作为经济学出身的人,需要懂得合理运用这个理论。
微软 Azure 存储部门如何开展机器学习
CSDN:你和团队将机器学习与人工智能方法用于大规模高可用并行存储和运维,具体包括哪些方面的工作?是否可以量化说明这些手段的效果?
谢梁:机器学习和人工智能的方法可以应用于 IaaS 存储系统的多个方面,包括负载平衡、节点故障预测、可售容量预测、系统工作调度等。更新的应用包括内部运维的知识图谱构建,代码质量打分和 Bug 预测等。这些工作有很大部分也是建立在微软现有其他部门的工作或者建立的基础平台之上。
机器学习的效果非常显著。比如,通过节点故障预测,并相应地合理安排存储拷贝,我们在几乎不损失容量的情况下,将由于节点故障造成的 Incidents 降低了 30%。
CSDN:根据你的经验,是否未来的开发团队和运维团队都应当掌握机器学习和人工智能方法?
谢梁:我觉得未来的运维必须智能化才能有效降低程序员的工作负荷,极大提高系统运作效率。在一个部门里面,至少需要一个专门的数据挖掘团队来提供相应服务,而如果开发和运维团队都能将人工智能方法从一开始就建立到系统中,那将有更大的竞争优势。这也是我在 Azure
存储部门推动的目标之一。
CSDN:深度学习在互联网公司应用广泛,社区提供的工具很多,你和团队如何根据场景选择深度学习框架?
谢梁:微软作为一个成熟的领先 IT 公司,内部有自己的系统和深度学习平台。但是微软现在也拥抱各种开源工具。在深度学习框架选择上,仍然是根据自己需要的场景,「哪个能尽快提供从概念到生产系统的实现」是选择的重要依据。
深度学习实战技巧
CSDN:你的著作《Keras 快速上手:基于 Python 的深度学习实战》,选择从 Keras 入手简单、快速地设计模型,较少注底层代码,那我们是否可以这么推导:现在很多算法都封装好了,并且工业界应用的模型那么多,安心当调包侠就可以了?
谢梁:肯定不是这样的。诚然,现在的机器学习理论和算法越来越先进,很多以前需要数据科学家和分析师进行的工作都可以由算法自动完成,比如以前需要做很多人工的特征工程工作,现在新的算法将这方面的要求降低,但是如何选择合适的模型,如何对结果进行合理的解释仍然需要数据科学家有较好的理论训练和知识深度。&
在工业界应用机器学习,包括三个部分:
前端对实际业务问题的理解和翻译;
中端对所选机器学习算法的实现;
末端对结果的解释和在业务上的运用。
现在有了较多可调用的机器学习包,只是让中段的一些工作简化,但同时对前端和末端提出了更多的要求,因为现在很多业务问题都非常复杂,如何将其合理地分解为可以进行建模的问题,非常考验实践工作者。同时,如何将分析结果植入到现有生产系统中,高效率高质量地运行也是不低的要求。
「调包侠」会是被人工智能代替的首批白领之一,所以当调包侠可没法安心。
CSDN:能否分享写这本书的初衷,以及写作过程中你印象最深刻的事情是什么?
谢梁:写这本书之前就有很多业界朋友问我深度学习问题,最多的就是如何开始,并能了解一些应用。他们也都看了很多市面上的深度学习书籍,基本面临两个难题:一是很多书是大部头论著,作为学校毕业多年已经工作的人来说没有精力研读;二是很多深度学习著作难以入门,学习曲线陡峭,不是适合他们的背景。他们需要一本简单实用的书,能达到快速入门的目的。
CSDN:很多专家对这本书的评价都强调了「实用」,你能否总结这一点如何体现,实用的收获都有哪些?
谢梁:最实用的书就是菜谱,从配料都烹饪的每一步都一一列出。我们这本书也遵循这样的方式,不过多强调理论,而是具体强调对于一个问题去怎么做。没有深度学习基础的读者读完本书以后能自己举一反三进行类似问题的实际操作。
CSDN:有评论说这部书后半部分讲解得比较深,需要有一定深度学习基础,你对本书读者的知识储备和配套学习资料有什么建议吗?
谢梁:这本书基本都讲得比较浅显,后半部分可能最深的要算时间序列的一些理论,但是并不影响读者学习深度学习实际操作部分。如果对那些理论暂时不了解的话可以跳过,先看代码,等有时间再回去依次了解每个概念。
CSDN:通过 Keras 快速体验深度学习之后,如果还想进一步提升,比如希望透彻理解底层原理和优化,或者这本书的经验用到移动端深度学习,你有什么建议?
谢梁:进一步提升需要跟上最新的进展,可以多读读这个领域顶级会议的文章。如果没有什么基础可以从以前的经典论文开始读,辅以 Ian Goodfellow 与 Yoshua Bengio 合写的《深度学习》这本书能较好地了解原理。之后可以关注当前顶级会议的文章,看看最新发展。
CSDN:有人评价说 Keras 不好调试,编译慢,那么 Keras + TensorFlow/CNTK 是否可以满足生产环境需求?
谢梁:相对于很多模型的训练时间,编译的耗时可以忽略不计。对于轻度的生产环境,Keras 本身就可以满足需求,比如用 neocortex.js 在浏览器中根据 Keras 模型实时打分。对于负载较大的生产环境或者对实时性要求非常高的生产环境,还是需要直接使用
TensorFlow 或者 CNTK 的底层 API。
CSDN:对于调参,有哪些经验可以分享?
谢梁:调参对于传统的机器学习方法通常是通过 Cross Validation 进行 greedy search,但是对于 hyperparameter 的范围大致根据经验有一个设定。对于深度学习的模型,还是根据数据量大小和特点选择合适的结构特征比较有效。
7 场技术专题,AI 开发者必看!
10 月 28 日,谢梁将在&SDCC
2017「人工智能技术实战线上峰会」&上带来题为&《使用
Keras 由零开始快速构造自己的深度学习模型》&的分享,
同时,CSDN 也邀请了来自阿里巴巴、商汤科技、第四范式、微博、出门问问、菱歌科技的
AI 专家,将针对机器学习平台、系统架构、对话机器人、芯片、推荐系统、Keras、分布式系统、NLP 等热点话题进行分享。
先行者们正在关注哪些关键技术?如何从理论跨越到企业创新实践?你将从本次峰会找到答案。每个演讲时段均设有答疑交流环节,与会者和讲师可零距离互动。
扫描下方二维码,入群交流
本文已收录于以下专栏:
相关文章推荐
十余年的机器学习应用经验,告诉你如何转型为数据科学家。
作者简介:
Peter Harrington,拥有电气工程学士和硕士学位,他曾经在美国加州和中国的英特尔公司工作7年。Peter拥有5项美国专利,在三种学术期刊上发表过文章。他现任HG Data首席...
数据科学家可谓是当下炙手可热的职业,机器学习则是他们的必备技能。机器学习在大数据分析中居于核心地位,在互联网、金融保险、制造业、零售业、医疗等产业领域发挥了越来越大的作用且日益受到关注。
算法已经成为我们日常生活的一个重要组成部分,它们几乎出现在商业的任何领域。调查公司 Gartner 称这种现象为「算法化商业」,算法化商业正在改变我们经营和管理公司(应有的)的方式。现在,你可以在「算...
5 月 27 日,机器之心主办的为期两天的全球机器智能峰会(GMIS 2017)在北京 898 创新空间顺利开幕。中国科学院自动化研究所复杂系统管理与控制国家重点实验室主任王飞跃为本次大会做了开幕式致...
/news/201706/fsdpvGeCp7WURxci.html?utm_source=tuicool&utm_medium=referral
秦苍科技数据科学家沈赟:AI在消费金融产品优化以及风险控制中的应用(附PPT+视频) | 硬创公开课
本文作者:刘伟
专题:硬创公开课
...
颠覆主观对冲基金的量化工程师、AI专家和数据科学家
私募工场 来源:达尔文量化科技量化和数据分析师可能还在与主观对冲基金经理争夺主导权, 但是私下里也许传统的对冲基金经理已经...
无人机送货、阿法狗下棋、小冰和你谈场恋爱……人工智能领域的成果,一直是企业在大数据运用能力上的主要外在体现,但在亚马逊原首席科学家安德雷斯 韦思岸(Andreas Weigend)看来,大数据能为企业...
他的最新文章
讲师:宋宝华
讲师:何宇健
您举报文章:
举报原因:
原文地址:
原因补充:
(最多只允许输入30个字)在阿里 AI Lab 做 NLP 高级算法专家是一种什么样的体验? - CSDN博客
在阿里 AI Lab 做 NLP 高级算法专家是一种什么样的体验?
记者 | 鸽子
最近应届生的拼抢大战的号角已经吹响。正如近几天在朋友圈疯传的一篇雄文,年薪25万也只是个白菜价......这让营长真心羞愧啊.....同样敲键盘的...不说也罢
绝不将小小的忧桑带入工作。
这几天,群里一直有很多小伙伴在打听在不同的热门公司工作,都有啥不一样的体验。
为了能帮助各位还在象牙塔的程序员哥哥们提前了解,营长决心不遗余力地多多走访一些业内的热门公司,跟每天在里面工作的资深大牛们聊一聊,扒一扒,看看在这些公司工作,到底是个肿么样的体验。
这次带来的是在阿里人工智能实验室工作的高级算法专家姜飞俊,还是先上个帅照吧。
姜飞俊(齐桓),阿里集团人工智能实验室高级算法专家,本科和博士先后毕业于浙江大学和香港科技大学,2012年博士毕业后加入阿里集团,目前带领团队负责天猫精灵语音助手的自然语言理解技术。
在本周六,姜飞俊将在&SDCC
2017「人工智能技术实战线上峰会」&上带来题为&《自然语言处理在“天猫精灵”的实践应用》&的分享,更多峰会嘉宾和议题请查看文末。
搬好小马扎坐好了,废话少说,问答开始~
1. 自从来到阿里做NLP高级算法专家,睡眠时间还能保证吗?
在阿里挺多年了,已经习惯了这种工作节奏,一般我们在项目关键节点的时候会比较忙,别的时候其实还好的,所以正常情况下每天的睡眠时间还是有保证的。
2. 每天睁开眼后,最大的压力是什么?
现在线上每天有非常多的用户在使用我们的NLP服务:第一,在阿里的技术体系里,服务的可用性是底线,所以一部分压力来自担心我们服务会不会出故障;第二,用户对自然语言理解的要求是比较高的,我们每天都会收到用户的反馈,然后我们让机器去优化语言理解的能力。
3. 作为一个阿里人工智能实验室的高级算法专家,您每天的工作日程,包括休息日,您会做些什么呢?
我们每天早上会开一个晨会,汇总过去24小时收集到的用户反馈,然后讨论解决方案,接下来就会安排相应同学去解决这些问题。同时我们自然语言理解模型的优化也是一个持续的过程,这里面涉及到我们对深度学习网络结构的调整还有训练方法的优化,所以我们每天会有一定的时间去跟踪最新的技术动态和论文,同时我们也会按照制定的研发计划做实验,逐步推进技术的进步。
4. 您喜欢阿里实验室里面的工作氛围吗?跟您一起在实验室工作的有多少人呢?都有哪些方向?
目前人工智能实验室研究的方向包括了自然语言理解、知识图谱、语音识别、声音信号处理、计算机视觉、机器人控制、硬件研发、云端技术研发。同时我们还有市场部和产品部门的同学,来自各种背景的同学聚集在一起,有很多可以彼此分享的内容,对大家的知识和阅历都是一个很好的扩展。
5. 有人说,自然语言理解是AI领域排名第一的难题和挑战,您认同吗?
确实自然语言理解是目前非常难的问题,相比语音和图像的感知智能,语言是认知智能,人类的知识乃至我们的文明都是通过文字来记载的,所以如果机器可以实现完善的自然语言理解,那么这个和科幻片中的人工智能就很接近了。
所以我认为自然语言理解也是可以分层来看的,目前我们在天猫精灵里做的大量的任务型的理解,是第一个层次的理解能力,我们认为基于目前的技术,这部分已经可以做得比较好了,换句话说,接下来大量的任务可以通过语言来指挥机器去完成。再往深入一点,就是信息获取和问答的能力,这涉及到对人类知识的大规模建模,以及对用户问题的深度理解,所以还是目前非常有挑战的问题。第三个层面,就是让机器和人进行自然的交流,机器能有情商,可以感知到用户的情绪,机器也能有一定的性格,目前来看,这是非常困难的工作,目前有挺多类似的demo,但是往往做出来都给人一种智障的感觉。
所以总结来讲,对机器自然语言理解能力的提升,还有非常漫长的路要走,甚至需要基础科学的突破。
6. 在自然语言理解这个领域,您最欣赏和佩服的人是谁?
在这里领域我最佩服和欣赏的是深度学习四大天王之一的Prof. Yoshua Bengio。Bengio教授带领的团队在自然语言理解领域的深度网络上做了很多大胆的创新,也取得了很不错的成果,始终走在自然语言理解探索的最前沿。
7. 在天猫精灵这款产品的开发中,您在里面具体会承担哪些方面的工作呢?
我及我的团队主要负责天猫精灵的自然语言理解技术,在这里我主要承担三部分的工作:
第一个是模型的设计及优化,选择合适的算法方案来实现最优的效果;
第二个是设计这套自然语言理解系统,从无到有,经历了多代的演进,我们搭建了这套我们认为是比较适合目前的语音交互的自然语言理解系统;
第三个是解决问题,当遇到具体的问题时,我需要去分析这个问题在哪个模块去解决是最合适的。同时我也会跟进团队同学的工作,并且review code。
8. 您来实验室之前,以及工作了这么久之后,对自然语言理解用于解决实际问题上,会不会有一些不同的新的认知和感悟?
我是人工智能实验室创始团队成员,之前一直在阿里集团大数据部门从事图像识别、推荐系统等算法工作。
在人工智能实验室一直从事自然语言理解领域的工作,在解决实际问题的时候,可以分享下最大的感悟吧,就是细节是魔鬼,整个算法系统涉及到大量的算法子模块,我们在进行效果优化的过程中,发现一些容易被我们忽略的细节,如果进行了优化,会对整体效果带来明显的提升,感悟就是要严谨的分析问题然后要去怀疑细节。
9. 在您解决实际问题中,会综合用到其他哪些技能呢?比如,知识图谱?
在解决实际问题的时候,我们会去尝试各种文本的技术,当然知识图谱对我们的自然语言理解是非常重要的。知识图谱可以给我们很多先验知识,它包含了对这个世界的认知信息,是我们进行意图判断很重要的参考。
10. 对于对自然语言处理非常感兴趣的,正在努力学习,希望未来从事这个领域相关工作的同学,从您自身出发,有没有想要分享的一些心得感悟?
自然语言理解需要两方面的能力,机器学习的能力,当然也包括目前炙手可热的深度学习方法,和对语言本身特点的理解,所以我觉得这两部分的内容的学习和实践都很重要。
11.如果让您给未来会从事自然语言理解实战相关工作的同学提三个中肯的建议,您觉得是什么?
第一个,对机器学习和深度学习方法能有很扎实的掌握,更深入一点,比如凸优化等数学理论能有所掌握。
第二个,语音本身是很有魅力的,是一种人类创造出来的符号语言,所以对语言本身的理解,是我们目前发现自然语言理解技术进一步前进很需要去思考的。
第三个,其实和所有的算法工作是一样的,就是要养成思辨的思维习惯(critical thinking)和独立的思考能力(independent thinking)。
12. 目前NLP领域,大致会分为哪些具体的工作,一般来说,不同的工种,不同的工作年限,不同的学历,工资待遇大致会是什么范围?
我们这边,大致会有三种类型的工作,一种是做算法模型的,包括深度学习模型还是传统的模型,第二种是做自然语言理解系统的搭建的,第三种是利用自然语言理解技术去实现业务逻辑和产品功能的。目前来讲这部分工程师的待遇还是相当有竞争力的。
13. 如果想加入您的团队,您会有哪些要求呢?
对技术的热爱,也就是对做的技术有热情,会用心去思考所做技术的每个细节。有扎实的技术基础,算法的基础和代码的基础。
14. 如果重新选择,还会选择NLP吗?
是的,还会选择NLP,因为这部分的技术是我们走向真正的智能所需要去突破的核心技术。这是这几年发展速度会非常快的领域。
15. 从技术上,以及个人理解上,您会将NLP的发展分为几个阶段?下一个阶段NLP将会是一个怎样的趋势?
我其实在回答第5个问题的时候已经回答了这个问题:
我认为自然语言理解也是可以分层来看的,目前我们在天猫精灵里做的大量的任务型的理解,是第一个层次的理解能力,我们认为基于目前的技术,这部分已经可以做得比较好了,换句话说,接下来大量的任务可以通过语言来指挥机器去完成。再往深入一点,就是信息获取和问答的能力,这涉及到对人类知识的大规模建模,以及对用户问题的深度理解,所以还是目前非常有挑战的问题。第三个层面,就是让机器和人进行自然的连续交流,机器能有情商,可以感知到用户的情绪,机器也能有一定的性格,目前来看,这是非常困难的工作,目前有挺多类似的demo,但是往往做出来都给人一种智障的感觉。
目前来看,第一个阶段,任务型的NLP已经可以比较好的达成了,第二个阶段,知识库的建设和知识应用于自然语言交互,会是接下来很重要的趋势。
16. 如果用一句话总结您所做的工作,用一句非常走心的话,别太套路,您觉得是什么?
用最前沿的技术,让人可以直接用语言与机器进行自然交流,让内容和服务变得随口既来,让更多的人能享受到智能时代所带来的便捷。
10 月 28 日(本周六),姜飞俊将在&SDCC
2017「人工智能技术实战线上峰会」&上带来题为&《自然语言处理在“天猫精灵”的实践应用》&的分享。
同时,商汤科技、微软、第四范式、微博、出门问问、菱歌科技的
AI 专家,也将针对机器学习平台、系统架构、对话机器人、芯片、推荐系统、Keras、分布式系统、NLP 等热点话题进行分享。
先行者们正在关注哪些关键技术?如何从理论跨越到企业创新实践?你将从本次峰会找到答案。每个演讲时段均设有答疑交流环节,与会者和讲师可零距离互动。
本文已收录于以下专栏:
相关文章推荐
1.一个故事说明什么是机器学习
2.机器学习的定义
4.机器学习的方法
5.机器学习的应用–大数据
6.机器学习的子类–深度学习
7.机器学习的父类–人工智能
被人牵着鼻子走,到了地方还墨明棋妙地吃一顿砖头。今日头条AI-Lab,其实我一直发现,最擅长的还是点云图像处理,且只是点云处理。
New 与Malloc的区别;unique_ptr和shared_p...
整个过程我觉得还是爱最重要。有爱才有勇气才有希望。我是真的爱写代码。从小学就开始爱,到现在快三十年了也还爱。...
摘要: 最近很多人咨询阿里云短视频SDK的产品功能和如何接入,今天我们对负责短视频SDK的技术同学进行访谈,听他介绍下产品和技术能力。
采访对象:王海华,高级技术专家,负责阿里视频云端相关的...
摘要: 阿里巴巴这种超大数据体量上才会遇到的独特挑战,让应答在技术上有了更清晰的认识,一定要夯实分布式系统的基础。“只有把基础夯实了,才能支持上层各种计算场景在大体量上的实现,让各种新的算法在‘阿里体...
1.Andrew Moore。卡内基梅隆计算机学院的院长大大。这些基本上涵盖了很多的数据挖掘topic。
Decision TreesInformation GainProbability ...
GMIS 2017 | 腾讯AI Lab副主任俞栋:语音识别研究的四大前沿方向
机器之心 机器之心
机器之心整理
演讲者:俞栋
感谢阅读腾讯AI Lab微信号第三篇文章,我们将深度解析本届ACL热门研究。文章第一部分是三大前沿领域重点文章解析,包括信息抽取、问答系统和机器翻译等。第二部分是ACL简介及我们NLP团队首次亮相。昨...
他的最新文章
讲师:宋宝华
讲师:何宇健
您举报文章:
举报原因:
原文地址:
原因补充:
(最多只允许输入30个字)市场合作,请您联系:
品牌广告合作,请您联系:
企业创新合作,请您联系:
地方合作,请您联系:
满足以下场景,获得更高通过率:
新融资求报道
新公司求报道
新产品求报道
创投新闻爆料
为你推送和解读最前沿、最有料的科技创投资讯
聚集15家顶级投资机构的专业互联网融资平台
聚集全球最优秀的创业者,项目融资率接近97%,领跑行业为了您的账号安全,我们需要在执行操作之前验证您的身份,请输入验证码。

我要回帖

更多关于 阿里高级技术专家是p8 的文章

 

随机推荐