凭着这把 AutoML 利剑,这家 AI 公司荣登 IEEE ISI “铁王座”

新智元

共 4099字,需浏览 9分钟

 · 2019-07-11

1.png

【新智元导读】近日,IEEE ISI 2019国际大数据分析竞赛结果出炉,深兰科技DeepBlueAI团队利用自研的AutoML系统,分别取得了一项冠军和一项季军的优异成绩。从学术层面来看,了解AutoML技术强在哪里固然重要;但这项技术的领先对AI产业应用的落地更具有实践意义。

凭着这把自研AutoML利剑,荣登 IEEE ISI “铁王座”。

自谷歌2017年重磅推出AutoML,这个深度学习领域的新一代王者便成了AI界竞相热捧的重要技术。

近日,IEEE ISI 2019 世界杯大赛结果出炉。来自国内 AI 独角兽深兰科技的 DeepBlueAI 团队,便凭借着自研AutoML技术,斩获一个冠军、一个季军的好成绩

这是一项国际性的大数据分析竞赛,共有来自中国、美国、英国、德国等 7 个国家,来自华为、京东、滴滴等知名企业,以及知名高校和研究机构的三百余支队伍参赛,其中包括在AI学术领域实力卓越的中科院、清华大学和北京大学等。

深兰科技从逾千名参赛选手中脱颖而出,在其中一个赛题以较大领先优势获得了冠军

2.png

今年 IEEE ISI 大赛分为两个赛题:

  • 投资价值评估;

  • 法律诉讼类型预测。

在企业投资价值评估赛题中,深兰科技 DeepBlueAI 团队以 3.2585 的好成绩夺冠,以绝对优势领先第二名(成绩 3.3626)

排名如下:

3.png

在 “企业投资价值评估” 赛题中,深兰科技 DeepBlueAI 团队以较大领先优势获得冠军

值得一提的是,这不是深兰科技 AutoML 第一次夺冠。在不久前的 PAKDD (亚太知识发现和数据挖掘会议) 2019 挑战赛上,深兰科技团队应用 AutoML,从 130 多支队伍中脱颖而出,也同样斩获了第一名。

国内AI独角兽如何凭借自研AutoML斩获冠军?

今年 IEEE ISI 大赛主要的难点包括数据维度广信息复杂数据特征类型丰富数据量小

深兰科技团队成员基于以上难点,采用了自研的 AutoML 系统进行建模,该系统包括:自动数据清洗、自动特征工程、自动特征选择、自动模型调参、自动模型融合等步骤,能极大的提高任务建模的效率,并且在此次竞赛中也大大提升了效果,最终结果取得了较大领先优势。

自动化数据清洗方面,由于此次竞赛提供的数据是真实的工业界应用数据,含有大量的不规范字段。因此,深兰的自动化数据清洗模块,对不同类型的数据采用了不同的清洗方法,能够有效的清洗不规范数据。

特征工程方面,深兰的技术包含两个阶段:AutoML 自动特征工程阶段和业务特征强化阶段。

在 AutoML 自动特征工程阶段,将原始数据清洗成 AutoML 系统可处理的格式后,进行自动特征生成,然后进行特征选择迭代

4.png

AutoML 自动特征工程

在自动特征工程阶段,参赛人员发现专利和资质认证两个信息对模型效果提升较大。使用 AutoML 帮助他们快速地捕捉到了这一重要信息,从而进一步构建业务特征。

模型融合方面,为了增强最终结果的稳定性,参赛人员采用了Stacking+Bagging 的方式进行模型融合。

融合的主体方法是 Stacking,第一层采用过的模型有 LightGBM、XGBoost、Random Forest、Support Vector Regressor、ExtraTreesRegressor。每个模型采用交叉验证的方式进行线下验证。

5.png

模型结果

在 Stacking 的第二层中采用了基于约束的线性模型,在实验中发现效果好于其他线性和非线性模型。

在 Bagging 中使用了不同 seed 以及随机微调了一些参数分别生成 10 个 LightGBM 和 10 个 XGBoost 模型。

最后将 Stacking 的结果与 Bagging 结果进行简单线性加权融合作为最终预测结果。

6.png

模型融合

在这次竞赛中模型融合提升并不是很大,从榜单来看,单模型结果就能获得冠军,因此 AutoML 自动特征工程部分是深兰科技制胜的关键。

AI“兵家必争”之技:将深度学习最难的一环自动化

在 2017 年谷歌 I/O 大会上,谷歌首席执行官 Sundar Pichai 首次公布了名为 “AutoML” 的项目,Pichai 说:“AutoML 可以自动化设计深度学习软件最难的一环:为神经网络选择正确的架构。”

即使是有经验的 AI 研究人员,通常也需要花费大量时间来构建合适的神经网络,有了 AutoML,研究人员可以更高效地找到合适的网络架构,构建 AI 系统来处理任何他们想做的任务。

机器学习流程的各个部分都可以通过 AutoML 实现自动化,包括数据预处理、特征工程、模型选择、参数调节等,从而降低构建机器学习模型的门槛。

7.png

AutoML旨在将设计AI的环节自动化

UC Berkeley 教授 Jitendra Malik 曾经说:

“我们以前是手工调算法,现在是手工调网络架构,如果囿于这种模式,那人工智能无法进步。”

Caffe 作者、AI 大神贾扬清也对 AutoML 技术特别关注:

“即使在科研方向,我们的挑战也刚刚开始:如何走出手工调参的老路,用智能提升智能,是个非常有意思的问题。最开始的 AutoML 系统依然停留在用大量算力暴力搜索模型结构的层面上,但是现在各种更高效的 AutoML 技术开始产生,这是值得关注的。”

而在AI发展的大浪潮下,人工智能人才的缺口已达“百万”的量级,各企业已然到达了求贤若渴的状态,甚至可以说是重金难求。

除了能够节省大量人力物力财力,AutoML还能更加快速和安全地搭建出一个优于大多数算法工程师搭建的机器学习系统。

因此,对有意尝试或导入 AI 的企业来说,“让机器学习得以自动化”具有很大的吸引力。

目前 AutoML 已经广泛应用在精准营销、金融风控、自动驾驶、疾病预测等业务场景中,做出了接近甚至超过数据科学家的模型效果,决策精准度超过人类专家规则数倍。

落地才是硬道理,我们需要怎样的AutoML?

正如上文所提到的,AutoML具有门槛低、成本低、泛用性强等诸多优点,被越来越多的企业使用,也成为产品落地过程中使用的一项重要技术。

作为真正关注日常人工智能场景落地化应用的企业,通过AutoML推动社会发展、帮助到更多的人已成为越来越多AI公司的愿景。

但目前市面上的AutoML平台,大多只是试验性甚至偏娱乐化的,缺乏对于产业应用场景的深入适配,而深兰科技则站在产业的高度看问题。

在自动驾驶领域,AutoML起着重要的作用,因为机器学习可以说是在自动驾驶系统的大部分环节都扮演着关键角色。

无人车“老大”谷歌旗下公司Waymo也已将AutoML应用于智能驾驶。Waymo需要将自动驾驶技术应用到不同的城市与环境中,这就需要针对不同的场景快速优化Waymo的模型。

AutoML可以在此过程中连续且高效地提供ML解决方案。

而深兰科技的AutoML技术在自动化数据清洗以及特征工程方面都有较大优势,这更有利于赋能自动驾驶领域。

同时,深兰科技也在自动驾驶领域不断探索并收获,例如今年推出的熊猫智能公交车。

熊猫智能公交是一款大型人工智能、智能驾驶交通运输车辆,总长约12米, 以新能源磷酸铁锂电池为驱动,无人驾驶技术等级介于L3~L4之间

8.png

今年5月,中新天津生态城引入的三辆熊猫智能公交车并拿到正式牌照上路运营,这也是全球首批自动驾驶公交车投入商用运营。此外,6月20日广州正式发布首批自动驾驶路测牌照,深兰科技成为首批获得广州市智能网联汽车道路测试资格的企业,也是唯一获得大型客车路测资格的人工智能企业。

除了智能驾驶领域,深兰科技对于产业落地的探索并未止步。

深兰也相继推出一系列 AI 产品方案,包括AI智能扫路机、智能零售移动商用车、AI自贩柜、吸尘机器人、兜售机器人、手脉闸机等,将技术真正落地到现实生活中。在未来的AI产品方案中,AutoML技术可起到强大的助力作用。

 

正如深兰科技创始人兼CEO陈海波所言:

“人工智能服务民生就是要提供能够让人们看得见摸得着的产品和服务。”

深兰科技也正在一步步践行这句话。

从AutoML出发,来看一家成功AI公司的必备基因:科研自立

对AutoML技术投入研究并取得成绩,窥一斑而知全豹,这家AI公司所走的路线也非常明确:做强技术为坚实基础,同时重视实用性,大力实现落地应用。

深兰科技创始人兼CEO陈海波在一次演讲中,曾经将其商业模式概况为八个字:“做强两端,打通链路”,“两端”分别指技术和市场,打出“企业+研究院”的混合牌。

其中在技术方面,深兰科技有着庞大且完善的研发体系

所谓“庞大”,深兰科技在全球拥有众多博士和博士后团队,据悉,深兰科学院及联合研究机构拥有博士及博士后学位的学术带头人超百位。

此外,作为人工智能企业,深兰一直致力于人工智能基础研究和应用开发。深兰科技与多个国内外知名企业、院校等,建立了智能驾驶技术、智能和精密制造、数据和金融安全、人工智能、AIoT智联网、人机交互、AI芯片等多个相关领域的联合实验室,共同构筑了深兰系全球性的研发科研体系。

所谓“完善”,即这家AI公司的研究并未只限定一个领域,其核心技术集中在计算机视觉、自动驾驶、生物智能、语义智能四个方面。

9.png

而多领域、国际化的研究布局、对技术的大力投入,为这家AI公司快速实现AI赋能提供支撑力量。

依托自主知识产权的深度学习架构、机器视觉、生物智能识别等人工智能算法,不断孵化项目,实现人工智能从技术到产品的快速落地,搭建了以领先技术和创新产品为核心的应用生态圈。

同时,通过人工智能应用生态平台的大数据积累,深兰进一步优化了算法、细分行业产品的标准化和成熟度。技术与应用之间已形成完整的闭环。

从深兰科技的成长经历来看,它无疑是一个“幸运”的公司。年轻有为,既早早做到了AI落地产品、服务民生,也由于多次取得国际赛事的冠军也有了“中国自主研发”的标签。

幸运的背后正是拥有所有成功公司都有的基因——看重技术,并愿意为之投入巨大精力。

在如今的国际局势下,中国AI企业走上“科技自立”的道路已是必然,“中国自主研发”的标签更应该贴牢。

浏览 12
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报