公告:
变换中心 您当前所在位置:pk10人工免费计划软件 > 变换中心 > 正文

亚马逊的 custom service 都会自动回复一封非常制式的邮件

来源:未知作者:admin 更新时间:2018-04-19 16:14
原标题:前 Amazon 中国研发焦点架构师蔡超:工程师在 AI 理论的路上,能够会踩到这些坑 雷锋 原标题:前 Amazon 中国研发焦点架构师蔡超:工程师在 AI 理论的路上,能够会踩到这些坑 雷锋网 AI 研习社按:蔡超,移动营销平台 Mobvista汇量科技技术副总裁,

  原标题:前 Amazon 中国研发焦点架构师蔡超:工程师在 AI 理论的路上,能够会踩到这些坑 雷锋

  原标题:前 Amazon 中国研发焦点架构师蔡超:工程师在 AI 理论的路上,能够会踩到这些坑

  雷锋网 AI 研习社按:蔡超,移动营销平台 Mobvista汇量科技技术副总裁,前亚马逊中国研发焦点架构师,具备 15年软件开拓履历,其中 9年任世界级 IT公司软件架构师/首席软件架构师,曾率领开拓了亚马逊环球新内部直运平台,亚马逊物流 +体系及基于机器学习的亚马逊环球客服体系智能化名目。

  此文为蔡超在环球人工智能与机器学习技术大会(AICon)上演讲,雷锋网 AI研习社做了不影响原意的编辑。

  有许多工程师想要投入到人工智能的理论中,最罕见的学习进程大要有两种:一种是看到许多的公式就一头扎出来,花光阴去研讨每一条公式;二是把人工智能看成一个黑盒,就像全自动洗衣机同样,将数据或者一些 csv 文件放到黑盒外面,而后就等成果出来。基础上罕见的学习编制便是这两种。

  那末咱们究竟该当如何学习人工智能?咱们先来看看人工智能学习和光阴进程中的一些骗局。

  第一,巨匠赓续比力夸大模型的 accuracy,初学者觉得,准确性能够是一个异常重要的 metric。这里我有个例子,这个模型能够或者猜测未来两周里购买商品的人数。它的准确性有多高呢?颠末简短的熬炼能够或者到达 98%。我感到很怀疑,因为这个数据其实并非这么轻易就可以猜测的。

  起初我把他们的数据找出来看了一下,经由进程两周的历史数据猜测,咱们发现在一百万的抽样人群里,会有两千人会购买。那末咱们来看一下,如果一百万人外面只需两千人会在未来两周购买商品的话,即使你永远回答 no,永远不会购买,你的准确性都有 99.8%,大于它摸索熬炼出来的 98%。

  故意思吗?这只是一个小例子,这样的事情常常产生,在统计学上,这样的数据叫做 no information rate。如果你希望你的模型故意义,那末它的 accuracy 该当大于 no information rate,对吧?

  固然,衡量咱们机器学习模型的 metric 有许多,accuracy 只是其中一个方面,咱们在断定模型黑白的时刻不要堕入到这个误区当中,该当依照咱们本人的 case 探求适合的 metrics。

  第二个误区,是数据和模型之间的干系。许多初学者对模型有中天生的酷爱,他们爱好学习各种 fanshion的模型,拿到一些数据以后,他们就找特定的模型来熬炼,比如比来风行的 Xgboost,归正许多人参加比赛都是用 Xgboost 赢的。

  巨匠在试完一个模型以后看看成果行弗成,弗成的话再换一个模型试试。每一个模型有许多的参数,在加之模型自己,就会组成许多 combination,许多人天天就在浩荡无际的模型和参数的 combination 里游弋,终极也不必定能够或者获得一个很好的成果。

  许多初学者一开端最常犯的差错是觉得模型是第一位的。下面咱们经由进程一个实际的案例来看看究竟是数据重要还是模型重要。

  这个例子来源于我做过的一个其实名目。亚马逊的用户非论是给亚马逊哪一个 site 发邮件,亚马逊的 custom service 都会自动回答一封异常制式的邮件。你大概会感到,它便是一个邮件模板,经由进程点窜部分用户新闻而天生。其实环球亚马逊有 10 万个这样的邮件模板,亚马逊总能在这10 万份邮件模板中找适合的模板来处置你的 case,但这也是件很费事的事,因为很难找到适合的模板。重庆不时彩民间的倍率

  有人会觉得这又甚么难的,Google 上有成千上万条新闻,用户只需搜索关键词就可以 match 到想要的新闻。但亚马逊纷歧样,亚马逊的业务只触及很少的几件事,但是有 10 万个模板,当你输出一个关键字时,附近的模板会全搜索出来。咱们环球亚马逊的客服职员均匀事情年限是七个月,以是说大部分都是老手,对付他们来讲,遴选这些模板异常坚苦。

  有开拓者会想,这不便是分类成绩吗?咱们找一个分类的模型把这些事办了不就行了?我不知道巨匠可否有共鸣,便是巨匠在看吴恩达的机器学习课程或者网上的分类成绩例子,都是在讲患者可否得癌症,来日诰日的气象如何,分类数比力少,以致是二分类。

  其实有句话是这样说的:只需能把一个成绩抽象成二分类的成绩,那末基础上就成功了一半。咱们刚才谈到,咱们有十万个模板,那便是十万分类成绩,或者说你想要减少领域,比如十个模板分一类,那也有一万个分类,这处置起来也是非常坚苦的。

  回到这些模板的应用数据上,咱们觉察 TOP 10% 的模板其实能够或者 cover 到 80% 的 case,以致是 80% 以上的 case。那末咱们起初如何做的呢?咱们用上周 TOP 10 的模板为下周做推荐,这样的准确率能到 56%。起初咱们在此根本上叠加一些学习算法做更有效的遴选,终极的准确机能够或者进步到 80%,这是一个异常不错的成绩。

  经由进程这个例子能够或者看到,咱们并无去探求 fanshion的模型,而是从数据动身,经由进程数据就可以处置许多成绩。在现在这个大数据机器学习的期间,大多数情况下,你都会觉察数据远比模型重要得多。

  其余,还有一个误区,巨匠在熬炼模型的时刻爱好找许多的 feature。巨匠总觉得 feature 越多越好,把 feature 之间的组合干系做得异常宏大。我在网上找了一个广告的数据集,这个数据集许多册本都在用,那我经由进程这个数据集来奉告巨匠, feature 和模型好坏的干系,是否是 feature 越多你的模型就会越好呢?

  这个数据表现的是在电视、收音机、报纸上投放的广告 sales 的猜测。你们能够或者看到第一个 sales 就到代表我把持的一切 feature。那末做完以后,咱们看到 PPT 的下脚,它的均方根偏差RMSE 是 1.723615。那 Rsquared 是甚么呢?我简略正文下,它是用来标识这个模型的拟合水平,取值在 0 和 1 之间,越接近于 1,拟合水平越高。

  其余一个误区,许多人在学习机器学习以后,觉得机器学习都该当是监督学习,而第一件是便是要找标注好的数据。其实机器学习本质下去迁便是从数据中找出 pattern,并非一切的成绩都适适用监督学习处置。Cluster,聚类,就是非常重要的一种学习编制,其实还相干联干系等,在这里咱们简略介绍下聚类。

  这是亚马逊网站上的客户反应,但凡情况下,不同的人对付各个商品有不同的关怀度,比如说买相机,有人关怀镜头,有人关怀成像品质。那末每个人在遴选相机的时刻就会有不同的着重,关怀点会纷歧样。

  巨匠能够或者看看,下面这个页面和前一个页面有一点点不同,橘黄色框选中的地方是 Topic 栏,大数据不时彩软件手机体系会自动 extract 你关怀的 topic,下面列出来的也是跟所关怀的 topic 相干的。这是经由进程聚类的编制实现的,聚类是机器学习的一种,但不是监督学习。

  第一个是比力罕见的挑衅,我信任许多人都碰到过这个成绩,比如你要做一个异常检测,监测每一个应用体系可否产生了异常,手机上不时彩哪一个靠谱吗那末在 99% 的情况下,以致是 99.99% 的情况下,这些体系都不该当有异常。如果,50% 的体系有异常的话,那该体系基础底细就无法上线。那你知道的,咱们同样平常用 imbalance data 去熬炼的时刻,都会出现出咱们刚才所说的,相同 accuracy 那样的情况。

  开拓者熬炼一个模型,从全部下去看会偏向于获得高 accuracy,在这样的情况下你的模型就无法获得你想要看到的阿谁异常,这类模型异常难熬炼。在同样平常情况下,开拓者会采纳 scale up 或者 scale down 的方法,便是说我去将这个成绩的数目复制一下,或者是天生一些重要的调档。有个数据是 1:5 或者 1:3,我问西雅图的同时为何是这个数据?他们说:「Its 啊magic number」,没有证据证实为何,但是这个数据总能获得成功。但全部而言,这个成绩都是非常坚苦的,以 scale down 为例,你 scale down 的时刻会获得大批的数据。

  接下来咱们在看看,有时刻咱们其实不必要用守旧的监督学习来处置成绩,有种技术叫做 Anomaly Detection。

  CPU 或者是 Memory 利率的散布有能够是一个正态散布,或者颠末 log 变更后酿成一个正态散布。正态散布一个很大的特色便是两个方差以外的能够性只需 5%,你能够或者觉得这个 5% 就是非常点,以致你能够或者将双方扩展到三个方差,进一步缩减异常点的领域。如果你们的 CPU 和 Memory 是自力变更的话,你只需把它们相乘就行了,这是非常简略的。

  当你有大批的数据,数据集的正样本数和负样本数迥异很大的时刻,该当斟酌下研讨它们的散布,看看能不克不迭用 Anomaly Detection 散布既简略又高效地处置成绩。

  还有一个对初学者罕见的挑衅,咱们找一个模型其实不难,有许多现成的模型可用,以致咱们能够或者借鉴他人熬炼好的模型权值,但是对付一个初学者来讲,坚苦的是 feature 的预处置。

  当咱们拿到 feature 的时刻要把它焦点化、缩放,咱们刚才也谈到了,feature 不是越多越好,咱们要抉择有效的 feature,将这些 feature 组合在一起。更罕见的是一些异常值和丧失数据的处置,这些必要很高的处置技能。

  这里我给巨匠一个小小的倡议,当你想疾速测验考试一个不太特长的模型时,我倡议应用示范型,特别是 Random Forest 模型。Random Forest 能够或者自动帮你遴选这些 feature,而且会奉告你 feature importance。

  第一,有些图片在某些国家和地区是不克不迭出现的,比如在有的地方展示亵服时,是不克不迭穿在人身上的。面对这样的情况,咱们能够或者对图象做变形、恍忽化等处置,由一个模样酿成多个模样。

  其余一个挑衅是甚么呢?你的标注数据较少,无法子做更多的测验考试,今朝来讲有无深度学习网络的 bible 或者是一种 pattern 来奉告你最好的结构是甚么。只是巨匠赓续地在探索。

  相干的 paper 有许多,巨匠随意拿一份 paper 来看,讲的都是作者用一个数据集的时刻取患了一个异常好的成果,而后把这个 structure 粘贴下去,但是其实不知道其中的事理。这样的 paper 异常多,本日我听一个教师说,现在高中生都能写一篇论文发表,我看也有这个趋势,因为巨匠都不太寻求正文这个 Why。

  那末在这样的情况下能够或者应用一些现成的,精良的模型,一方面能够或者弥补熬炼数据的穷困,另一方面能够或者弥补在模型树立上履历的缺失。

  迁移学习是另一种机器学习的编制。它会找到一个现成的模型,在深度学习里较低层模型把 feature extract 出来后,高层的模型能够或者从较低层的 feature 里把 high level 的 feature 一点一点的 extract 出来。咱们能够或者看到下面这张图片酿成 pixel 的 RGB 值以后呢,它的边会被 extract 出来,而后下面会是一些边的组合。

  那末最后我来给巨匠总结一下,如何学习和理论机器学习:咱们要从详细成绩开端,从数据开端,不要从模型开端,其余,在抉择模型时,要从简略的开端。比如斯刻许多人偏向从深度的神经网络开端学习,而深度神经网络触及到的权值异常多,你的熬炼周期会很长,疗养的光阴以致是废弃的光阴也会更长,会颠末异常多的迭代,熬炼本钱也会大许多若干,以是必定要从简略的开端。

 

关于我们
联系我们
  • 杭州浩博建筑装饰工程有限公司
  • 联系地址:杭州市益乐路方家花苑43号2楼
  • 电 话:0571-85360638
  • 传 真:0571-85360638