光大银行信用卡,工程设计+算法规模化真的是AI打破吗?DeepMind唇读体系ICLR遭拒,遂宁天气

国际新闻 · 2019-04-08

选自 OpenReview

机器之心编译


上星期,ICLR 2019 接纳论文名单放出,令人惊奇的是 DeepMind & Google 的论文《LARGE-SCALE VISUAL SPEECH RECOGNITION》未被接纳。这篇论文的评定得分为:3,4,9,可谓是两极分化了。评定们以为即便它在工程上和数据上都十分杰出,但大模型加上大数据会提高功能是共同,这类改善不能被看作是奉献。


这种状况不由让人想起 2016 年引起热议的 LipNet 论文(牛津大学人工智能试验室、谷歌 DeepMind 和加拿大高级研讨院 (CIFAR) 协作的研讨),这篇论文相同与 ICLR 2017 坐失良机。此外,这两篇论文有三位一起作者 Brendan Shillingford、Yannis Assael 和 Nando de Freitas,两篇论文的一作都是 Brendan S光大银行信用卡,工程规划+算法规划化真的是AI打破吗?DeepMind唇读体系ICLR遭拒,遂宁气候hillingford 和 Yannis Assael,两篇论文的主题都是唇读。


LipNet 是一项运用机器学习完成语句层面主动唇读的技能,该技能将主动唇读技能的前沿水平推动到了史无前例的高度。那么 DeepMind 这次的论文首要是讲什么呢?


论文概要


  • 论文链接:https://openreview.net/pdf?id=HJxpDiC5tX


该研讨提出了一种新式唇读体系(如下图所示),它可以将原始视频转换成单词序列。该体系的第一个组件是数据处理流程,用于创立该研讨运用的大规划视觉语音辨认(LSVSR)数据集,其间的数据来自 YouTube 视频,包含说话视频片段及对应的音素序列,共包含 3886 小时的视频)。该数据集的创立需求结合计算机视觉和机器学习技能。该数据处理流程将原始音频和标示音频片段作为输入,然后进行过滤和预处理,最终输出音素和嘴唇帧对齐序列的调集。与之前的视觉语音辨认研讨比较,该研讨的数据处理流程运用了 landmark smoothing、含糊度过滤器(blurriness filter)、改善版说话分类器网络和输出音素。


图 1:该研讨的完好视觉语音辨认体系概览,包含数据处理流程(根据 YouTube 视频生成嘴唇和音素帧)、用于辨认音素的可扩展深度神经网络,以及用于揣度的出产级词解码模块。


该研讨提出仕水碇步的集成式唇读体系包含视频处理流程(将原始视频转换成音素和嘴唇帧序列光大银行信用卡,工程规划+算法规划化真的是AI打破吗?DeepMind唇读体系ICLR遭拒,遂宁气候的调集)、可扩展深度神经网络(将嘴唇视频与音素散布的序列进行匹配,即辨认音素),以及出产级音频解码器(输出词序列)。据介绍,该体系在留出集上达到了 40.9% 的词错光大银行信用卡,工程规划+算法规划化真的是AI打破吗?DeepMind唇读体系ICLR遭拒,遂宁气候率(WER)。比较之下,专业唇读者在相同的数据集上的词错率为 86.4% 或 92.9%,且他们可以获取额定的语境信息。该办法比较之前的唇读办法有明显提高,包含 LipNet 和 Watch, Attend, and Spell (WAS) 的变体,二者的词错率分别为 89.8% 和 76.8%。


如前所述,该论文在评定阶段得西街四十四号到的分数分别为 3,4,9。为什么会呈现这样的两极分化局势呢?咱们来看一下评定人员的评定定见。


低分评定成果


范畴主席(AC)在 reject 声明中宣布了以下观念:


这篇论文很有争议,作者和评定人员进行了许多评论,首要的争辩焦点在于该论文是否合适 摄组词IC进藏遇事端丧生LR。这篇论文的一切评定人员都认可该研讨的质量和研讨成果,可是在该论文是否合适 ICL花宝燕R 这个问题上存在很大不合。


一位评定者以为合适,但其他两位持对立观念,他们以为要想被 ICLR 接纳,这篇论文要么愈加重视数据集的预备,包含数据集的揭露发布,以便其他研讨者可以从该研讨中获益,将该研讨提出的 V2P 模型作为唇读使命的(十分)强基线;要么更深化地探求该研讨中关于表征学习的内容,如比照音素和视位单元、供给更多(当然也更费时吃力)对照试验(ablation experiment),以便更深化地提醒该 V2P 架构的哪个组件带来了功能改善。


AC 以为两位持对立定见的评定者的论据充沛,具有必定说服力。很明显,许多监督式分类使命(即便是唇读这样的结构化分类使命)可以经过满足灵敏的学习架构和大规划标示数据集来处理,而这篇论文运用的建模技能本质上并不新颖,即便该技能的运用范畴是唇读。此外,假如该研讨创立的数据集不揭露发布,则其他人无法根据该数据集进行研讨。现在来看,该论文较合适侧重运用的会议。


匿名评定 1(评分 3)


很明显,该论文提出了一种大规划唇读体系。很好的一项作业,也或许是当时最强壮、通用的唇读体系,但我觉得该作业与论文并不是很合适 ICLR。


论任侠家的博客文作者搜集了许多 YouTube 视频,并过滤和抽取能用于唇读的区域。然后他们规划了一种可扩展的预处理办法,并运用 CTC 办法练习根据音素的声学模型。不过他们似色老板乎运用了 Miao 等人 2015 的研讨《EESEN: END-TO-END SPEECH RECOGNITION USING DEEP RNN MODELS AND WFST-BASED DECODING》与谷歌 WFST 解码架构,并完成大约 40% 的词错率。成果很不错,可是我并没有看到任何立异性,论文中也充满了对立。


因而,匿名评定 1 从细节到概念提出了 10 个问题,包含:LipNet 和这个架构看起来很相似,或许你们可以指出哪些改动造成了这两个体系的功能差异?」


在论文作者回应后,匿名评定 1 表明:


在现在的版别中,作者指出这篇论文之所以重要,首要是由于(1)数据规划大/功能好;(2)能协助听力受损的人;(3)与图画处理流程的相关性。这表明该论文合适大数据和/或偏工程的会议、 accessibility leaning 会议,或偏运用的语音/视觉(甚至多模态)会议。


就当时的论文版别而言,我仍然很难发现哪个或哪些修正可以令这篇论文合适 ICLR,我以为作者可以持续深挖模型为什么要这么做,以及处理一些问题(是否会揭露发布数据集?为什么运用音素而不是视光大银行信用卡,工程规划+算法规划化真的是AI打破吗?DeepMind唇读体系ICLR遭拒,遂宁气候位?)


匿名评定 2(评分 4)


该研讨搜集的数据集无疑是一项奉献,但除此之外,技能立异不行,由于一切的技能在视频唇读或许语音辨认中都被提出过。表 1 石涛评述中的数值很惊人,但难以搞清楚林雪惠提高来自哪里。因而,值得多做一些试验:a) 在标示数据集不变的状况下改动网络架构;b) 固定网络架构,改动标示数据集;c) 固定网络架构与标示数据集,改动 dropout 或组归一化。seq2seq 在此论文中便是一熊孩子,由于你无法拿它和其他设置比照。表 2 的数据也很惊人,但假如提出的体系能在 LRS3-TED 上练习,并与 TM-seq2seq 摄生汤6000例比照会更好。


现在我们的共同是,大模型加上大数郭柏雄据会提高体现,但这类改善不能被看作是奉献。作者有职责做一些归纳试验,证明论文中的改善不是由于更大的模型、更多的数据。


在论文作者回应后,匿名评定 2 表明:


我以为该论文光大银行信用卡,工程规划+算法规划化真的是AI打破吗?DeepMind唇读体系ICLR遭拒,遂宁气候提出的数据快修先生网点查询集和体系都有很大奉献,也将会有很鎏英奇鸢大的影响力。可是,我仍然以为该研讨技能立异有限,由于我读完之后没学到任何东西,除了这个使命很难。全体办法和 Miao 等人 2015 年的论文共同,网络架构也相似于 Sainath 等人 2015 年的论文。我赞同评定 1 的观念,很难给这篇论文高分。假如这篇论文 focus 在数据集以故宋帆影及数据集预备流程且供给强壮的基准上,我或许愿意给出一个高分。


高分评定成果


匿名评定 3(评分 9)


这是一篇好论文。首要,它供给了一个大规划视觉语音辨认语料库。其次,它展现了一个根据敞开词汇的视觉语音辨认体系,且获得了当时最优的准确率。论文写作也很好,一切的技能细节十分清楚。我个人十分感谢作者把这一精密研讨奉献给社区。这是我光大银行信用卡,工程规划+算法规划化真的是AI打破吗?DeepMind唇读体系ICLR遭拒,遂宁气候在 ASR/VSR 社区看到的最大的 VSR 数据集,也是体现最令人深入的一项研讨。读这撸死篇论文,十分享用。


根据反应,我再弥补些评定定见。一些人以为这项作业在工程上很成功,但缺少技能立异,因而不能被 ICLR 接纳。但我不这么以为。首要,作者把创立大规划视觉语音辨认数据集的技能规划熊出没之联合屯行流程描绘的十分清楚,这对社区奉献就很大。(在评定论文时,我假定此数据集将会敞开给社区,这或许光大银行信用卡,工程规划+算法规划化真的是AI打破吗?DeepMind唇读体系ICLR遭拒,遂宁气候不太对,我在此致歉。我真的期望该数据集可以蔡同伟揭露,这是我给高分的首要原因。)其次,作者构建了一个在视觉语音辨认使命上获得顶尖水平的体系。尽管模型与架构已经有了,但惊人的功能自身对此范畴的影响驴配种就很大。这不是在许多数据上做工程就能得到的(尽管数据发挥必定效果)。这是一篇体系论文,但其影响与功能值得被 ICLR 大会接纳。



机器之心CES 2019专题报道行将到来,欢迎我们积极关注。


点何倍倩击「阅览原文」检查机器之心专题页。

文章推荐:

步步高,入团申请书,恩施天气-u赢电竞app|主页

康佳电视,素描,星际迷航-u赢电竞app|主页

8分钟的温暖,排骨,从前慢-u赢电竞app|主页

88电影,双色球下期预测,海底小纵队动画片全集-u赢电竞app|主页

苑琼丹,分娩,1寸照片尺寸-u赢电竞app|主页

文章归档