51区未解之谜网

未解之谜与世界之最,猎奇文章

首页 > 科技探索 > 微软小冰聊天机器人时代

微软小冰聊天机器人时代

时间:2019-01-12 11:13:57 作者:迷迷 来源:51区未解之谜网 手机阅读

雷锋人工智能技术回顾:在2018年EMNLP大会上,微软首席科学家吴伟、北京大学副教授严瑞对近年来聊天机器人的研究成果进行了全面总结,并展望了聊天机器人的未来研究趋势。  

近日,在雷锋爱学院公开课上,微软小兵首席科学家吴伟在EMNLP大会上为大家介绍了其分享的精髓。  

微软小兵首席科学家吴伟主要研究自然人机对话、自然语言处理、机器学习和信息检索;为微软小兵的第二代至第六代对话引擎提供核心算法,并带领团队开发第五代小兵和T的生成模型。他是第六代小兵的同情心典范。  

本次公开课主要在2018年的EMNLP大会上与北京大学严瑞教授分享导师分享的精髓。  

聊天机器人最近很流行,我在谷歌学者的高级搜索中做了一个小实验,用关键字chatrobot搜索文章。它要求文章标题必须包含单词chatbot。经过统计发现,标题中chatbot一词的文章数量从2015年到2017年呈指数增长,当然,这项实验还不完整。一些标题为对话模式的文章也涉及聊天机器人,尽管标题中没有聊天机器人,所以我们可以想象它在学术界有多热。  

此外,在业内,亚马逊和Facebook也举办了一些比赛,如亚马逊举办了两次Alexa大奖赛,Facebook也在NIPS上举办了两次聊天机器人比赛,引起了很多人的关注,同时,大公司基本上都有自己的聊天机器人产品,如微软有小兵、苹果等。有Siri等等。  

今天我们来谈谈通用聊天,它指的是微软小兵在整个行业中的影响力。小兵于2014年在中国发布,然后在日本、美国、印度和印度尼西亚以每年登陆一个国家的速度发布。现在,它在全球拥有6亿以上的用户,产生了300多亿次对话。NS。  

小兵背后的核心是对话引擎,传统的对话引擎以任务为导向,分为以下几个模块:  

当然,整个过程还需要与知识库交互:如果用户提供的信息足够,对话引擎需要从知识库中为用户找到答案;如果不足够,需要再次向用户询问更多信息。  

随着大数据时代的到来和深度学习技术的发展,会话引擎也发生了变化:语言理解、会话管理和语言生成模块被简化为支持端到端培训的统计模型,这是我们今天将关注的统计模型。  

blob.png

有两种基本方法可以在学术界或行业中构建一个非任务导向或通用的聊天对话引擎:  

但Word2vec和Glove不能解决单词变形的问题。例如,学习、学习和学习英语都表达了一个意思。但这两种方法都将这些意义相同、形式不同的单词视为不同的单词,从而导致信息的冗余或丢失,为此,Facebook研究所提出了一个FastText模型,旨在模拟单词的变形:  

自然语言处理中的句子可以看作一个字符串,句子的表示可以通过一般的词表示来实现。一般来说,有两种方法:  

(有关NLP中深入学习的这些基本概念的详细说明,请参阅00:09:00-00:25:05的视频)  

其中,基于搜索的聊天机器人主要利用搜索引擎的学习排名等结果,其新特点是在给定上下文和候选响应的情况下,建立匹配模型来衡量候选响应是否可用作上下文响应,目前,检索是聊天机器人领域的一个研究热点。机器人,以及如何利用神经网络构造匹配模型是检索的重点。  

I型框架具有简单、易于实现、在线系统效率高等优点。然而,在这个框架中也存在一些问题,例如信息丢失和不容易解释。正是这些问题促使第二个匹配模型框架——II型框架的提出。  

第二类框架的思想是,由于信息丢失源于上下文在满足候选响应之前被压缩成一个小的向量,因此最好让上下文中的每个句子在开始时与候选响应交互,然后将交互信息提取到匹配的v中。然后利用RNN对匹配向量层次上的句子关系进行建模,生成匹配得分。  

二类框架的优点是能够在匹配模型中充分存储上下文信息,具有良好的可解释性。然而,该框架也有一些缺点,如计算复杂度高。  

下面是我们将要在WSDM2019中做的事情。这项工作的想法是:既然我们对I型和II型做了很好的研究,并且深入学习本质上是学习,我们可以优化匹配模型的表示以进一步提高模型的性能吗在这方面,我们的基本思想是在有如此多的表示的情况下,如何使用如此多的表示来产生一个更好的性能模型,结果表明,融合这些表示是有用的,但实现方法非常精巧:  

在用户输入后,系统通过自然语言的生成来合成一个响应,即机器人生成一个响应作为输出,生成方法的基本模型是编码器注意解码器的结构,它借鉴了机器翻译的思想。  

生成性对话也是当前一个备受关注的话题,相关著作也不少,但今天,由于时间有限,我只介绍这三个问题。  

那么,为什么会有普遍的反应呢实际上,对话是一个一对多的问题,也就是说,对一个输入可能有许多响应,整个对话过程不像机器翻译那么简单。机器人根据对话生成关联,然后根据这些关联合成响应。  

在此基础上,利用神经网络进行建模,并在编码器和译码的体系结构中增加了一个课题的关注点。  

在AAAI2018的一个作品中,我们对上下文进行了建模,其思想是:由于上下文具有层次结构,我们使用句子级GRU和单词级GRU来建模单词和句子之间的顺序关系,并且还使用句子级注意和单词级注意来生成句子,句子中的单词和在整个上下文中分别比较了哪些句子。重要的是,除了非常好的结果外,模型还具有很强的解释力。  

(有关AAAI2018上下文建模工作的详细说明,请在00:58:00查看视频。)  

最后,我们讨论了如何解决对话中的解码效率问题,我们观察到系统的解码效率很低,因为它需要扫描每个预测单词的整个词汇表,但实际上只有系统的一小部分可以用来回复输入。  

为此,我们的想法是先用过滤器过滤掉大部分可能不相关的单词,然后在生成的响应中只考虑剩余单词的一小部分,从而将静态词汇转化为动态词汇。对于每个输入,词汇表都是不同的。  

(关于解决解码效率问题的具体说明,以及发电模型在印尼小兵的实际应用,请参考1:00:00的视频。  

在聊天机器人时代,会话引擎扮演着非常重要的角色。目前,两种主要的方法都是基于检索和生成方法的,对它们进行了大量的研究,但实现真正的人机对话还有很长的路要走。  


相关文章

  • “老外”在华任教22年,凭化学实验吸粉无数。
    “老外”在华任教22年,凭化学实验吸粉无数。
    在站台上,一位白发外国人穿着白色外套,戴着护目镜,露出和蔼的微笑,就像外国快餐公司的发言人。 他拿起装有黄色液体的锥形瓶子,轻轻摇晃。液体立即变成红色,然后变成绿色。这个实...
  • 厂供木屑燃料颗粒热效率高
    厂供木屑燃料颗粒热效率高
    厂供:生物质颗粒燃料热效率高鹤壁市鹤山区厂供:木屑燃料颗粒热效率高灵璧古人用“月晕而风,础润而雨”,来比喻通过某种迹象,可以预知事物的发展方向。预知未来,是为了更好地适应和...
  • 杨贵妃到底有多胖?说出来你可能都不信
    杨贵妃到底有多胖?说出来你可能都不信
     杨贵妃到底有多胖,说出来你可能都不信,杨贵妃真实体重遭曝光!  现在的女孩子们,即使只有不到90斤,还总是嫌自己胖,总是嚷嚷着要减肥,反正不管是胖的还是瘦的,都觉得自己还需...
  • 基因工程将创造超人自然人将逐步灭绝
    基因工程将创造超人自然人将逐步灭绝
    英国已故科学家斯蒂芬·霍金的遗作《对大问题的简明回答》定于16日发售。昨日,《星期日泰晤士报》透露著作内容:霍金预测,基因工程可能会让人们能够创造出“超人”,而这些“超人...
  • 享誉世界的物理学家霍金去世前三十秒到底预测了什么?
    享誉世界的物理学家霍金去世前三十秒到底预测了什么?
    斯蒂芬·威廉·霍金(Stephen William Hawking,1942年1月8日~2018年3月14日),出生于英国牛津,英国剑桥大学著名物理学家。霍金早在21岁时被医生判定患渐冻症,这对于年轻的霍金无异...
  • 集聚建筑业转型新动能推进装配式建筑快速发展
    集聚建筑业转型新动能推进装配式建筑快速发展
    日前,国务院办公厅印发《关于大力发展装配式建筑的指导意见》(以下简称《指导意见》),确立了健全标准规范体系、创新装配式建筑设计和优化部品部件生产等八项主要任务。与传统建...
  • 西方最先完成了现代化的任务
    西方最先完成了现代化的任务
    终结了西方模式主宰世界的线性史观,这是一件具有世界意义的重大历史事件,是20世纪留给人类的两大遗产”,中国奇迹震撼世界,而非唯一选择,中国用短短几十年的时间走完了西方发达国...
  • 实现预防二十种HPV型别导致的宫颈癌
    实现预防二十种HPV型别导致的宫颈癌
    夏宁绍说:我们的研究为新一代人乳头状瘤病毒疫苗的开发铺平了道路。它表明,只有7个嵌合的类病毒颗粒可以预防20种人乳头状瘤病毒引起的宫颈癌。 近几天来,中国研究人员在防治...
  • 潘洛斯阶梯是什么,真的存在吗
    潘洛斯阶梯是什么,真的存在吗
    在科学的世界里面,只有经过实践验证的才是真的科学,而那些经不起科学实践验证的都是伪科学。伪科学的存在也说明了科学认识对于我们认识的重要性,但是伪科学也有一定的存在必要...
  • 厂供生物质颗粒销售石家庄市正定石家庄生物燃料
    厂供生物质颗粒销售石家庄市正定石家庄生物燃料
    厂供:生物质颗粒燃料新型环保宜都市厂供:生物质颗粒销售石家庄市正定值得注意得是,记者了解到,这两个中心通过拆解、破碎园林废弃物和大件家具,将树干作为高密度纤维板原料、其他...
.

科技探索

热门文章

今日最新