专访 | 蚂蚁金服MISA：比用户更懂自己的自然语言客服系统

发布时间：2018-07-21 00:53:25 所属栏目：酷站来源：站长网

导读：作者：邱陆陆当手机取代了钱包，支付宝甚至比现金更常用，与蚂蚁金服的产品端一同忙碌起来的还有公司的服务端。95188 服务热线就是其中之一。然而当我们谈起客服电话，想到的仍然是传统的按键菜单（「普通话服务请按 1，for English service please pres

副标题[/!--empirenews.page--]

作者：邱陆陆

当手机取代了钱包，支付宝甚至比现金更常用，与蚂蚁金服的产品端一同忙碌起来的还有公司的服务端。95188 服务热线就是其中之一。

然而当我们谈起客服电话，想到的仍然是传统的按键菜单（「普通话服务请按 1，for English service please press 2」）和在机械而漫长的语音播报里等待的焦躁。「在过去的统计里，只要用户没转接人工，就算作『问题被自助解决了』，其实在我们看来那不叫『解决』，叫『损耗』。」蚂蚁金服的产品运营专家弈客说。秉承着这样的理念，团队开发了 MISA（Machine Intelligence Service Assistant），一个能够通过识别用户的语音中包含的业务需求来直接进行回应的客服系统，他们称之为「37摄氏度的自助语音交互」。

在金融业务领域，客户服务涉及许多环节，通过人工智能的技术解决客服问题，为广大用户提供高效、个性化的普惠金融服务，成为金融科技领域非常基础、非常具有挑战性的课题。

最近，在蚂蚁金服发起的「ATEC蚂蚁开发者大赛——人工智能大赛」上，这支团队在初赛就拿出了来自实际应用场景的 10 万对标注问题集，并开放相关资源与专家指导，邀请人工智能开发者来挑战「问题相似度计算」这一客服领域最基础也最核心的任务。

如今，赛事已经集结了来自全球超过两千支队伍报名，并开启了激烈的准确率打榜竞赛。近日机器之心也有幸探访蚂蚁金服，采访了 MISA 团队中的三位核心成员：人工智能部资深算法专家深空（张家兴）、客户服务及权益保障事业部产品运营专家弈客（于浩淼）以及人工智能部算法专家千瞳（崔恒斌），聊了聊如何利用深度学习算法构建能够「未卜先知」的客服系统。以下内容根据采访实录整理，机器之心对内容作了不改变原意的调整。

MISA 的「成长故事」与「近照」

机器之心：开发 MISA 系统的初衷是什么？

弈客：95188 支付宝服务热线是一个典型的 IVR 场景（Interactive Voice Response，互动式语音应答），作为一个语音渠道，它的业务目标很简单，就是「定位用户的问题，匹配相应解答方案」。一开始，它就是一个传统的按键菜单，后来随着蚂蚁金服业务线的日益增长，按键菜单无法满足业务需求，同时语音识别技术也进入了一个基本可以投入应用的阶段，所以从 16 年初开始，我们和算法工程师一起，尝试找新的解决方法。

最初的想法是让用户描述自己的问题与场景，然后将描述与我们的业务与知识进行一次匹配。后来，我们发现单次匹配也很难做到特别精准，因为用户很难在单次描述里给出全部所需要素，所以就尝试以多轮交互的形式，用一个对话系统来帮助用户补全其描述中缺失的部分。

再后来，我们发现与其让用户完全清楚地描述自己的问题，不如我们率先发问。我们做了大量的市场调研，发现如今市面上的客服系统也基本上以「描述与匹配」模式为主，涉及多轮交互的本身就很少，在多轮基础上发展方向也没有那么明确。因此我们就回到了蚂蚁自身。我们就想，能不能基于用户在提问时所积累的行为特征，以「猜问题」的形式让系统率先发起对话，降低用户的使用难度。相比于「你有什么问题？」，「你是不是想问 XXX 问题？」就要容易回答得多，即使用户回答「不是」，我们的问题也会为他接下来的描述提供一个示例。

专访 | 蚂蚁金服MISA：比用户更懂自己的自然语言客服系统

图：如今的 95188 语音服务流程

机器之心：现在 MISA 的系统由哪些部分组成？分别完成什么任务？

深空：MISA 的主要模块有猜问题、问题识别、反问交互三个。「猜问题」是蚂蚁金服在客服领域的首创，是一个利用用户可能与本次致电相关的信息，基于深度学习算法框架构建的问题识别模型。「问题识别」是根据用户的描述定位他可能遇到的问题。「反问交互」是在用户给出的信息不全时，利用「要素拆解和补全」的方式帮助问题识别模块圈定范围，降低问题识别的难度，以反问的形式与用户进行交互。

机器之心：除了用户转为文本的语音输入外，MISA 的系统还会接收哪些输入？如何分类？

深空：我们将输入分为因子、轨迹、文本三类。因子是由业务方定义的、具有明确含义的特征，例如：过去24小时是否有还款行为、过去24小时是否发生过转账行为等。因子大约有数百个。轨迹是用户最近的 120 个「行为」组成的时间序列，其中一个行为指对远程服务器发生一次请求。行为的种类超过一万种。文本是用户的描述以文本形式表达；在「猜问题」环节，文本指用户的历史描述，在正常的「问题识别」环节，文本即把本次电话里用户对问题的语音描述转换成文本。文本是一个长度各不相同，甚至可能空缺的输入。

机器之心：作为一个以识别为主要目的的系统，MISA 会将用户的问题匹配到多少种类型里？如何给出应答？

弈客：需要匹配的问题类型的具体数字随着业务上线与下线会有浮动，规模大约在「数千」这个量级。

大框架上，应答可以分为三类。第一类，如果用户的问题很简单，能用一两句话说清楚，我们就以播报的形式输出。比如之前余额宝一个业务的产品方案进行了调整，从不限转入金额到每天最多只能转入两万。这时候当用户转入出错前来咨询，我们就会以播报形式把业务调整通知给用户。第二类，如果方案需要用户在某一个产品页面进行操作与交互，我们就会把相应页面在用户的 app 里拉起来。用户挂掉电话打开 app，就能看到解决方案页面的推送，点开就可以完成操作了。最后一类，我们判断相对复杂的问题，就转接人工小二处理。

机器之心：一位用户平均需要与系统进行多少轮对话能够定位到自己的问题呢？

弈客：一开始系统能力还没有那么强的时候，我们把最多对话轮数设置为 4 轮，如果 4 轮对话之后用户的问题仍然没有得到解决，就转交人工客服。通过不断的优化，现在用户的平均对话轮数不超过两轮，大概在 1.8-1.9 左右。

客服系统是怎样炼成的：模型选择、评估与优化

机器之心：在处理自然语言文本时，用到了哪些深度学习模型？

千瞳：我们首先用自己预训练的词向量对文本进行表示，然后分别用到了卷积神经网络（CNN）和以 LSTM 为基本单位的循环神经网络（RNN）对文本进行处理。

卷积神经网络中，模型对由词向量组成的文本做一维单层卷积与池化，形成一个向量，RNN 则把文本视为一个序列，处理后也得到一个向量，最后，将两个向量相加，得到一个代表本段文本的新向量，然后与代表因子和轨迹的向量加在一起，进行分类。

机器之心：为什么同时采用 CNN 和 RNN？

千瞳：两种模型提取特征的能力不同。CNN 的能力在于提取关键词。RNN更善于捕捉序列关系。

机器之心：分类模型与问题识别模块的关系是？

（编辑：辽源站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/3

尾页