前段时间接手了公司遗留的一个所谓“智能客服机器人”的项目,改进了之前团队的“人工智障”设计,颇有收获 。今天是 1024,程序员节 。我们就来整点干货,八一八整个项目的血泪教训 。
文章插图
这个项目是给某医院做的自动客服系统,对接了微信公众号,要求能回复一些固定种类的问题 。比如:
1. 住院部在几楼?(问路)
2.帮我预约一下张医生门诊(预约)
3.查询刘医生主治的内科病人(查询)
……
当然,实际种类有十几个,就不一一列举了 。
当我拿到上任“资深自然语言处理架构师”老胡发给我的代码时,我的内心是拒绝的 。这并不是因为他没有头发,而是因为这些代码太“硬”了 。几乎所有逻辑都是硬编码进去的,基本流程如下:
文章插图
基本流程就是正则匹配问句,根据匹配上的正则表达式判断问题种类,然后执行相应逻辑 。包括查询相应的数据表或索引,或者向业务系统请求预约等 。当然,实际代码里正则表达式比这个复杂一百倍,毕竟这套系统上线了好几年,收获差评数万呢 。差评原因无非以下四个方面:
1. 问句种类匹配不准,比如“查询刘医生在内科主治的病人”会同时匹配到“问路”和“查询”两个类型 。旧系统又编码了很多优先级规则,一团乱麻 。我猜这团乱麻是老胡呕心沥血用自己头发编织出来的 。
文章插图
2. 问句成分匹配不准,用户输入千奇百怪 。比如“张医生”“张主任”“ 张大庆”“张大庆医生”,我看搜索日志,还有用户爱称“张神医”“大庆”“大庆医生”的,也不嫌肉麻 。用户随便输入,但旧系统硬编码的名单都是真实姓名,匹配不上各种称呼 。另外,每次新医生入职,要过好久才对接名单更新 。
文章插图
3. 不支持多轮对话 。用户经常没法一次性输入全所有信息,比如“帮我查一下刘医生的病人”,但是检索系统又要求必须指定科室 。这时候旧系统就只能回复“请同时指定医生和科室” 。用户于是回复“就是内科啊”,可这次旧系统居然匹配上了问路的正则表达式,于是返回了去内科怎么走 。这下用户就被彻底被激怒了,体验极差 。特别是这种查询功能一般都是医院的大领导们用的,听说间接导致了老胡的离职 。
4. 检索系统搜索不准 。即使“张大庆”被正则匹配上了,但在检索系统中却被切分成“张+大庆”,导致结果第一条是“住院部挂着一张大庆油田的风景画”,完全答非所问 。旧系统好像用的是什么 IK 分词器,错误百出 。我虽然不是科班出身,但是一看专业教材就浑身难受 。
文章插图
我还是找到了一些资料,并且根据这些资料将系统重新设计了一下 。这种客服系统属于自然语言处理领域,学名应该叫任务型问答系统,基本就包括“意图分类”“槽识别”和“业务逻辑”三个模块,如下图所示:
文章插图
文章插图
其中,意图指的就是问题的类型,槽指的是每种意图中的特定名词 。比如在问路型意图中,科室名称“内科”“耳鼻喉科”就是槽 。也就是说,意图分类和槽识别代替了正则表达式,提供了更精确的结果,解决了 bug① 和 ② 。
- 初学者怎样挑选单簧管,单簧管如何吹响
- 台积电重新回归大陆市场,美国的做法让它失望,外媒:这是摊牌了
- 网站如何做好seo优化工作,SEO综合查询工具能检测优化效果吗?
- 世界上最大的癞蛤蟆,一度让澳大利亚政府焦头烂额 吉尼斯记录最大蟾蜍
- 初学者怎么颠排球,初学者如何学好排球
- 初学者怎么快速识谱,视频教学二胡如何识谱
- 初学者怎样学挂档,皮卡如何挂档
- 西安儿童公园
- 让备婚人幸福感爆棚的旅拍好店来咯!三亚旅拍婚纱照前十名大推荐 中国十大婚纱影楼
- 初学者如何投资基金,新手怎样投资基金