全球首个AI对话系统分级定义出炉，和你对话的AI是几级？

admin 发表于 2022-7-20 05:52:47

“嘿，Siri”“小度小度”“小爱同学”……只需一句简单的唤醒语，就能与人工智能（AI）对话、让AI实现指令。这个场景相信你并不陌生，但你知道跟其他AI相比，和你对话的AI水平如何吗？

近日，由清华大学智能技术与系统实验室副主任黄民烈发起，联合十余家科研机构和二十多位知名学者共同制定的全球首个《AI对话系统分级定义》（以下简称《分级定义》）正式发布。

南都·AI前哨站了解到，参照自动驾驶汽车的分级，AI对话系统也被分为L0-L5六个等级。据测试，在此《分级定义》的标准之下，当前全球AI对话系统水平最高已发展至L2至L3之间。

AI对话系统被分为L0-L5六个等级

如今，AI对话系统在日常生活中随处可见。比如银行、电信服务商配备的自动应答机器人，显著降低了他们的运营成本；人们在网购时，平台的智能客服会根据提问快速给出解决方案。在大数据、大算力的支持下，更先进的AI对话系统不仅可以回答用户的问题，还能以有趣的方式进行各种话题讨论。

然而，AI对话系统作为当下AI领域的前沿技术，却缺乏行业规范或统一标准，在实际应用中产生了水平参差不齐、评价体系不一的现状。

因此，为了更好地评估AI对话系统的能力水平，黄民烈联合学界和业界科研机构制定了全球首个《分级定义》，旨在衡量AI对话系统的能力水平，促进AI对话系统的进一步研究，为行业应用提供参考。

https://p3-sign.toutiaoimg.com/tos-cn-i-tjoges91tu/TAOdQcjInBHUeC~tplv-tt-large.image?x-expires=1973630427&x-signature=zGvV0ip4cc2y%2BOgMk7GdyZrzFB8%3D

黄民烈讲解对话系统分级定义

黄民烈表示，AI对话系统任务繁多、评价维度多样、技术路线丰富，撰写小组在制定《分级定义》时仅关注完全由机器主导的对话系统。同时，为了在实际应用中发挥价值，《分级定义》的制定是从用户可感知，以及可观察、可测量、可度量的角度出发，不考虑系统的具体技术实现方式，也不区分助理类任务、闲聊、知识对话等，均以“场景”进行表述。

据了解，《分级定义》参考了美国汽车工程师协会（SAE）对自动驾驶汽车的分级定义——自动驾驶按照机器介入程度从无自动驾驶（L0）到完全自动驾驶（L5）分为五个等级。

具体来说，L0级的AI对话系统完全没有自动对话能力或无法给出较高质量的对话。L1级能完成单一场景的较高质量对话，但无法处理场景之间上下文依赖；L2可以同时完成多个场景的较高质量对话，具有处理跨场景的上下文依赖和自然切换能力，但是无法完成新场景较⾼质量的对话。

L3级能针对大量场景开展高质量对话，同时在新场景中也能有较高质量的对话。L4级不仅在新场景中有高质量对话能力，还有较高的拟人化程度。L5级则在L4级的基础上，还能主动学习和持续学习，具有多模态感知与表达能力。

https://p3-sign.toutiaoimg.com/tos-cn-i-tjoges91tu/TAOdQdT30xVSMi~tplv-tt-large.image?x-expires=1973630427&x-signature=Ic%2B1s%2BGAG%2FgzoidGjgfoKj6DrEo%3D

对话系统分级定义

全球AI对话系统最高等级在L2至L3之间

依据《分级定义》，黄民烈等研究人员还通过让一定数量的测试者与AI对话系统进行充分的对话交互，对常用的一些AI对话系统进行了测试。

在测试之前，测试者被告知系统的能力范围但不告知系统的技术实现方式，最后由测试者从相关性（回复与上文的适配度）、信息量（回复是否提供足够必要的信息，而非通用回复）和自然度（与人类回复相比的自然度，包含语法是否通顺、是否包含常识错误等）三个维度进行主观的总评分。

据InfoQ报道，多位参加制定的专家学者表示，在此《分级定义》的标准之下，当前全球AI对话系统水平最高已发展至L2至L3之间。现阶段，AI对话系统在从L3向L4迈进的过程中，还面临诸多挑战。

小米技术委员会主任、AI实验室主任王斌表示，《分级定义》发布后，AI对话系统能力水平的衡量将有据可依。《分级定义》让用户能够更多地关注、更清晰地理解AI对话系统及其当前的能力水平；行业也有了统一的评估规范，有助于企业明确研发方向。

据悉，该《分级定义》提出之后，黄民烈还将联合该领域相关研究机构及研究者开展白皮书的编纂，聚焦AI对话系统的发展历程，详细阐释《分级定义》的制定目的和标准。

采写：实习生韩艳燕南都记者蒋琳

页: [1]

彩虹邦's Archiver

全球首个AI对话系统分级定义出炉，和你对话的AI是几级？