当前位置:首页-文章-业务观点技术分享-正文

全球首个《AI对话系统分级定义》发布,迈出AI智能对话规范化发展第一步

Source: 全球首个《AI对话系统分级定义》发布,迈出AI智能对话规范化发展第一步- DoNews

全球首个《AI对话系统分级定义》发布,迈出AI智能对话规范化发展第一步- DoNews

2022年6月28日,由清华大学计算机教授、智能技术与系统实验室副主任黄民烈发起,联合了十余家科研机构、二十多位知名学者共同制定的全球首个《AI对话系统分级定义》(以下简称《分级定义》)正式发布,《分级定义》将推动AI对话系统在虚拟个人助理、智能家居、智能汽车(车载语音)、情感陪护和心理健康等领域的应用有据可依,并将加速下一代AI对话系统的研发与应用。

file

分级 定义
L0 实际对话由人给出,系统完全没有自动对话能力;或者在任意单—场景中,系统均无法给出较高质量的对话
L1 能完成单一场景的较高质量对话;或虽能完成多个单一场景的较高质量对话,但无法处理场景之间的上下文依赖
L2 在L1的基础上,能同时完成多个场景的较高质量对话,具有处理跨场景的上下文依赖和自然切换能力,无法完成新场景较高质量的对话
L3 在L2的基础上,能针对大量场景开展高质量对话,在新场景上具有较高质量对话能力
L4 在L3的基础上,在新场景上具有高质量对话能力,在多轮交互中拟人化(指人设、人格、情感、观点等维度的一致性)程度较高
L5 在L4的基础上,在多轮交互中拟人化程度高,能在开放场景交互中主动学习和持续学习,具有多模态感知与表达能力

概念说明 -

测试方式:通过一定数量的测试者与对话系统进行充分的对话交互,在测试之前测试者被告知系统的能力范围但不告知系统的技术实现方式,最后由测试者从三个维度进行主观的总评分

相关性:指回复与上文的适配度

信息量:指回复是否提供足够必要的信息,而非通用回复

自然度:是指与人类回复相比的自然度,包含语法是否通顺、是否包含常识错误等

高质量:相关性、信息量、自然度分数达到8-10分(满分10分)

较高质量:相关性、信息量、自然度分数达到6-8分(满分10分)

低质量:相关性、信息量、自然度分数小于6分(满分10分)

《AI对话系统分级定义》

起源于图灵测试的AI对话系统,是人工智能领域最重要的研究方向之一。如果说自然语言处理是人工智能“皇冠上的明珠”,那么AI对话系统则是自然语言处理中最难、最核心的任务之一,是“明珠中最亮的那颗”。因此,AI对话系统被认为是衡量人工智能发展水平的重要因素,代表了人工智能的发展方向。在工业应用领域,AI对话系统呈现出“爆炸式”增长的态势,如以“小度”“小爱”为代表的智能助理,广泛应用于个人助理、智能家居、智能汽车中,还有以谷歌对话机器人Meena、Facebook聊天机器人Blender为代表的开放域闲聊产品中,与大众日常生活紧密相关。

近年来,随着深度学习技术的不断发展,AI对话系统已经从基于规则的第一代和以传统机器学习为核心的第二代,发展到以大数据和大模型为显著特征的第三代,对话能力产生了革命性变化,在开放话题上展现了惊人的对话能力,对进一步推动人工智能产业发展、实现智能化具有巨大意义和价值。

AI对话系统发展历程

然而,作为前沿技术,当前AI对话系统标准缺失,造成其在应用中呈现出水平参差不齐、评价体系不一的现状,导致了业界因认知不统一而对人工智能交互水平出现误解,也引起了社会上关于意识、伦理、道德等方面的广泛讨论。因此,为了更好地评估AI对话系统的能力水平,清华大学智能技术与系统实验室副主任黄民烈联合学界和业界科研机构制定了全球首个《AI对话系统分级定义》,旨在衡量AI对话系统的能力水平,从而促进AI对话系统的进一步研究,同时为工业界应用提供参考。

参与本次《分级定义》的研究机构和研究者包括(以姓氏拼音排序),科大讯飞AI研究院副院长陈志刚,京东集团副总裁、IEEE Fellow何晓冬,清华大学长聘副教授黄民烈,阿里达摩院总监、资深算法专家李永彬,华为诺亚方舟语音语义首席科学家、ACL Fellow刘群,华为诺亚方舟实验室高级研究员糜飞,百度主任架构师牛正雨,腾讯AI Lab总监史树明,中国人民大学副教授宋睿华,阿里达摩院总监孙健,小米技术委员会主席、AI实验室主任王斌,百度技术委员会主席吴华,美团自然语言处理中心总监武威,中国人民大学副教授严睿,中国科学院深圳先进技术研究院副研究员杨敏,OPPO高级技术总监杨振宇,哥伦比亚大学助理教授俞舟,北京师范大学新闻传播学院院长张洪忠,哈尔滨工业大学副教授张伟男,北京聆心智能总监郑银河,三星电子中国研究院语言技术部技术总监朱璇。

file

黄民烈教授详细介绍《分级定义》

黄民烈教授详细介绍了《分级定义》的制定情况。他表示,考虑到AI对话系统任务繁多、评价维度多样、技术路线丰富,撰写小组在制定《分级定义》时仅关注完全由机器主导的对话系统,人机混合的对话系统不在考虑范围内。同时,为了在实际应用中发挥价值,《分级定义》的制定是从用户可感知,以及可观察、可测量、可度量的角度出发,不考虑系统的具体技术实现方式,也不区分助理类任务、闲聊、知识对话等,均以“场景”进行表述。

在上述原则之下,《分级定义》从自动对话能力、对话质量高低、单一/多个场景、跨场景的上下文依赖和自然切换能力、拟人化程度、主动和持续学习能力、多模态感知与表达能力等角度出发,将AI对话系统划分为从L0~L5的六个等级,等级越高,AI对话系统水平越高。

在此《分级定义》的标准之下,当前AI对话系统水平最高已发展至L2~L3之间,常见的如“小爱同学”等AI智能助理。

发布现场,各位参加制定的专家学者,就《分级定义》的发布、AI对话系统的发展等话题与媒体进行了交流。华为诺亚方舟语音语义首席科学家、ACL Fellow刘群表示,本次《分级定义》的制定在行业内是一次大胆的尝试,能够引发AI对话系统研究领域的思考和讨论,帮助研究人员更好地发现系统的问题并明确研究方向。

小米技术委员会主席、AI实验室主任王斌表示,在从事AI智能助理的研发过程中,时常感到难以评判所开发AI对话系统的水平,因此《分级定义》的制定非常必要。《分级定义》发布后,AI对话系统能力水平的衡量将有据可依,对于用户来说,能够更多地关注、更清晰地理解AI对话系统;对行业来说,有助于企业明确研发方向,也能够促进行业更规范地发展。

北京师范大学新闻传播学院院长张洪忠一直非常关注社交机器人所带来的伦理挑战,他认为《分级定义》的发布有助于社会对AI对话系统的发展阶段形成更清晰地认知,对于思考、讨论、制定法律规范形成有力参考,以规避AI对话可能产生的伦理问题。

AI对话系统最高级别的应用为复杂情感任务,该《分级定义》的发布将促进AI对话系统在情感任务中体现更高水平,从而促进人工智能未来在情感陪伴、心理健康、虚拟人、元宇宙等方面的应用,大大释放人力和物力成本,促进前沿科技走进大众日常生活。

此次《分级定义》的发布,是AI对话系统走向规范化、系统化发展的第一步。接下来,黄民烈教授将联合该领域相关研究机构及研究者开展白皮书的编纂,聚焦AI对话系统的发展历程,详细阐释《分级定义》的制定目的和标准。

声明:本站转载此文目的在于传递更多信息,并不代表赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本网联系,我们将在第一时间删除内容,本网站对此声明具有最终解释权。

本文来源DoNews,经授权后由Hai发布,观点不代表春松客服的立场,转载请联系原作者。

相关文章