解决AI“高分低能” 需要升级的是考核机制

2022-06-14 10:40:45   来源:科技日报

目前部分人工智能沉迷刷榜,在基准测试时高分通过,表现优异,但实际应用中却还会犯一些非常基础的错误。

日,有媒体报道,目前部分人工智能沉迷刷榜,在基准测试时高分通过,表现优异,但实际应用中却还会犯一些非常基础的错误。这种沉迷刷榜,忽略实用质的行为造成了部分AI模型“高分低能”的现象。那么,对于AI发展而言,基准测试是否必要?在实际应用中,基准测试哪些问题有待改进完善呢?

AI模型哪家好,基准测试来说话

AI模型应该如何衡量其能?

“目前AI模型能力的高低取决于数据,因为AI的本质是学数据,输出算法模型。为了公衡量AI能力,很多机构、企业甚至科学家会收集、设计不同的数据集,其中一部分喂给AI训练,得到AI模型,另外一部分数据用于考核AI模型的能力,这就是基准测试。”日,西安电子科技大学电子工程学院教授吴家骥接受科技日报记者采访时表示。

吴家骥介绍说,机器学越来越多地用于各种实际应用场景,例如图像和语音识别、自动驾驶汽车、医学诊断等。因此,了解其在实践中的行为和能变得非常重要。其鲁棒和不确定的高质量估计对于许多功能至关重要,尤其是在深度学领域。为掌握模型的行为,研究人员要根据目标任务的基线来衡量其能。

2010年,基于ImageNet数据集的计算机视觉竞赛的推出,激发了深度学领域一场算法与数据的革命。从此,基准测试成为衡量AI模型能的一个重要手段。微软公司的计算机科学家马塞洛·里贝罗表示,基准测试应该是从业者工具箱中的一个工具,人们用基准来代替对于模型的理解,通过基准数据集来测试“模型的行为”。

例如,在自然语言处理领域,GLUE科研人员让AI模型在包含上千个句子的数据集上训练,并在9个任务上进行测试,来判断一个句子是否符合语法,并分析情感,或者判断两个句子之间是否是逻辑蕴涵等,一度难倒了AI模型。随后,科研人员提高了基准测试难度,一些任务要求AI模型不仅能够处理句子,还要处理来自维基百科或新闻网站的段落后回答阅读理解问题。仅经过1年的发展,AI模型的能从不到70分轻松达到90分,超越了人类。

吴家骥表示:“科学研究要有科学问题、方法、计算、试验对比等要素。因此在进行科学研究,包括人工智能的科研中,也必须有计算与试验对比,也就是说AI算法的能力应该是可测量的,目的是验证研究方法的可行、有效。因此,基准测试很有必要,这样才可以公验证AI算法能力的高低好坏,避免各说各话,‘王婆卖瓜自卖自夸’。”

算法最终服务实践,而非刷榜

有人说,高分是AI模型的兴奋剂。于是,有的人工智能为了取得好成绩而频频刷榜。

微软公司2020年发布报告指出,包括微软、谷歌和亚马逊在内的各种sota模型包含诸多隐含错误,比如把句子里的“what's”改成“what is”,模型的输出结果就会截然不同,而在此前,从没有人意识到这些曾被评价还不错的商业模型竟会在应用中如此糟糕。显然,这样训练出的AI模型就像一个只会考试、成绩优异的学生,可以成功通过科学家设置的各种基准测试,却不懂为什么。

“为了获得好成绩,研究人员可能会使用特殊的软硬件设置对模型进行调整和处理,让AI在测试中表现出色,但这些能在现实世界中却无法施展。”西安电子科技大学研究员尚坤指出。

在智能手机领域,我们谈及手机的使用体验时一般都不免会涉及手机的能表现,这些能通常会用跑分成绩来表现。然而,我们常常会遇到一款手机的跑分成绩处于排行榜领先水,但是在实际使用过程中却出现动画掉帧、页面滑动卡顿、应用假死等的现象。全球顶级评测网站AnandTech的一篇报道曾对这种现象提出质疑,指出某品牌手机跑分时启动了“能模式”,而在时的使用中“能模式”很少被调用开启。这种处理方式虽然能够获得高跑分,但是不能模拟用户真实的使用情景,这让基准测试不具有参考意义。

尚坤认为,针对上述问题,改进基准的方法主要有:一种是增加更多的数据集,让基准变得更难。用没有见过的数据测试,这样才能判断AI模型是否能够避免过拟合。研究人员可创建一个动态数据收集和基准测试台,针对每个任务,通过众包的方式,提交他们认为人工智能模型会错误分类的数据,成功欺骗到模型的样例被加入基准测试中。如果动态地收集数据增加标注,同时迭代式的训练模型,而不是使用传统的静态方式,AI模型应该可以实现更实质的进化。

尚坤说,另一种是缩小实验室内数据和现实场景之间的差距。基线测试无论分数多高,还是要用实际场景下的数据来检验,所以通过对数据集进行更贴真实场景的增强和扩容使得基准测试更加接真实场景。如ImageNet-C数据集,可根据16种不同的实际破坏程度对原有的数据集进行扩充,可以更好模拟实际数据处理场景。

应用广泛,需尽快建立国家标准

美国麻省理工学院Cleanlab实验室的研究指出,常用的10个作为基准的数据集中,有超过3%的标注是错误的,基于这些基准跑分的结果则无参考意义。

“如果说,基准测试堪称人工智能领域的‘科举制’,那么,‘唯分数论’输赢,是不可能训练出真正的好模型。要打破此种现象,一方面需要采用更全面的评估方法,另一方面可以考虑把问题分而治之,比如用多个AI模型解决复杂问题,把复杂问题转化为简单确定的问题。简单且经过优化的基线模型往往优于更复杂的方法。谷歌的研究人员为常见的AI任务引入了不确定基线库,来更好评估AI应用的稳健和处理复杂不确定的能力。”远望智库人工智能事业部部长、图灵机器人首席战略官谭茗洲指出。

虽然行业正在改变对于基准的态度,但目前基准测试研究仍然是一个小众研究。谷歌在一份研究中采访了工业界和学术界的53位AI从业者,其中许多人指出,改进数据集不如设计模型更有成就感。

谭茗洲表示,AI应用基准研究是构建国内统一大市场的内在需要,当前AI已经在国计民生的各类领域中得到广泛应用,更需要设立标准对AI模型进行全面有效的评估,片面追求和采用高分AI模型,可能会让模型在复杂极端场景下出现“智障”行为,并且可能由于训练和推理能的低效,造成不良社会影响、经济损失和环境破坏。

谭茗洲强调,AI应用基准研究关乎国家战略。针对重要领域,建立我国自己的AI基准测试标准、AI数据集、AI模型评估标准等迫在眉睫。

据了解,西安电子科技大学的DvcLab也在AI基准测试这个领域进行了前瞻研究,特别是针对AI应用基准测试中数据集的整体质量与动态扩展两个关键问题,正在开发可在线协作的数据标注与AI模型研发托管项目,并计划今年陆续开源,正在为构建国家AI基准评估标准体系进行积极探索。(◎本报记者 华 凌)

标签: 解决AI高分低能 需要升级 考核机制

相关阅读

解决AI“高分低能” 需要升级的是考核机制

科技

目前部分人工智能沉迷刷榜,在基准测试时高分通过,表现优异,但实际应用中却还会犯一些非常基础的错误。近日,有媒体报道,目前部分人工智

2022-06-14

高精度智能线虫诞生可蠕动前行 让屏幕前的

科技

近日,在2022智源大会开幕式上,北京智源人工智能研究院(以下简称智源研究院)发布了天演团队最新科研成果高精度智能线虫天宝1 0。画面中,

2022-06-14

研究人员发现常见大麦虫能吃掉塑料垃圾

科技

据10日发表在《微生物基因组学》杂志的一项研究,澳大利亚昆士兰大学的研究人员发现,常见的大麦虫(Zophobas morio,又称超级麦皮虫)可以

2022-06-13

将人类基因与其功能一一对应 项目数据在线

科技

人类基因组计划完成20多年后,美国怀特黑德研究所乔纳森·韦斯曼及其同事展示了在人类细胞中表达基因的第一份综合功能图谱。6月9日在线发表

2022-06-13

“智能皮肤”可探测微生物 有助促进灵敏机

科技

历经6年努力,意大利和奥地利研究人员开创性地研发出一种三合一混合材料,被称为新一代智能皮肤。其灵敏度是真实皮肤的1000倍,能探测触觉

2022-06-13

解决AI“高分低能” 需要升级的是考核机制

科技

目前部分人工智能沉迷刷榜,在基准测试时高分通过,表现优异,但实际应用中却还会犯一些非常基础的错误。近日,有媒体报道,目前部分人工智

2022-06-14

高精度智能线虫诞生可蠕动前行 让屏幕前的很多观众瞪大了眼睛

科技

近日,在2022智源大会开幕式上,北京智源人工智能研究院(以下简称智源研究院)发布了天演团队最新科研成果高精度智能线虫天宝1 0。画面中,

2022-06-14

研究人员发现常见大麦虫能吃掉塑料垃圾

科技

据10日发表在《微生物基因组学》杂志的一项研究,澳大利亚昆士兰大学的研究人员发现,常见的大麦虫(Zophobas morio,又称超级麦皮虫)可以

2022-06-13

将人类基因与其功能一一对应 项目数据在线发表于《细胞》杂志上

科技

人类基因组计划完成20多年后,美国怀特黑德研究所乔纳森·韦斯曼及其同事展示了在人类细胞中表达基因的第一份综合功能图谱。6月9日在线发表

2022-06-13

“智能皮肤”可探测微生物 有助促进灵敏机器人和智能假肢的研发

科技

历经6年努力,意大利和奥地利研究人员开创性地研发出一种三合一混合材料,被称为新一代智能皮肤。其灵敏度是真实皮肤的1000倍,能探测触觉

2022-06-13

神秘“轴向希格斯模式”新粒子发现 研究成果在线发表于最近的《自然》杂志

科技

美国波士顿学院物理学家领导的一个跨学科团队发现了被称为轴向希格斯模式的新粒子,这是一种以前无法检测到的量子激发,也是著名的希格斯玻

2022-06-13

仿生橡胶航空轮胎全流程技术链条贯通

科技

一架飞机冲向蓝天,离不开脚上一双能够在高载荷、高温、高冲击条件下正常工作的鞋子,这双鞋子就是航空轮胎。由于其制造技术壁垒极高,航空

2022-06-13

科学家们对“隼鸟2号”带回的小行星样本首次全面分析

科技

据New Atlas报道,一次为期六年的小行星往返旅行,使人们对太阳系的形成有了前所未有的认识。科学家们对从小行星龙宫返回的样本进行了首次

2022-06-13

巨大的“鳄鱼脸”恐龙被发现 “欧洲最大的陆地捕食者”

科技

据CNET报道,由南安普顿大学的古生物学家领导的一项新研究已经确定了欧洲有史以来最大的陆地捕食者之一的遗骸:一种长度超过 10 米、生活

2022-06-13

研究发现:犬类与人为友的遗传线索

科技

据《科学报告》9日发布的一项研究发现,黑素皮质素受体-2(MC2R)基因可能在犬类的驯化中发挥了作用,使它们发展出社会认知技能,与人类交流

2022-06-10

遇见旗袍是于万千人群中的惊鸿一瞥 沿途洒满了爱的芬芳

旗袍,中国和世界华人女性的传统服装,被誉为中国国粹和女性国服。虽然其定义和产生的时间至今还存有诸多争议,但它仍然是中国悠久服饰文化

北京市电影院有序恢复开放 周五预售部分场次已满座

7月21日,北京市政府发布《北京市电影局关于在疫情防控常态化条件下有序推进电影院恢复开放的通知》,宣布全市低风险地区影院,可于7月24日

近期持续强降雨影响 第46届武汉渡江节因长江水位过高取消

武汉7·16渡江节组委会14日发布公告,由于长江武汉关水位超警戒水位,按照规定取消2020年第46届武汉7·16渡江节。受近期持续强降雨影响,

“非遗”普及受众最看重“动手”参观大师工作室非常享受

过去一段时间,国家级非遗项目灰塑传承人邵成村,多次在陈家祠等工作现场,向身边那些带着好奇目光的人们讲解灰塑的种种技术细节:草根灰、

璧山冷酒夜市 丰富市民夜间文旅活动

7月13日,位于璧山区南门唐城夜市街区的璧山冷酒夜市开街。这是璧山区打造夜间经济消费载体、培育夜间经济活动品牌的举措之一。璧山市民一

年内两市超过500家上市公司完成回购 累计回购金额超332亿元

近期A股市场持续震荡,不少上市公司或其重要股东推出回购、增持计划,用真金白银力挺股价。记者根据同花顺数据统计,今年以来,两市超过500

持续发力补链强链加大研发抢占市场 渝企跑出“加速度”

玥湖路渝快电充换电站 一辆新能源汽车,离不开研发、动力、配套等多个环节。作为汽车制造重镇,重庆在这些环节的多个板块上,正在加速奔跑

重启上市公司资本运作 康佳集团去年半导体业务营业收入为3.22亿元

近日,康佳集团正式对外发布2021年年度业绩报告。2021年,康佳集团实现全年营收491 07亿元,归属于母公司的净利润为9 05亿元,同比增长89 5

伟禄集团连续6年增长 去年营收同比增长37.5%

深港通标的之一的深圳企业伟禄集团近日公布2021年业绩。财报数据显示,伟禄集团全年营业收入11 95亿港元,同比增长37 5%,连续6年稳步增长;

龙头企业去年净利倍增 整个行业营收规模有望创造历史新高位

近日,面板龙头TCL科技、京东方分别发布2021年度业绩快报,两家企业去年归属于上市公司股东的净利润分别增长129 3%、412 86%,实现超过百亿

深圳国企全力为市民 守好“菜篮子”“米袋子”保障量足价稳

疫情防控形势下,民生物资供应是否充足成为市民最为关注的问题之一。连日来,深农集团、深粮控股等企业,充分发挥国企担当,全力为深圳市民