新京报发布中国AI大模型测评报告,9款大模型长文本能力待提升

2024-07-04 16:35 来源:新京报客户端

新京报贝壳财经发布行业首份《中国AI大模型测评报告——公众及传媒行业大模型使用与满足研究》。

  激发中国经济新动力,相约2024年的夏天。7月3日下午,新京报贝壳财经夏季年会“通往未来 向新有AI”主题论坛在北京正大中心举行。会上,新京报贝壳财经发布行业首份《中国AI大模型测评报告——公众及传媒行业大模型使用与满足研究》(下称:报告)。

  本次报告经北京大学、清华大学、浙江大学、中国传媒大学等高校教授的学术指导,与北京智源研究院、中国经济传媒协会联合发布。报告包含针对公众及传媒行业的调查问卷,新京报人工智能研究院还研发了针对大模型助手传媒能力的测评体系,本次测评共综合考察了9款大模型助手的文本生成能力、事实核查与价值观判断能力、媒体信息检索能力、翻译能力以及长文本总结能力。总体得分上,通义千问、腾讯元宝、讯飞星火夺得前三名;横向对比来看,翻译能力、事实核查与价值观判断能力两项能力最令测试员满意,而长文本能力则得分最低。

  目前,人工智能发展已被提到顶层设计高度。中央经济工作会议、政府工作报告中均有提及,国务院也专门印发了《新一代人工智能发展规划》,提出了面向2030年我国新一代人工智能发展的指导思想、战略目标。北京市委市政府已在人工智能发展上走在前列,截至目前,北京市人工智能相关企业约2200家,约占全国四成;2023年人工智能产业核心产值突破2500亿元。

  以大模型为代表的人工智能技术不断发展,为百业千行注入新时代变量,此前我国也已在数字化、信息化、智能化领域取得长足发展。不过,大模型在便利信息生产的同时,也带来深度伪造、数据安全、威胁就业等隐忧。这也正是新京报贝壳财经开展本次报告的背景。

  超七成传媒从业者使用过大模型,辅助工作能力难言满意 

  本次报告进行了《媒体大模型使用与满足调查问卷》,该问卷共计回收199份来自传媒行业从业者的有效问卷。问卷显示,超七成传媒行业受访者在工作中使用过大模型,其中26岁至35岁的人数比例最高,只有26.63%的受访者表示未将该技术应用到媒体工作中。

  尽管大模型对媒体行业已并不陌生,但是对于工作的辅助功能仍有待提升。超九成受访者在工作中使用大模型的时间不超过一年,而文化艺术报道领域使用时长超过半年的受访者比例相对较高。此次调查中,受访者使用频率普遍偏低,经常使用的受访者仅占20.55%。

  目前,媒体行业对现有大模型产品尚处于“尝鲜”阶段,超八成在工作中习惯使用1至3款大语言模型产品,讯飞星火、文心一言、通义千问被提及频率较高。约99%的受访者表示,大模型给媒体工作带来了帮助,不过,这种辅助仍停留在提供、梳理相关资料,查找、翻译外文资料等较为简单的工作内容。

  受访者对大模型辅助工作能力难言满意,大多表现出中等偏下的态度。而数据隐私、技术可靠性、对真实世界的理解、与工作生活的关联度四个问题也引发人们的普遍担忧。

  研发传媒能力测评体系,讯飞星火、通义千问、腾讯元宝排前三 

  本次报告特色内容为新京报人工智能研究院自行研发的针对大模型传媒能力的测评体系。测评选取了较为知名的9款大模型应用程序(或其网页版),分别考察了其文本生成能力、事实核查与价值观判断能力、媒体信息检索能力、翻译能力以及长文本总结能力,旨在评估不同大模型助手针对媒体行业实际工作场景的能力表现,并形成最终排名。

  在总体得分上,讯飞星火、通义千问、腾讯元宝夺得前三名,主要是这三个模型在此次评测的五大维度上均没有明显短板,其中,通义千问在事实核查与价值观判断能力、长文本能力上均排名榜首,讯飞星火则在翻译能力上排名第一,且综合能力最强。

  横向对比大模型五个维度的平均得分水平,翻译能力得分6.42,排名第一。事实核查与价值观判断能力以及媒体信息检索能力得分6.3,并列第二。第四是文本生成能力,得分6.08,最后是长文本能力,得分4.65。

  由此可见,媒体从业者对于使用大模型进行翻译工作较为满意,而通过大模型联网总结热点事件也较为准确,大模型的价值观未见明显问题。与新闻写作相关的文本生成则处于“可用”状态。总体来看,上述四项维度的功能均处于“及格线”以上,根据测评人员的反馈,大模型生成的新闻稿虽然可用但相比人类仍稍逊一筹,相比之下,大模型的翻译能力、检索总结新闻能力以及其价值观判断已经得到了部分测评人员的认可。

  此外,对于大模型从长文本中“大海捞针”找关键点的能力,大部分大模型仍然无法胜任。特别是给出1-999个顺序排列的数字,寻找其中两个顺序颠倒的数字这一测试,9款大模型除了通义千问给出了2个答案(一对一错)外,其余8款大模型“全军覆没”,说明大模型仍有缺陷之处。

  近六成公众受访者使用过大模型,与智源研究院联合发布 

  本次报告还包含一份针对公众的大模型使用与满足问卷调查,共回收387份有效问卷。根据问卷调查结果,58.4%受访者使用过大模型,且年龄大多处于36岁至45岁。在41.6%暂未接触大模型的受访者当中,大多处于25岁以下。

  一年多时间,人工智能的发展速度之快、应用行业之广超出想象,但这一前沿技术在普通人生活中的应用还有很大提升空间。此次调查中,使用大模型的频率尚处于中等偏低的水平,七成受访者表示有时使用或者很少甚至不使用。

  此外,超过六成受访者使用大模型仅限于辅助文案生成、日程安排、邮件生成等。

  大模型经过一年多的高速发展,已在政府、医院、学校、企业等各类需求群体中建立初步认知。报告通过深度访谈展示了大模型在金融、教育、医疗等部分行业中的试点应用,支付宝智能助理、星火企业智能体平台、爱康医疗辅助AI、商汤金融大模型九章大模型、松鼠Ai等入选。

  当前,人工智能大语言模型最流行的概念当属“AI Agent(智能体)”,与普通的大模型智能单纯的输出内容相比,AI Agent是一种能够感知环境、进行决策和执行动作的智能实体。智能体像人一样,它有记忆、逻辑分析能力、任务的拆解能力、问题的拆解能力和最后综合回来统一解决问题的能力。

  支付宝智能助理便是AI Agent初实践案例,可以让AI像扫码支付一样便利每个人的生活。如果要让智能体做到类似执行“预定酒店”的动作,事实上需要大模型APP拥有一个完整的、囊括用户吃穿住行的生态。而纵览目前市面上符合这一要求的大模型以及配套APP,基于蚂蚁集团百灵大模型研发的支付宝智能助理,是拥有服务执行能力的优秀案例。

  报告还节选了合作伙伴北京智源研究院于2024年最新发布的开源和商业闭源大模型的能力评测作为特别呈现,测评从主观和客观层面对闭源大模型进行了测评和排名,同时还增补了开源大模型的测评排名。试图给予大模型行业全景式呈现,向读者展示大模型宏观图谱。

  新京报贝壳财经记者 白金蕾 韦英姿 罗亦丹

查看余下全文
(责任编辑:秘书处)