百川再次登上国内大模型综合评分榜首,知识百科能力超越 GPT-4-Turbo
01区块链
2024-04-30 19:27
订阅此专栏
收藏此文章

4 月 30 日,国内权威大模型评测机构SuperCLUE发布了《中文大模型基准测评 2024 年度 4 月报告》,报告选取国内外具有代表性的 32 个大模型 4 月份的版本,通过多维度综合性测评,对国内外大模型发展现状进行观察与思考。

报告显示,Baichuan 3在国内大模型中排名第一,以总分 73.32 的优异成绩超越文心一言 4.0、通义千问 2.1、GLM-4、Moonshot 等大模型。

SuperCLUE 是国内权威的通用大模型综合性测评基准,其前身是第三方中文语言理解测评基准 CLUE(The Chinese Language Understanding Evaluation)。致力于科学、客观、中立评测的 CLUE 自 2019 年成立起,陆续推出了 CLUE、FewCLUE、KgCLUE、DataCLUE 等广为引用的测评基准。

在 CLUE 的基础上,SuperCLUE 依托多年测评经验,基于通用大模型在学术、产业与用户侧的广泛应用,构建了多层次、多维度的综合性大模型测评基准。

不同于传统测评通过选择题形式的测评,SuperCLUE 纳入了开放主观问题的测评。通过多维度多视角多层次的评测体系以及对话的形式,模拟大模型应用场景,真实有效的考察模型生成能力。

同时,SuperCLUE 通过构建多轮对话场景,更深层次考察大模型在真实多轮对话场景的应用效果,对大模型的上下文、记忆、对话能力全方位评测。

为更真实反映大模型通用能力,SuperCLUE 本次测评由十大基础任务组成,包括逻辑推理、代码、语言理解、长文本、角色扮演等,题目为多轮开放式简答题。评测集共 2194 题。

测试结果显示,Baichuan3 的文科、理科能力均衡。在知识百科能力上 Baichuan 3 以 82 分的成绩超越了 GPT-4-Turbo,在所有 32 个参与评测的国内外大模型中排名第一。

而在代表了大模型智力的“逻辑推理”能力上以 68.60 的成绩超越 Claude3-Opus,也力压一众国内大模型拔得头筹。此外,在计算、代码、工具使用能力上 Baichuan 3 表现同样不俗,均排名国内前三。

在评测国内外模型通用能力和专项能力的基础上,SuperCLUE 还对国内模型发展现状及竞争格局进行了分析和研判。

SuperCLUE 认为,Baichuan 3 可应用的场景相对广泛,尤其在专业技能类的任务上表现优异,重点推荐数学推理、数据分析、信息处理、智能客服 / 语音助手以及任务拆解规划等场景。

另外,Baichuan 3 还可以在相对复杂的行业场景中落地,可应用于教育、医疗、金融等垂直行业。 

点击阅读原文可获取完整评测报告

【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

01区块链
数据请求中
查看更多

推荐专栏

数据请求中
在 App 打开