商汤大模型“商量”多个评测表现超ChatGPT，用户可申请试用

2023-06-22 12:05:58 来源：文汇报

商汤科技近日公布的自研中文语言大模型“商量SenseChat 2.0”在MMLU、AGIEval、C-Eval三个权威大语言模型评测基准的成绩。评测显示，“商量”在这三个测试集中的表现均领先ChatGPT，实现了我国语言大模型研究的突破。

目前，已有近千家企业客户通过申请，应用和体验“商量SenseChat 2.0”超强的长文本理解、逻辑推理、多轮对话、情感分析、内容创作、代码生成等综合能力，并且“商量SenseChat 2.0”还在服务客户过程中，持续实现着快速迭代和提升，以及知识的实时更新。

(相关资料图)

三大评测基准结果：“商量”综合能力超ChatGPT

商汤科技公布的评测结果中，选取了全球三大权威语言模型测评基准MMLU、AGIEval、C-Eval，结果显示“商量SenseChat 2.0”在三个测试集中表现均领先ChatGPT，部分已十分接近GPT4的水平。

l 由美国加州大学伯克利分校等高校构建的多任务考试评测集MMLU；

l 微软研究院推出的学科考试评测集AGIEval（含中国高考、司法考试及美国SAT、LSAT、GRE和GMAT等）；

l 由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集C-Eval；

MMLU是由美国加州大学伯克利分校、哥伦比亚大学、芝加哥大学及伊利诺伊大学厄巴纳-香槟分校联合打造的大规模多任务语言理解的评测基准，涵盖了科学、技术、工程、数据，人文、社会科学等领域的57个科目，难度从初级水平到高级专业水平，考验世界知识和解决问题的能力。

在该评测中，“商量SenseChat 2.0”综合得分为68.6，远超GLM-130B（45.7分）的得分，同时还超过了ChatGPT（67.3分）、LLaMA-65B（63.5分）仅落后GPT-4（86.4分），位居第二。在各主要子评测集中的表现如下：

图中粗体表示结果最佳，下划线表示结果第二

AGIEval是由微软研究院发布的，专门用于评估基础模型在人类认知和问题解决相关任务中表现出的一般能力，从而实现模型智能和人类智能的对比。该基准选取20 种面向普通人类考生的官方、公开、高标准往常和资格考试，包括普通大学入学考试（中国高考和美国SAT 考试）、法学入学考试、数学竞赛、律师资格考试、国家公务员考试等。

在该评测中，“商量SenseChat 2.0”测出49.91的分数，遥遥领先GLM-130B（34.2分）、LLaMMA-65B（34.0分），并再次超越ChatGPT（42.9分），仅次于GPT-4的56.4分。在其中的AGIEval（GK）评测子集中，“商量SenseChat 2.0”以58.5分全面领先，仅微弱差距落后GPT-4（58.8分）。细分科目评测结果如下，其中带GK的是中国高考科目：

图中粗体表示结果最佳，下划线表示结果第二

C-Eval是由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集，包含了13948个多项选择题，涵盖了52个不同的学科和四个难度级别。

面对C-Eval评测基准，“商量SenseChat 2.0”拿到了66.1的分数，在参评的18个大模型中，仅次于GPT-4（68.7分），全面领先ChatGPT、Claude、Bloom、GLM-130B、LLaMA-65B等一众海内外大模型。其中，C-Eval（Hard）子评测集，是选择了8个具有挑战性的数据、物理和化学科目，进一步考核大语言模型的推理能力，“商量SenseChat 2.0”也表现居于前列。

图：最新C-Eval 排行榜

（来源：https://cevalbenchmark.com/static/leaderboard.html）

技术创新+客户落地，推动“商量”能力快速持续提升

今年4月，商汤正式发布“商汤日日新SenseNova”大模型体系，以及自研中文语言大模型“商量SenseChat”。截至6月，全球范围内正式发布的大语言模型已超过40款，其中由中国厂商、高校、科研院所等发布的大语言模型近20款。

在“百花齐放”的市场格局中，通过对比成绩与表现，我们可以了解各大预言模型的特点与差异，并且直观地了解每个大语言模型当前的智能水平。目前“商量SenseChat 2.0”实现了对GPT-3.5超越，并且随着商业化落地的推进，在众多行业、场景中发挥令人满意的作用。

例如在需要大量文案工作的场景中，“商量SenseChat 2.0”可以协助处理各类文章、报告、信函、产品信息、IT信息等，进行编辑、重写、总结、分类、提取信息、制作Q&A等，有效提高企业员工的生产效率。在客户服务场景中，“商量SenseChat 2.0”还可以扮演许多不同的企业角色，如银行客服、给孩子讲故事的绘本老师等等，并进行顺畅的交流和互动，提升客户体验。

此外，“商量SenseChat 2.0”还拥有广泛的知识储备，能够结合企业自身所在行业的专有数据，非常高效地打造满足企业需要的高阶知识库，帮助实现更智能化的知识库管理。“商量SenseChat 2.0”还是高水平的AI代码助手，能够极大帮助提高开发效率，实现新的二八定律，即80%的代码由AI生成，20%则由人工生成。

商汤大语言模型能力的提升源于更多高质量中文数据的训练学习，得益于团队在底层大模型技术上的不断创新。商汤团队在训练阶段采用自研的一系列增强复杂推理能力的方法，以及更加有效的反馈学习机制，让大模型增强推理能力的同时，减轻了传统大模型的幻觉问题。

想申请试用“商量SenseChat 2.0”的用户，可登录：

https://lm_experience.sensetime.com/document/authentication

作者：沈湫莎

责任编辑：任荃

*文汇独家稿件，转载请注明出处。

商汤大模型“商量”多个评测表现超ChatGPT，用户可申请试用

基于EMP2 V3平台/采用全新设计 全新DS 4将于7月13日正式上市

基于EMP2 V3平台/采用全新设计 全新DS 4将于7月13日正式上市

商汤大模型“商量”多个评测表现超ChatGPT，用户可申请试用

基于EMP2 V3平台/采用全新设计 全新DS 4将于7月13日正式上市

已售罄！一盒8个粽子8349元，月销2000+，被谁买走了？ 全球观天下

天天热推荐：潘家湾镇组织开展节前安全隐患大排查行动

海口首次开通英国国际客运航线 每周一、三、五执飞-全球快消息

贾跃亭紧急道歉！法拉第未来股价刚又崩了

啥 是 龙 舟？

动态焦点:“手慢无”频现 银行大额存单为何一单难求

美股多空博弈加剧 家族办公室“各怀心思”火中取栗 快资讯

世界视点！互不挖人！四大养猪企业刷屏，最新回应来了

郎学超贵州省第二人民医院（郎学超）

太原学院是几本院校（太原学院是几本）

市州观察丨德格“麦宿手造”这样走出高原

维也纳酒店V5.0：推动山东酒旅市场更高水平投资和经济效益

周启豪夺冠后排名大涨，国际乒联第25周世界排名公布

当前热点-被“特种兵旅游”搞垮的打工人，终将被日常治愈

【环球时快讯】宁德时代：拟使用不超过78亿元闲置募集资金进行现金

美利信(301307.SZ)：目前未生产CPO相关产品，会关注该领域市场

TCL空调荣膺2022年度健康空调“一线品牌”

2023广西高考分数线出炉 文科投档分数线最新公布

员工离职社保怎么处理最合理呢 员工离职社保怎么处理 消息

浪潮卓数大数据蝉联中国大数据市场领导者象限_全球今热点

神农集团拟定增募资不超过11.5亿元，投资饲料和生猪养殖项目

夏至前的田野

2023年第24周生猪价格环比上涨，猪肉价格环比基本持平-环球新资讯

每日焦点！柞水县志_关于柞水县志概略

用Python写了一个「拥抱梅西」的小游戏

环球百事通！诺基亚准备了两款价格适中的 5G 智能手机

去年在华销量仅占全球5% 现代汽车欲出售2家中国工厂|每日快看

宁夏银川：打通“民心路” 串起幸福城 世界热点

2023年6月国家大剧院招聘考试安排是什么？|微动态

全球微动态丨[快讯]浩海科技公布2022年年度分红实施方案

360安全桌面官网为什么没得下载了_怎样弄就取了360安全桌面 怎么办 通讯

天天日报丨ie是什么病_ie是什么岗位

苹果怎样预约实体店购买_苹果怎么预约实体店购买简介介绍 当前资讯

6月21日生意社磷矿石基准价为966.00元/吨-天天微速讯

无极道君_关于无极道君介绍_环球要闻

当前时讯：日联科技：与宁德时代签订的X射线源供货协议整体交付进度在如期正常交付中

环球今日讯！昔日亚洲之星复出便夺冠，或剑指美网资格赛名额

《最终幻想16》为90GB预载明日启动

环球微头条丨贝因美：6月20日融资买入415.48万元，融资融券余额2.66亿元

【新视野】联邦快递第四财季营收219亿美元，分析师预期226.5亿美元

全球快播：莱利：我认为联盟中没人能单防住约基奇 热火只需要进行阵容微调

王思佳失势，宝岛的新晋“爱马仕贵妇”竟然是她…… 全球滚动

儿童乘坐飞机购票标准_第一次乘坐飞机须知_当前视点

今日热议：鸿远电子06月20日涨停分析

全球即时看！山东省第三批残疾儿童少年随班就读示范校公示名单发布

臥龙电驱：旗下希尔公司目前在手订单达历史新高 暂无分拆上市计划_天天微资讯

郑州市广电社区：加强宣讲培训 筑牢防溺水安全网|焦点速讯

从这里看见未来乡村的模样——浙江美丽乡村调研走笔

抖音通讯录好友为什么带黄点 抖音上出现通讯录好友|天天滚动

白芸豆压片糖果减肥效果怎么样_减肥糖果有哪些效果

贵州高考成绩发布时间定了-天天观焦点

体图：图赫尔4月欧冠赛后就接触沃克 帕瓦尔一离队拜仁将迅速行动 世界聚焦

焦点热文：宁远：奏好调查研究“三部曲”

世界微资讯！LPR年内首度下调10个基点，百万按揭，利息又少了2万元

世界看点：6月20日陕西地区硝酸铵价格暂稳

要闻：阜南县鹿城镇和平社区开展政务服务皖事通宣传推广活动

送老人什么礼物好（过寿送老人什么礼物好） 播资讯

生育险怎么买才是正规的_生育险怎么买

今日报丨渝北洛碛：携手安全 与爱“童”行

老汉打工多年攒17万被烧成炭 基本情况讲解|全球观焦点

全球新动态：来世遗泉州 感受浓情端午

天天速看：对象都是怎么顶的_男生进去女生什么感受

XD华能水：6月19日融资买入640.07万元，融资融券余额21.04亿元

福莱特（601865）：6月19日北向资金减持46.8万股_环球最新

印尼通信卫星SATRIA-1成功发射

弘阳地产（01996.HK）：6月19日南向资金减持515.6万股

不要割肉 独家焦点

云梦：阳光玫瑰丰收在望管理忙 乡村振兴示范村再添新景_世界热闻

蓝色协议日服账号注册 一站式注册流程

林志颖现身商演 基本情况讲解 环球播资讯

今日热搜：一汽解放：拟定增募资不超37.13亿元

最资讯丨多维实力获市场认可，吉利汽车被纳入港股首批“双柜台证券”并正式推出

全球快消息！【肖战水仙|双顾|顾一野X顾魏】《逆光而行》39│双强│双向救赎│HE

“一证通查”“一键查卡”防范涉诈风险 查询量累计突破1.2亿次|焦点速讯

国家反诈中心App累计预警3.1亿次 96110电话要接

基于EMP2 V3平台/采用全新设计全新DS 4将于7月13日正式上市

基于EMP2 V3平台/采用全新设计全新DS 4将于7月13日正式上市

基于EMP2 V3平台/采用全新设计全新DS 4将于7月13日正式上市

已售罄！一盒8个粽子8349元，月销2000+，被谁买走了？全球观天下

海口首次开通英国国际客运航线每周一、三、五执飞-全球快消息

啥是龙舟？

动态焦点:“手慢无”频现银行大额存单为何一单难求

美股多空博弈加剧家族办公室“各怀心思”火中取栗快资讯

2023广西高考分数线出炉文科投档分数线最新公布

员工离职社保怎么处理最合理呢员工离职社保怎么处理消息

宁夏银川：打通“民心路” 串起幸福城世界热点

360安全桌面官网为什么没得下载了_怎样弄就取了360安全桌面怎么办通讯

苹果怎样预约实体店购买_苹果怎么预约实体店购买简介介绍当前资讯

全球快播：莱利：我认为联盟中没人能单防住约基奇热火只需要进行阵容微调

臥龙电驱：旗下希尔公司目前在手订单达历史新高暂无分拆上市计划_天天微资讯

郑州市广电社区：加强宣讲培训筑牢防溺水安全网|焦点速讯

抖音通讯录好友为什么带黄点抖音上出现通讯录好友|天天滚动

体图：图赫尔4月欧冠赛后就接触沃克帕瓦尔一离队拜仁将迅速行动世界聚焦

送老人什么礼物好（过寿送老人什么礼物好）播资讯

今日报丨渝北洛碛：携手安全与爱“童”行

老汉打工多年攒17万被烧成炭基本情况讲解|全球观焦点

全球新动态：来世遗泉州感受浓情端午

不要割肉独家焦点

云梦：阳光玫瑰丰收在望管理忙乡村振兴示范村再添新景_世界热闻

蓝色协议日服账号注册一站式注册流程

林志颖现身商演基本情况讲解环球播资讯

“一证通查”“一键查卡”防范涉诈风险查询量累计突破1.2亿次|焦点速讯

蓝丰生化拟向实控人定增募不超4.03亿补流复牌涨停|天天消息

天下秀涨10.04%，东吴证券一个月前给出“买入”评级世界快播

缅甸南岸近海发生6.0级地震泰国多地震感明显_世界实时

环球快报:【会宁胡麻产业发展系列报道之一】甘肃会宁：大力发展胡麻产业助推乡村振兴

杰富瑞：股价表现不合理大都会人寿(MET.US)应优于保德信金融(PRU.US)

天天通讯！中信建投期货6月19日贵金属日报：美元持续走弱贵金属高位盘整

中信建投陈果：年内最佳机会正逐步展开看好顺周期科技轮动-最新