实际使用感受如何?来看看这份《人工智能大模型体验报告》 全球快看点
近年来,人工智能技术迎来了新一轮大变革,其中由OpenAI开发的ChatGPT在推出短短2个月后便成为了月活破亿的应用。随着海外科技巨头微软、谷歌、Meta等加大投入,国内科技企业如百度、华为、阿里等纷纷布局,人工智能大模型的发展日新月异。
为直观感受我国当前主流科技企业所推出的大模型产品的现状、优势和特点,新华社研究院中国企业发展研究中心于今年4月启动了人工智能产业创新活力研究。本次研究设置了用户体验项目,抓取了05月22日—05月26日数据,通过人机互动提问等形式,对国内主流大模型进行使用体验评测,旨在为科技企业调整努力方向提供参考。
(资料图片仅供参考)
在综合指数评价方面,本次评测选取4大维度(基础能力、智商测试、情商测试、工作提效能力)、36个子能力,共300个问题,对目前主流大模型产品进行测试,并邀请相关专家组成评测团队深入分析各个产品的语义理解、知识储备、逻辑能力等,最终得出各厂商的大模型综合指数评价。
在评价规则上,课题组以各个大模型对参与测评的题目回答完成度,进行了综合考量,其中评测规则分为:答案较为完美,内容可在实际场景中直接使用;基本可用,可在实际场景中使用;调整可用,但需人工进行调整后方可使用;大略可用,需要较多人工调整方可使用;不可用,答非所问、语言不通等五个层级。
注:基于评测条件、评测时间等限制,本次评测结果存在一定主观性,未来将进一步优化完善评测模型,提供更精确结果。
通过围绕四个维度的综合测试,课题组发现,由OpenAI开发的Chat-GPT系列模型各项指标表现优异,且Chat-GPT4.0版本各项能力在3.5版本的基础上均有一定程度提升。而由百度开发的人工智能大模型文心一言表现较为抢眼,是目前国内自主研发的大模型中具有优势的产品。其余大模型产品也在基础能力方面表现优良,但面对较复杂的工作内容或情商环境仍有不同程度的进步空间。
针对各维度能力测评,该报告还给出了相应的案例展示和分析。
在基础能力部分,百度文心一言表现最为抢眼,讯飞星火、阿里巴巴通义千问、智谱ChatGLM表现优良;商汤商量、Vicuna-13B表现尚佳。
在智商测试部分,百度文心一言在该环节意外超过ChatGPT3.5,表现突出,阿里巴巴通义千问分数接近GPT3.5,商汤商量、讯飞星火、智谱ChatGLM表现尚佳;Vicuna-13B表现有待改进。
在情商测试部分,百度文心一言表现最佳;阿里巴巴通义千问与讯飞星火表现优良;商汤商量、智谱ChatGLM表现尚可;Vicuna-13B表现一般。
在工作提效部分,百度文心一言与智谱ChatGLM最佳,讯飞星火次之;阿里巴巴通义千问及Vicuna-13B表现尚可;商汤商量表现一般。
研究发现,人工智能与各行业的深度融合是促进产业升级和转型的重要方式之一,“大模型+行业”的发展应用尤为重要。目前大模型在金融、工业、医疗等领域已经取得了显著的成果,如何为行业领域提供更为精准、更为高效的解决方案,成为大模型厂商未来弯道超车的机会。
报告指出,随着人工智能的地位和作用越来越重要,政府、企业和社会需要共同努力,各大厂商应投入更多资源,头部企业可以持续发力自研大模型,而专注于解决方案的行业厂商可以考虑通过深耕行业来彰显特色。
研判该报告的测评结果,浙江大学国际联合商学院数字经济与金融创新研究中心联席主任、研究员盘和林建议,国内大模型发展应从两方面着力,一方面是大语言模型,中文并非ChatGPT的强项,OpenAI主业在英语,所以中文大语言模型对于中国市场还是有发展空间的;另一方面则是在细分领域应用,比如编程、专业知识问答、中文PPT制作等,这些细分的功能领域才是未来大模型真正需要关注的领域,也是从单个应用转变为生态应用的关键。
扫码查看
AI大模型体验报告
↓↓↓
标签:
相关推荐:
最新新闻:
- 世界最资讯丨三亚“天涯海角”免门票首日 游客排队等候开园
- 实际使用感受如何?来看看这份《人工智能大模型体验报告》 全球快看点
- 天天资讯:桂林网站设计(关于桂林网站设计的介绍)
- 江歌妈妈:刘鑫侵犯江歌生命权赔偿款已全部到位,后续将捐出|全球观察
- 六一特供!知道中超大连人主帅谢晖小时候长啥样吗,上9张12岁之前的 热推荐
- 时讯:风云岛行动大锅攻略(风云岛行动大锅许愿)
- 焦点讯息:巴菲特过去60年20项重大投资回顾及对我们的启示:第三篇:近代(1989-至今)的投资
- 六一儿童节还能这样过!河南新华书店响彻“最美读书声”
- 热点聚焦:联想集团(00992.HK):6月1日南向资金增持73.2万股
- 吉田:《最终幻想16》玩起来就像一部好莱坞大片|世界新要闻
- 虎娘日报:全球总决赛LPL将有四个参赛名额 LCS或将和拳头和解_环球速递
- 让流动商贩“安家”,武汉这家店月租一元
- [快讯]开立医疗公布2022年年度分红实施方案_头条焦点
- 头条:旅游的市场细分怎么写(市场细分怎么写)
- 全休或半休(全休是什么意思) 环球看点
- 快播:旱莲怎么养(旱莲怎么养家庭养法)
- 环球简讯:腾龙转接富士怎么样(富士x100怎么样)
- ipad无法安装更新(ipad无法安装更新怎么办)|焦点关注
- “猫狗拼”财报横评:淘天优势未消,京东阵痛求变,拼多多迷失于金钱|当前观点
- 青岛市首届龙舟文化节来了!时间就在……_全球报资讯
- 全球信息:今年我国快递业务量已突破500亿件 电商大促成行业增速爆发催化剂
- 酷狗音乐怎么设置问候音
- 全球热点评!要是把全球的核弹引爆 会发生什么事情(引爆核弹)
- psg.lgd是哪个国家的(PSG.LGD)|焦点热闻
- 请问南昌是哪个省的城市(南昌是哪个省份的城市简介介绍)
- 支付宝疫情实时跟踪在哪里(支付宝疫情地图在哪)
- 男子叫嚣“我爸是人大代表,我妈是政协委员”,警方通报
- 全球热文:胃肠功能紊乱的症状及治疗婴儿_胃肠功能紊乱的症状
- 世界看点:车辆年检时间规定最晚检验时间可以超过几天
- 凉山公安通报木里“5.27”森林火灾:系雷击引发 火情已得到控制 全球热点评
- 新宁夏 话振兴|面对未来,“薯”光无限_独家
- 海南省委举办“六一”表彰大会
- 解剖屎山,寻觅黄金之第二弹
- 焦点播报:图片报确认:凯恩已做出决定,他拒绝了拜仁
- 辽宁突发龙卷风!多趟高铁停驶 全球聚看点
- 天天观察:专升本好还是专接本好_专接本和专升本哪个好
- 英雄远征加点_英雄远征答题
- 全球微资讯!辅助轮一高一低会容易摔倒吗(辅助轮一高一低是为什么)
- 我的家在哪里:支付宝我的家在哪里_天天精选
- 中考分几个等级(中考300分是什么等级)
- 世界观天下!农民工子女走进工地体验奇妙“消防课堂”
- 世界热讯:甘肃榆中:兴隆初夏 生机盎然
- 【播资讯】北京朝阳北部将新添39公里城市绿道,预计明年9月投用
- 根痛平颗粒和胶囊哪个效果好_根痛平颗粒
- 钱江水利与陆丰市政府签订战略合作协议
- 平遥国际电影展人人都可以去吗
- 全球速看:登录任天堂账号奇葩图像认证:尴尬路人不知已上镜
- 天天短讯!蒲公英泡水喝功效与主治(浦公英)
- 微速讯:Epic喜加一:《午夜猎魂》免费领取、下周神秘游戏
- 每日看点!《星空》限定Xbox手柄包装疑似泄露:或于6月推出 售价566元
- 《最终幻想16》Demo出现在PS商城!但暂未开启下载-天天观热点
- 《漫威蜘蛛侠2》配音演员回应发布会演示:你们只是看到冰山一角_世界最资讯
- 午评:这个板块 看上去还得涨
- 天天动态:舍利是什么梗_舍利是什么
- 2013格莱美颁奖典礼|要闻
- 全球资讯:一图看懂moto razr 40系列折叠屏,定义“小折叠终极形态”
- 省交管局部署2023年高考期间交通管理工作 全球今头条
- 中梁控股66亿境外债将重组:已获部分债权人同意,“发新换旧”欲展期3.5年 全球热文
- 泰福泵业(300992.SZ):股东毛世俊拟减持不超1.0%股份_天天观天下
- 连续2月突破400亿!半导体IPO募资狂飙
- 卡戴珊重男轻女言论引全网狂骂!逼弟弟生儿子延续家族香火:90岁前总能生出来…
- 世界视讯!美股盘前|英伟达涨超1%;京东涨超1% 大摩予60美元目标价
- 世界飞人博尔特 飞人博尔特
- 《小美人鱼》IMDb遭差评轰炸!官方出手整治
- 游民金币兑换礼品上新啦~ 承包你的“吃喝玩乐” 热门看点
- 世界热点!马斯克中国行24小时见了3位部长_打脸白宫“脱钩断链”
- 《红霞岛》翻车背后:领导一意孤行 员工很困惑-播资讯
- 全球即时:罗丽芬控股:以科研提质,锻造产品实力
- moto razr 40 Ultra发布:折起来也是全面屏
- 至美折叠主力机!摩托罗拉moto razr 40来了
- 3999元起!摩托罗拉moto razr 40系列折叠屏新机正式发布
- 环球热推荐:moto razr 40 Ultra售价公布:5699元起 顶配6399元
- moto razr 40折叠屏发布:3999元起
- 环球看点!76人消息:纳斯上任原因出炉,哈登备胎曝光,名宿痛批大帝
- 比亚迪股份:5月新能源车销量为240,220辆|全球实时