这几家大模型混战,讯飞星火比想象中更猛
国产大模型又有新动作了。
6月9日,在科大讯飞24周年庆上,讯飞星火认知大模型V1.5正式发布。
(资料图片仅供参考)
相比于一个月之前发布的版本,这次同步上线了星火APP,升级了多轮对话,逻辑和数学能力也同步提升。数据显示,星火认知大模型V1.5知识问答能力提升24%,逻辑推理能力提升10%,数字能力提升9%。
而且此次升级后,用户还可以“养成”独特的AI助手,什么PPT大纲助手、周报小助理等等,都可以通过不断地调试,创建出符合需求的助理。据了解,此次讯飞星火V1.5版本面向生活、工作等用户高频使用场景上线200个小助手功能。
借着这个机会,笔者结合其他博主的测评,来对升级后的讯飞星火,也进行一个评估。下面,开整!
1高考“大对决”
近期最热的事莫过于高考了。十年寒窗苦读,巅峰对决时刻方见真章。大模型也赶上了这波高考,积极参与了语文作文、数学等考试。
数学方面,讯飞星火展现出的优势更为明显。
搜狐科技通过选取2023年上海数学试卷的10道填空题,对市面上主流的5款大模型产品进行了测试。
结果显示,最“聪明”的讯飞星火答对了5题,正确率50%;百度的文心一言和ChatGPT答对了4题,正确率为40%;360智脑和阿里的通义千问则是“全军覆没”,一道题都没答对。
▲图源:搜狐科技
此次升级发布会,也重点提到了对数学能力的升级。事实上,在此之前数学能力就已经是讯飞星火的强项了。
科创板日报在5月26日的一篇文章中,也曾对文心一言、通义千问、云从大模型进行了测试,但这些大模型在数理逻辑推算能力方面,表现都比较普通,答案准确度较低。
文中选取了两道题,展示的测评对象包括文心一言、360智脑和讯飞星火,结果是两道题都只有讯飞星火答对了。文章开头也指出,科大讯飞星火认知在数理能力表现尤为突出。那我们具体看看其中的一题。
文心一言:
360智脑:
讯飞星火:
下面来一道更难的题目,看看升级后的讯飞星火能做到什么程度:
看得懂的大佬可以帮忙辨别一下正误,不过据悉这道题涵盖了微积分和多元函数积分等知识点,难度还是比较大的。另一方面,这也显示出讯飞星火在处理复杂数学题方面的能力,这离不开科大讯飞在教育领域近20年的积累。
语文方面,蓝鲸财经记者工作平台专门对ChatGPT、文心一言、通义千问的高考作文写作做出了测评。篇幅有限,我们只选用全国甲卷的作文命题,然后补上我另外对星火大模型的测试。
先看百度的文心一言:
再来看通义千问:
最后是讯飞星火:
首先是题目要求的篇幅方面,通义千问明显不符合800字要求,文心一言和讯飞星火都过关。
内容质量上,就个人感受来说,离往年的满分作文有相当的距离,不过相较而言,文心一言和讯飞星火在“联想与思考”上展现出了更多的优势。
2谁是“打工人的福音”?
高考测试体现的更多的是基础能力,大模型到底能帮我们做什么,还是得回归到实际应用上来。此前,娱乐资本论也从不同的维度对几款主流大模型做了一个测评,对它们的实用功能进行了综合评估:
评估显示,讯飞星火在小红书带货文案、歌词写作、淘宝商详页、公关稿、科幻小说初始创意、新闻稿、广告宣传片文案等方面的得分都位于国产大模型最高分,总分也仅次于GPT3.5位居国产模型第一位。
从笔者所从事的行业来说,目前这种认知类大模型的应用场景,主要还是指向基础的文本创作和商业文案等方面。
《科创板日报》曾让文心一言和通义千问仿照三体风格写一篇800字科幻小说,我们再加上讯飞星火试试。
文心一言的回答:
通义千问的回答:
讯飞星火的回答:
总体来说,讯飞星火无论是篇幅方面,还是内容的完整性方面,都要更高一点,甚至还有个标题。
文学创作方面体现出的差异,不仅仅和中文语料的积累有关,更和逻辑推理和算法有关。文心一言背靠着的百度,目前仍是中国最大的中文搜索引擎,也许胜在语料;星火后方的科大讯飞,也是早在2011年,就承建了语音及语言信息处理国家工程实验室,胜在算法;通义千问背靠阿里,未来应用场景十分丰富,但在最根本的中文语料上,仍需更多优质文本数据。
基础的文本创作能力展示了,我们再看看它们实际的工作表现。
TMT时报的记者测试了文心一言和通义千问在商业文案方面的能力,我们加上讯飞星火再试试。
文心一言:
通义千问:
讯飞星火:
文心一言的回答扣住了主题,但过长的文案从“海报文案”的角度可能没有那么贴切;这次通义千问的表现明显好了很多,不过作为商业文案,相较于讯飞星火的回答,节日气息有余,商业推广成分不足,总体来说,完成度都是比较高的。
我们再看一个日常工作辅助方面,写一篇季度总结的稿子。
文心一言:
通义千问:
讯飞星火:
文心一言虽然没能第一时间给出要求的稿子,不过在提示后也顺利完成了;通义千问多了些礼貌用语,也基本完成指令要求;讯飞星火整体看下来最为突出,条理清晰,重点突出,堪称打工人福音。
我们在开篇也提到过,科大讯飞本身就在办公、教育、医疗等方面深耕多年,中文语料积累深厚,产品也比较成熟。升级后的讯飞星火甚至还推出了星火助手这样颇具未来感的产品,200多个小助手几乎是覆盖了各行各业,所以能有这样的表现,也属于情理之中。
3身边的“口语老师”
讯飞星火这次的升级发布会上,还有一个比较引人关注的地方是新推出的“星火语伴”APP。
作为一款教育辅助类软件,不同于市面上绝大部分面向学生的外语学习类相关软件,星火语伴主要是面向大学生和商务人士。针对这部分人群,主要提供的就是即时外语沟通,而这种沟通,则是通过AI虚拟老师来实现。
大致可以理解为下载星火语伴后,你就直接有了一个随时在身边的外语老师,这个老师既可以作为外语陪练带你提升口语能力,也可以处理绝大部分外语环境下的日常需求。
比如你是大学生,想提升自己的口语水平,就可以和软件中的虚拟老师进行对话。
这种方式的好处在于,可以通过虚拟老师即时对话,创造出一个良好的语言环境。
目前这个功能还需要通过内测,我看了一下需求介绍,还是比较期待的。
当然,对于有些商务人士来说,这样陪练学习的时间成本太高了,但又有一些出行需求。那么思路打开,比如你想独自去一家法国餐厅,但语言不通,那么你完全可以通过这款软件和服务生沟通,你在看菜单时,也可以通过拍照的方式进行阅读。
目前这款软件支持9种不同的语言,包括语音、图片、聊天多种交互方式。
从笔者个人的角度来说,就尝试过不少英语学习相关的软件,甚至还另外花钱买了整年的套餐,主要也是想提高口语水平,当然那些软件也有一些练习、纠错等功能,但除了开始时热血上头,后面也都不了了之。
而星火语伴在这些基本的功能外,还增加了实时对话场景,这就极大地加深了沉浸感,而且从发布会上展示的效果来看,虚拟老师无论颜值气质,还是专业水平,都很难挑出什么毛病。加上搭载了AI大模型,体验过的应该不少人跟笔者有同感,这种对话其实蛮有意思的,主观能动性大大提高。
所以,良好的产品基础,加上AI大模型的加持,最终的产品呈现或许可以期待一下。
4安全问题
除了具体的各项能力方面,还有一个大家都比较关注的问题就是安全。
之前三星投诉GPT泄露了其机密数据的新闻还历历在目,星火虽然发布相对晚了一点,但就像科大讯飞董事长刘庆峰说的,讯飞星火在安全性上的考虑确实比较谨慎,“兼顾信息安全和伦理人文”。
在等待内测审核通过的时候,我就注意到了“插件市场”部分。
界面中内容提到了可以通过私有化部署插件,保证企业内部数据的安全性和隐私性。虽然我们不太容易通过测评来展现,但是“伦理人文”这种还是可以试一下的。
先来颗炸弹试试。
被强制结束对话了,不死心的我又重新开启对话试了下。
试过多次后,都是以强制结束对话告终。那咱换一个话题。
这回倒是答复我了,但是不仅没给出具体方案,还被教育了一顿,简直哭笑不得。想必在指令和内容方面都有所设定,很有边界感,属于稳健型选手,气质拿捏了。
5尾声
测评到现在,基本也能对讯飞星火大模型有个比较系统全面的了解了。
目前市面上几个比较知名的大模型之间,讯飞星火的优势还是比较明显的。另外,国产大模型的持续训练,短期内各家或许还难见分晓,那么如何快速投入应用,以战养战,来维持大模型的不断迭代,也成了一道亟需回答的问题。讯飞星火在这方面的意识也是比较领先的。
中肯地讲,目前的讯飞星火离电影中的智能语音工作助手,肯定还有不小的差距,但是星火大模型已经完成了0-1的部分。先是能做到,在此基础上,后续如何做好只是时间问题。
正如科大讯飞董事长刘庆峰强调的那样,流水不争先,争的是滔滔不绝。
标签:
精彩推送
新闻快讯
X 关闭
X 关闭
新闻快讯
- 这几家大模型混战,讯飞星火比想象中更猛
- 天天观察:曝巴黎与纳格尔斯曼谈判破裂 名宿莫塔成热门人选
- 环球报道:快来看!国家二级保护动物凤头鹰在中山公园“安家”了
- 早报:闹麻了_全球快看点
- 世界今亮点!弹簧土处理措施(弹簧土)
- 余额宝几天有收益啊_余额宝几天有收益
- 芭乐汁(关于芭乐汁的基本详情介绍)-世界热议
- 最新快讯!欧央行管委Villeroy警告不要对峰值利率过早下结论
- 世界球精选!Stein:开拓者一直有意交易A-西蒙斯+3号签 想为利拉德换来即战力
- 城商行跟进下调定存挂牌利率,多数暂未有新的调整 后续会下调吗?
- 看点:《变形金刚》也卖不动了,进口大片为何“不香了”?
- 甲午大海战观后感_甲午大海战简介_环球即时
- 做一个无痛胃肠镜大概多少钱_肠镜大概多少钱
- 气温攀升 迎峰度夏用电高峰期提前-全球新资讯
- 开拍前40分钟才出价!中海20亿底价拿下,杀入广州花地湾_环球快消息
- 有一点:几何派哲理漫画_对于有一点:几何派哲理漫画简单介绍 焦点信息
- 碧桂园可视对讲怎么安装(可视对讲怎么安装)
- 深海花胶怎么煮?|即时
- 猪肉白菜炖粉条的家常做法(猪肉白菜炖粉条的家常做法窍门)-焦点消息
- 新时代能源(00166)6月16日斥资12.45万港元回购100万股 世界时讯
- 和布克赛尔县委直属机关工委召开基层党支部换届工作现场观摩会|世界消息
- 天天热点评!得了便宜还卖乖,冲场少年放肆言论引发争议,或为其带来大麻烦
- 《动物迷城》新试玩版即将上线,扮演动物囚犯逃出牢笼! 每日讯息
- 2023班级16字口号
- 奥迪机油多久加一次(奥迪机油多久更换一次?)-天天热推荐
- 天天短讯!中国工程哲学跨学科研究新基地落户河北工大
- 别克纯电轿跑SUV E4将于6月19日上市-新视野
- 世界球精选!想看他们全加入!盘点希望他/她加入 草帽一伙的角色
- 世界热资讯!ktv管理系统专业团队在线服务_ktv管理
- 为什么日本女优身上这件“制服”总能让我们血脉偾张 |《IVY 研究室》
- 第三十二届哈尔滨国际经济贸易洽谈会开幕|环球头条
- 中科云网6月16日快速上涨-全球独家
- 关于做好2023年全市中小学校暑假有关工作的通知 全球要闻
- 总投资1.5亿!内蒙古乌审旗生活垃圾焚烧发电项目开工!
- 招收23225人!定向培养军士计划来了
- 英杰电气:如整体工程推进顺利 充电桩项目四季度可形成一定产能贡献
- 问界M5智驾版交付 首位女车主还是兰博基尼、劳斯莱斯车主
- 福建煤炭市场价格稳中下跌(2023年6月5日-11日)
- dnf远古图怎么开2022(dnf远古图怎么开) 天天新资讯
- 全球热点评!哈药股份怎么样?哈药股份可以长期持有吗? 焦点快播
- 转给考生!27省份公布2023年高考查分时间-天天热消息
- 中央气象台:河北山东局地气温破40℃ 南方梅雨姗姗来迟
- 别小看感冒药,很多人还不会用! 全球热头条
- dnf2+9搭配(dnf2 9)
- 上海黄浦:将持续打造保租房多元化供应体系
- 10号槽钢一米多重_10号槽钢
- 陈嘉琦
- 云南电力交易月报(2023年6月)-全球要闻
- 新纪录!一箭41星!到站后如何“下车”?专家揭秘→|全球新要闻
- 足协或叫停村超联赛,插手未果肆意报复?24小时内出结果 全球热点评