剧透扣子正上线大模型竞技场

长话短说

扣子将在今日正式更新

带来「大模型竞技场」,盲测版

可以试试下面这个链接,现在放出来了没

https://www.coze.cn/model/arena

也就是

让俩大模型答一个问题

用户投票决优劣

比如

询问:桃源结义时,刘关张拜的谁?

在大模型回复结束后, 会弹框

剧透扣子正上线大模型竞技场-2

剧透扣子正上线大模型竞技场-3

而在用户评价后

才会告诉说这是哪个模型

(豆包竟然还不错...之前一直觉得挺...)

剧透扣子正上线大模型竞技场-4

然后这些成绩会被并入榜单

(下个月初会发榜)

剧透扣子正上线大模型竞技场-5

为什么我会说,这个更新很重要?

众所周知,各家 评分都是第一

很困扰开发者

有盲测榜单,会好很多

保守来说,大多数的排名、测试、评分,不可信:- 任何的大模型,在特有约束下,都可以是第一 - 任何的大模型,都可以通过一定方法,在某些测试里成绩突出 - 测试者很可能不知道 web 端和 api 端的区别

金色传说大聪明,: AI 生态:我说几句实话

实际体验

由于各种原因

我是各种产品的第 0 批体验用户

趁着没人注意

我录了点视频

「魔兽世界怀旧服」的相关新闻

「让狗狗给猫猫让窝」的策略

对于结果的分享图,长这样:

剧透扣子正上线大模型竞技场-6

一些额外

刷榜技巧 / 反作弊须知

如果我是大模型厂,想刷榜,也有法(很多), 只举一个例子:

作弊:

设立一个问题集,可能有1000个题,或者更多。被问到这些题的时候,就 返回的时候包含字段的内容,或者某个预设结果。

找一些人,或者脚本,反复问这些预设问题

如果 2 个答案中,存在命中情况 ,对其 点赞 ;

如果均未命中, 刷新页面 (不计入成绩)

应对:

过程:检查用户的输入行为,和模型的返回行为,是否异常

输出:看是否频繁出现特定标识

时间:看大模型点赞增长,是否过于偏离自然增长

结果: 看某些用户的评分是否过于偏离 均值

看看是扣子的朋友先看到这条,还是大模型厂的朋友先看到条 (然后卷国外的 LMSYS)

LMSYS Chatbot Arena

这是最早被大众认可的大模型竞技场

地址:https://arena.lmsys.org/

规则相似:

向两个匿名模型(如 ChatGPT、Claude、Llama)提问,并为表现更好的投票!

你可以进行多轮对话,直到选出优胜者。

如果在对话中透露了模型身份,投票将不被计入。

剧透扣子正上线大模型竞技场-7

LMSYS 当前排行榜

GPT 一马当先,Gemini 紧随其后,国产零一万物杀入前十

剧透扣子正上线大模型竞技场-8

版权声明:
作者:小火箭
链接:https://www.xiaohuojian9.top/177.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>