剧透扣子正上线大模型竞技场

小火箭 • 2026年1月18日 am5:24 • 小火箭, 小火箭加速, 小火箭加速器, 小火箭官网

长话短说

扣子将在今日正式更新

带来「大模型竞技场」，盲测版

可以试试下面这个链接，现在放出来了没

https://www.coze.cn/model/arena

也就是

让俩大模型答一个问题

用户投票决优劣

比如

询问：桃源结义时，刘关张拜的谁？

在大模型回复结束后，会弹框

而在用户评价后

才会告诉说这是哪个模型

（豆包竟然还不错...之前一直觉得挺...）

然后这些成绩会被并入榜单

（下个月初会发榜）

为什么我会说，这个更新很重要？

众所周知，各家评分都是第一

很困扰开发者

有盲测榜单，会好很多

保守来说，大多数的排名、测试、评分，不可信：- 任何的大模型，在特有约束下，都可以是第一 - 任何的大模型，都可以通过一定方法，在某些测试里成绩突出 - 测试者很可能不知道 web 端和 api 端的区别

金色传说大聪明，： AI 生态：我说几句实话

实际体验

由于各种原因

我是各种产品的第 0 批体验用户

趁着没人注意

我录了点视频

「魔兽世界怀旧服」的相关新闻

「让狗狗给猫猫让窝」的策略

对于结果的分享图，长这样：

一些额外

刷榜技巧 / 反作弊须知

如果我是大模型厂，想刷榜，也有法（很多），只举一个例子：

作弊：

设立一个问题集，可能有1000个题，或者更多。被问到这些题的时候，就返回的时候包含字段的内容，或者某个预设结果。

找一些人，或者脚本，反复问这些预设问题

如果 2 个答案中，存在命中情况，对其点赞；

如果均未命中，刷新页面（不计入成绩）

应对：

过程：检查用户的输入行为，和模型的返回行为，是否异常

输出：看是否频繁出现特定标识

时间：看大模型点赞增长，是否过于偏离自然增长

结果：看某些用户的评分是否过于偏离均值

看看是扣子的朋友先看到这条，还是大模型厂的朋友先看到条（然后卷国外的 LMSYS)

LMSYS Chatbot Arena

这是最早被大众认可的大模型竞技场

地址：https://arena.lmsys.org/

规则相似：

向两个匿名模型（如 ChatGPT、Claude、Llama）提问，并为表现更好的投票！

你可以进行多轮对话，直到选出优胜者。

如果在对话中透露了模型身份，投票将不被计入。

LMSYS 当前排行榜

GPT 一马当先，Gemini 紧随其后，国产零一万物杀入前十

版权声明：
作者：小火箭
链接：https://www.xiaohuojian9.top/177.html
来源：小火箭官网
文章版权归作者所有，未经允许请勿转载。

THE END

小火箭小火箭下载小火箭加速小火箭加速器小火箭官网小火箭节点

二维码

中学生能看懂快手可灵和Sora背后DiT技术

< <上一篇

SD3已开源附即用方案附测试对比

下一篇>>

搜索内容

剧透扣子正上线大模型竞技场

取消回复

共有 0 条评论

小火箭节点订阅推荐

https://1.aliyun.v-2ray.com/common/channel/redirect/?cid=940341/

热门文章

好用的小火箭节点推荐 Shadowrocket 高速节点

剧透扣子正上线大模型竞技场

取消回复

共有 0 条评论

小火箭节点订阅推荐

https://1.aliyun.v-2ray.com/common/channel/redirect/?cid=940341/

热门文章

好用的小火箭节点推荐 Shadowrocket 高速节点