Pi打GPT4只要四成功力

Pi 知道吧?就是那个 AI 界的蔡徐坤,提供极强的情绪价值,被很多人狂粉。

刚刚,Pi升级到了 Inflection-2.5 版本,只用了 四成的功力( FLOPs ),就能发挥接近 GPT-4 的能力 。

关于Pi

Pi 上线于去年 5 月,主打暖男牌。

11 月,他们发布了 Inflection-2,被称为当时第二优秀的大模型。

随后 Pi 持续收到关注,并做到日活百万,月活六百万,处理信息四十亿条。

用户粘性也很高,平均每次 33 分钟;前 10% 的核心用户更会超过一小时。

Pi打GPT4只要四成功力-2

技术参数

先说结论 :Pi 现在现在聪明了,和 GPT-4 差不多,但更省钱

直接对比

Pi打GPT4只要四成功力-3

在最开始的 Inflection-1 种,使用 4% 的 GPT-4 FLOPs,取得了 72% 的水平。

而现在,Inflection-2.5,用了 40% 的 GPT-4 FLOPs ,成绩涨到了 94%。

MMLU 和 GPQA Diamond

MMLU :多样化的基准测试,衡量了从高中到专业水平难度的各种任务的表现。

GPQA Diamond :一个极其困难的专家级基准测试。

Pi打GPT4只要四成功力-4

考试轻轻松松

在理工科考试中,Inflection-2.5 也可以轻松应对。这里选取的是匈牙利数学考试和物理GRE考试(也就是海外研究生入学考试)。成绩如下:

Pi打GPT4只要四成功力-5

这里解读一下, 在匈牙利数学考试中,Inflection-2.5 在一次提示的情况下获得了 63 分,而 GPT-4 获得了 68 分。尽管 Inflection-2.5 的分数略低于 GPT-4,但它的表现仍然显示出了相当的数学解题能力。

在物理 GRE 考试中,Inflection-2.5 在 maj@8 评分标准下的表现超过了 85% 的考生。当我们调整评分标准至 maj@32 时,Inflection-2.5 几乎能达到最顶尖的表现,超过了 95% 的考生。(GPT-4 更强一些,超过了 97% 的考生)。

其他测试

在一些大模型都觉得棘手的 BIG-Bench-Hard 问题集上,Inflection-2.5 比老版本提高了超过 10%,在这个圈子里,这可是相当难得的进步。

还有其他的一些测试,结果就都放在下面了(也没几个测试)。

Pi打GPT4只要四成功力-6

Pi打GPT4只要四成功力-7

Pi打GPT4只要四成功力-8

Pi打GPT4只要四成功力-9

Pi打GPT4只要四成功力-10

大聪明怎么看

OpenAI,该起床了!

版权声明:
作者:小火箭
链接:https://www.xiaohuojian9.top/115.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>