Pi打GPT4只要四成功力

小火箭 • 2026年1月18日 am5:19 • 小火箭, 小火箭加速, 小火箭加速器, 小火箭官网

Pi 知道吧？就是那个 AI 界的蔡徐坤，提供极强的情绪价值，被很多人狂粉。

刚刚，Pi升级到了 Inflection-2.5 版本，只用了四成的功力（ FLOPs ），就能发挥接近 GPT-4 的能力。

关于Pi

Pi 上线于去年 5 月，主打暖男牌。

11 月，他们发布了 Inflection-2，被称为当时第二优秀的大模型。

随后 Pi 持续收到关注，并做到日活百万，月活六百万，处理信息四十亿条。

用户粘性也很高，平均每次 33 分钟；前 10% 的核心用户更会超过一小时。

技术参数

先说结论：Pi 现在现在聪明了，和 GPT-4 差不多，但更省钱

直接对比

在最开始的 Inflection-1 种，使用 4% 的 GPT-4 FLOPs，取得了 72% 的水平。

而现在，Inflection-2.5，用了 40% 的 GPT-4 FLOPs ，成绩涨到了 94%。

MMLU 和 GPQA Diamond

MMLU ：多样化的基准测试，衡量了从高中到专业水平难度的各种任务的表现。

GPQA Diamond ：一个极其困难的专家级基准测试。

考试轻轻松松

在理工科考试中，Inflection-2.5 也可以轻松应对。这里选取的是匈牙利数学考试和物理GRE考试（也就是海外研究生入学考试）。成绩如下：

这里解读一下，在匈牙利数学考试中，Inflection-2.5 在一次提示的情况下获得了 63 分，而 GPT-4 获得了 68 分。尽管 Inflection-2.5 的分数略低于 GPT-4，但它的表现仍然显示出了相当的数学解题能力。

在物理 GRE 考试中，Inflection-2.5 在 maj@8 评分标准下的表现超过了 85% 的考生。当我们调整评分标准至 maj@32 时，Inflection-2.5 几乎能达到最顶尖的表现，超过了 95% 的考生。（GPT-4 更强一些，超过了 97% 的考生）。

其他测试

在一些大模型都觉得棘手的 BIG-Bench-Hard 问题集上，Inflection-2.5 比老版本提高了超过 10%，在这个圈子里，这可是相当难得的进步。

还有其他的一些测试，结果就都放在下面了（也没几个测试）。

大聪明怎么看

OpenAI，该起床了！

版权声明：
作者：小火箭
链接：https://www.xiaohuojian9.top/115.html
来源：小火箭官网
文章版权归作者所有，未经允许请勿转载。

THE END

二维码

我用Claude破解了OpenAI的邮件

保姆级教程Coze打工你躺平

下一篇>>

搜索内容