Pi打GPT4只要四成功力
Pi 知道吧?就是那个 AI 界的蔡徐坤,提供极强的情绪价值,被很多人狂粉。
刚刚,Pi升级到了 Inflection-2.5 版本,只用了 四成的功力( FLOPs ),就能发挥接近 GPT-4 的能力 。
关于Pi
Pi 上线于去年 5 月,主打暖男牌。
11 月,他们发布了 Inflection-2,被称为当时第二优秀的大模型。
随后 Pi 持续收到关注,并做到日活百万,月活六百万,处理信息四十亿条。
用户粘性也很高,平均每次 33 分钟;前 10% 的核心用户更会超过一小时。

技术参数
先说结论 :Pi 现在现在聪明了,和 GPT-4 差不多,但更省钱
直接对比

在最开始的 Inflection-1 种,使用 4% 的 GPT-4 FLOPs,取得了 72% 的水平。
而现在,Inflection-2.5,用了 40% 的 GPT-4 FLOPs ,成绩涨到了 94%。
MMLU 和 GPQA Diamond
MMLU :多样化的基准测试,衡量了从高中到专业水平难度的各种任务的表现。
GPQA Diamond :一个极其困难的专家级基准测试。

考试轻轻松松
在理工科考试中,Inflection-2.5 也可以轻松应对。这里选取的是匈牙利数学考试和物理GRE考试(也就是海外研究生入学考试)。成绩如下:

这里解读一下, 在匈牙利数学考试中,Inflection-2.5 在一次提示的情况下获得了 63 分,而 GPT-4 获得了 68 分。尽管 Inflection-2.5 的分数略低于 GPT-4,但它的表现仍然显示出了相当的数学解题能力。
在物理 GRE 考试中,Inflection-2.5 在 maj@8 评分标准下的表现超过了 85% 的考生。当我们调整评分标准至 maj@32 时,Inflection-2.5 几乎能达到最顶尖的表现,超过了 95% 的考生。(GPT-4 更强一些,超过了 97% 的考生)。
其他测试
在一些大模型都觉得棘手的 BIG-Bench-Hard 问题集上,Inflection-2.5 比老版本提高了超过 10%,在这个圈子里,这可是相当难得的进步。
还有其他的一些测试,结果就都放在下面了(也没几个测试)。





大聪明怎么看
OpenAI,该起床了!


共有 0 条评论