来自现场OpenAI把实时交互卷到了新高度

参加了 OpenAI 的今日发布

OpenAI Dev Day

在新加坡,大概 200 人

好些熟面孔

来自现场OpenAI把实时交互卷到了新高度-2

在第一排,带来更好、更新的内容

发布之前

先是在今天凌晨,4o 模型来了一波小的更新,版本号 gpt-4o-2024-11-20。主要对写作进行了加强,让其产出的内容更自然、易读(减少所谓 G 味)。在大模型竞技场 LMSYS 中,甚至击败了 o1,成了榜一大哥。

来自现场OpenAI把实时交互卷到了新高度-3

很显然,这是不错的成绩

来自现场OpenAI把实时交互卷到了新高度-4

对此,我跟 OAI 训练模型的老哥聊了下,并表示祝贺(毕竟 4o 比 o1 还猛,有点东西)

老哥跟我说:其实这并不意味着太多,毕竟 LMSYS 的评分还是有局限的

会前闲聊时,OAI 的朋友还夸了下 DeepSeek:

DeepSeek is really solid(原话)

前情提要:《 DeepSeek 推理模型预览版上线,解密 o1 推理过程》

以及...

- “我们不聊 Future Product“

- “那聊聊 Sora 吧”

本次发布

这次发布会,OAI 先整了些花活,比如用 o1 做了个无人机控制程序,然后现场遥控无人机。

对于 o1,之后将支持以下内容:

Function Calling / 函数调用

Developer Message / 开发者消息

Structured Outtputs / 结构化输出

Image Understanding / 图片理解

额外的,在研究了下 api 细节后,我发现接下来 语音理解 应该也会上。

之后是关于 Realtime API 的演示,并带来了更强大的实时语音交互,甚至支持多种语言的混合输入,以及混合输出(没录上,哭了,比 whisper 效果好很多很多),然后情绪、语气非常到位的进行混合输出。现场效果很炸裂。

来自现场OpenAI把实时交互卷到了新高度-5

主讲人用多种语言讲述的,并让 AI 用多种语言回应

以及,Realtime 的语音 API 也迎来了 Cache 调价,输出部分打了 2 折。简单算了下,对于大量相近内容的客服场景,调用成本大概是 50 人民币/小时,和人工队相比,开始有了竞争力(毕竟 AI 很容易规模化)。

来自现场OpenAI把实时交互卷到了新高度-6

输入的 cache 价格,从 $100 降到了 $20

另一个演示,是让 AI 来点单(还是很逼真的):在过程中,AI 进行了全自动点餐,包括确认需求,以及... 调整价格。

还有个有趣的,演讲者让 Realtime API based demo 从 0 开始输出,慢慢的:

于是 One...Two...Three...F- [打断]

问:现在你数到几了?

回答:Four

对于 Function Call,Realtime API 也获得了更新。这使得之后的实时语音,不局限于对话了,而是可以进行如操作电脑、联网、查找资料等功能。在发布会现场,演示人展示了如何「言出法随」操作天体。

来自现场OpenAI把实时交互卷到了新高度-7

做成声控的动态幻灯片,效果很惊艳

业务实践

主场发布之后,OpenAI 的朋友还做了 3 个主题分享,涵盖三个关键方向:

通过结构化输出来提升模型响应的准确性和可靠性

利用模型蒸馏技术来平衡性能与成本

以及运用实时 API 来实现更自然的人机交互体验。

📒

Structured Outputs/ 结构化输出

包括原理和实践,如何通过严格遵循 JSON 格式规范,提升输出结果的可靠性和一致性,让数据更易于处理和集成。

结构化输出介绍过: 看完这篇,你也能做 AI 搜索:论「结构化输出」

这次提到了一个有趣的点:OpenAI 的接口,首次进行结构化输出的时候,会稍慢一点,之后会快,其原因是... 进行了 cache。

从实现的角度,这里并非「prefill + tag + 正则」(Claude CookBook 做法),而是另辟蹊径,也解决了持续输出"nnn..." 问题

相关阅读:

https://platform.openai.com/docs/guides/structured-outputs

🏺

Distillation/ 蒸馏

包括原理和实践,如何将大型模型的智能特性迁移到更小巧的模型中,在保持核心功能的同时,显著降低运营成本,提升系统扩展性。

这里的核心,是使用更强的模型,比如 4o 特定任务,预先输出批量的答案,大几百~几千条,再这些问答对来训练 4o-mini 之类的小模型。如此做完,可以保证在特定任务下,用很低的成本,达到不错的效果。

为此,OpenAI 还提供了完整的工具链。

另外要知道,蒸馏并不适合「需要精准输出的通用任务」。相关阅读:

https://platform.openai.com/docs/guides/distillation

😃

Realtime API/ 实时 API

包括原理和实践,如何集成 Realtime API 的语音和文本处理能力,打造流畅自然的语音交互体验,让应用更智能、更人性化。

额外讲了如何用 Realtime API 配合 Funciton Calling 来使用。这里 Function Calling 的 Schema 和 4o 的格式一致,无缝迁移就行了。

相关阅读:

https://platform.openai.com/docs/guides/realtime

同行交流

除了 OpenAI 的人外,还有几个开发者,也登台分享他们的经验。

Supabase 团队 :如何使用他们的产品,通过 AI 能力,无痛搭建数据库。

来自现场OpenAI把实时交互卷到了新高度-8

Grab 团队 :如何通过 AI 视觉,解决地图定位问题的精准度问题。

来自现场OpenAI把实时交互卷到了新高度-9

来自现场OpenAI把实时交互卷到了新高度-10

SWYX :深入剖析 AI Agent 的工程化实践,探索如何构建可靠、高效的智能代理系统。

来自现场OpenAI把实时交互卷到了新高度-11

SWYX 老哥的 PPT 是公开的

可以在他的个人网站上找到

https://www.swyx.io/

当然

回复 「SWYX」,也可获得

不出意外

写到这行时,发布会结束

按日程,大家一起去酒吧下半场

搞 AI 的都是酒懵子,这很合理

正如橘子所说,AI 和精酿有两个共通点:

都有幻觉

都是泡沫

我的域名,还有升值空间

www.agi.bar

版权声明:
作者:小火箭
链接:https://www.xiaohuojian9.top/268.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>