刚才,Operai推出了自己的代理模式,Manus风格

一般描述和用户也可以使用这段时间。作者|李元的共识是,代理是今年AI的重要问题。如果您过去习惯了AI的“口头运动”,那么下一集将是“实践”的时代。毕竟,AI可以理解和聪明,那么为什么我们不能完成工作呢? 2025年下半年才刚刚开始,定义AI的Openai突然拿出了他的经纪人的回应。有趣的是,乍一看,它看起来与几个月前爆炸的马努斯模式非常相似。 7月18日初,Sam Altman和四名歌剧研究人员在Live Broadcast中介绍了下一个OpenAI代理模型。简而言之,代理模式使您可以直接创建ChatGPT要求。如果您在婚礼上缺少对,可以在访问电子商务平台时购买。或为我设计Peripet Firric,询问它们并直接打印。查找信息并直接生成PPT。 tHen,Chatgpt将其本身打开虚拟机并分阶段运行。演示大约需要10分钟才能完成一项复杂的任务。但是,从结果来看,完成非常高。 CHATGPT允许您在虚拟环境中调用文本浏览器,视觉浏览器和终端。根据设备,您还可以调用云服务,图像生成器,可执行代码等的API。更重要的是,这次Pro用户将不再优先执行Operai,并且团队用户可以立即启动,并且每月将有40次可用。很多,肿胀。山姆·奥特曼(Sam Altman)用真诚的眼睛在屏幕上说:这是一个全新的范式。除了我们学会在线导航,并最终确定欺诈性信息,整个社会都需要学会与代理商和共存安全互动。 01在代理模式下我该怎么办?如果您直接观察OpenAI代理模式的演示,您会发现您的直观体验是VERY类似于几个月前流行的Manus经历。当用户请求时,虚拟机将自动点燃。某些任务将自动执行。在执行过程中,代理商将始终要求用户确认并允许手动采集。同时,用户可以在任务中间嵌入新要求并实时交互。通过引入OpenAI,代理模式可以调用三个工具:文本浏览器,视觉浏览器和设备。可以在不同工具之间选择并单独更改模型。这种工具组合的设计非常复杂。当Tex Browserto负责导航大量文本和寻找信息时,视觉浏览器用于直接使用某些键模拟信息搜索和鼠标交互或读取图像信息。在终端中,您可以运行代码,生成PPT和Excel之类的文件,然后调用API云。提供的在这次演示中,研究人员首次提议计划参加另一个朋友的婚礼,选择一件满足服装要求的礼服(考虑到地点,天气,高价的中等价格),以保留酒店并提供礼物建议。研究人员首先更改为CHATGPT代理模式并发送了上述要求。代理开始虚拟计算机并加载环境(大约几秒钟)。然后,Chatgpt首先测试了一个文本浏览器,打开了用户指定的网页,寻找信息wedding witwedding ion,服装要求,天气等。当发现需要更大的确认婚礼日期时,该模型请求澄清,但用户选择单独推断。在找到有关天气和地点的信息后,AI开始推荐合适的衣服,并更改为视觉浏览器以查看衣服的效果。完成任务后,继续寻找酒店和礼物。最后报道的婚礼旅行委员会非常漫长而详尽,可以看到它涵盖了衣服,酒店和礼物。也附上了许多链接,如果酒店有空间,在线预订网站的屏幕截图也附上。他只花了10分钟完成这样的报告。与家庭问题和答案相比,它似乎已经更长了,但是与实际的工作量相比,AI似乎仍然比人类更有效。如果此演示进一步反映了研究能力,则另一项演示直接证明了它们的实际能力。研究人员要求他们为他们的团队的宠物(一只名为Berny的好狗)制作许多笔记本贴纸,并订购了500件。代理直接使用终端功能,并将图像生成的IMPI称为生成动画式狗作为标签设计模式的插图。然后,代理商打开浏览器访问标签Mule网站上装载了网站上设计的照片,完成了贴纸,尺寸等的量,并将产品添加到购物车中。最后,用户是否积极询问您是否要使用此启蒙?您想继续订购吗?用户需要输入信用卡以付款还是继续完成?这项任务只接管了Taruser Credit Jeta的入口。这花了七分钟。具有相同功能的代理也连接到Google Drive API(类似于国家网络光盘),读取文件,然后生成PPT。验证了季节性时间表,并通过详细的旅行电子表格 +得分地图生成了旅行指南。这项任务非常复杂,将代理商花了大约25分钟才能完成。 02理解:AI的能力再次提高了OpenAI这次推出的新代理模型并不是真正的新创新,而是由OpenAI在今年上半年推出的两种工具组成。与操作员进行深入搜索。操作员是浏览器代理的工具,最初仅适用于Pro用户,这使他们可以分析图形操作接口。执行特定操作。深度研究是一种详细的分析工具,可以读取许多网站并直接生成研究报告。 Operai推出了两种工具,许多用户能够快速运行,他说,实际上写快单词与Deep Research的任务相似,例如“旅行计划和保留”。深入的研究用户非常有兴趣提高其“登录到网站并访问受保护资源”的能力。这确实是运营商很久以前可以做的事情。然后,团队决定合并这两种产品。实际上,这与刚刚离开公司的Openai团队的文化非常相似。 Operai非常重视工程师的自动驾驶。通常有多个类似的项目同时推广,允许g任何想进步的人。操作员的集成和深入研究似乎非常成功。在最后,两名从不同角度宣布的代理进行了集成,并具有出色的化学反应,避免了仅使用浏览器的图形界面读取文本材料的效率低下,最终,详细报告的持续时间增加了。 Operai还提到了如何在提供多种工具后训练模型。我仍在使用增强学习。最初,该模型变得“笨拙”,并试图用所有工具解决相对简单的问题。这意味着最初不确定哪种工具更合适。通过奖励以更有效和合理的行为解决的问题,该模型可以逐渐学习使用这些工具。在什么情况下,最合适的工具?例如,如果您正在创作创意作品,则应首先寻求公共资源。然后在终端和compii工作中编写代码。最后,使用视觉浏览器以查看结果。在许多示威活动中,Openai还低估了新的参考评分。通过最后的人文学科考试,可以佩戴浏览器,计算机和设备的代理模型可以获得42%的高分。这是O3的两倍,它根本不使用工具。他还是世界上重要的球员。格罗克宣布,Grok 4 Heave在测试中已达到了45%的工具。使用该工具后的高级数学推理能力也进一步提高了。在已发表的参考点中,有两个是与人类的比较。一个是在网页(webarena)上起作用的函数,另一个是操作电子表格(电子表格库)的函数。在这两个参考点中,我们可以看到代理模型还不如人类模型好,但是页面操作网络处于人体层面。这意味着,即使我们整合了这些工具不如人类的工具,更大的模型也可以达到关键能力。目前,代理显然是大规模模型功能改善的限制。实际上,与代理商并存的时代实际上是,毫无疑问,代理商是2025年AI领域的绝对趋势。但是,在风暴中,用户的真正身体感觉通常并不完美。任务运行太多时间。稍微复杂的任务通常会犯错误。早期的操作员评论说:“点击和流离失所就像在炎热的夏天游泳。”现在,Openai将对操作员进行深入的调查,也许可以减少这种“粘感”,并使代理商真正运行。当Openai独自结束时,最直接的问题在于所有第三个开发人员作为手掌。答案未知。对用户的更多个人挑战继续:隐私和安全。当IA单击网站并在我们看不到的虚拟机中输入个人信息时,谁能保证安全性?谁负责被网站网站?歌剧对此做出了回应,他们将采取非常严格的审查和安全措施,这使整个社会需要时间来协调和建立规范。在聊天时代,代理商的年龄无疑是一个完全不同的新阶段。在聊天时代,我们学会了适应AI的“口”:我们逐渐习惯了这种幻觉,并学会了用其甜蜜的话来区分真实性。这是与“信息可靠性”有关的问题。在时代的年龄,这一挑战完全改变了AI的“手”。联合必须回答完全的新问题。您想信任AI多少?取而代之的是,我们要赋予我们多少权威来委托我们真正的工作?因此,与IA的关系得到了重新定义。从更宏观的角度来看,经纪人的爆炸再次推动了我们的旧问题。如果AI可以独立完成包括数据获取和图像证明的复杂报告ATION并直接完成在线储备,将培训和加速白领工人的工作,还是完全威胁到?答案仍在风中漂浮。但是,无论我们是欢迎,恐惧还是困惑,代理商的自动化和自动化更加自动化和自动化的新时代肯定会加速。