当前位置:首页 > 农业机械 > 正文

OpenAI最大竞争对手Anthropic发布新模型

能自主完成研究、回复邮件以及处理其他后台工作的AI虚拟助手来了。10月22日,美国人工智能初创公司Anthropic宣布推出升级版的模型,升级后的大语言模型,Anthropic声称会达到“仿佛一个人在电脑前工作”的效果。02:01“我们并非为Claude设计特定的工具来完成个别任务,而是教它通用的计...

能自主完成研究、回复邮件以及处理其他后台工作的AI虚拟助手来了。10月22日,美国人工智能初创公司Anthropic宣布推出升级版的模型,升级后的大语言模型,Anthropic声称会达到“仿佛一个人在......

能自主完成研究、回复邮件以及处理其他后台工作的AI虚拟助手来了。

10月22日,美国人工智能初创公司Anthropic宣布推出升级版的模型,升级后的大语言模型,Anthropic声称会达到“仿佛一个人在电脑前工作”的效果。

02:01

“我们并非为Claude设计特定的工具来完成个别任务,而是教它通用的计算机技能,让它能够使用为人类设计的各种标准工具和软件程序。”Anthropic表示。

为了实现该功能,Anthropic在工具使用和多模态方面做了很多前期工作。操作计算机需要理解和解释图像的能力——即屏幕截图。同时,还需要推理何时以及如何执行特定操作。通过训练,Claude学会了将用户的文本指令转化为一系列逻辑步骤,然后在电脑上执行。

例如,它可以帮助用户找到去金门大桥观看日出的最佳地点,查看驾车时间和日出时间,并在日历中安排活动;还可以自动编写网站代码,修复编程错误,甚至在用户构建应用程序时实时评估其性能。

尽管市场上已有其他能够自动化桌面任务的AI代理,如Relay、InducedAI和Automat,但Anthropic声称,新的模型在性能和稳健性上领先于其他竞争对手。根据SWE-benchVerified基准测试,在编码任务上得分从33.4%提升至49.0%,超过了所有公开可用的模型,包括OpenAI的旗舰模型o1-preview。

此外,在TAU-bench测试中也表现出色,在零售领域的得分从62.6%提高到69.2%,在更具挑战性的航空领域则从36.0%跃升至46.0%。即使没有经过专门的训练,升级后的在遇到障碍时还能自我纠错和重试,并能完成需要数十甚至数百步的目标。

不过,Claude的计算机使用功能目前仍有一定局限。例如,它在滚动、拖动、缩放等基本操作上还有困难,由于其通过截图并拼接的方式“观察”屏幕,可能会错过短暂出现的动作或通知。

Anthropic表示,他们采取了多项措施来防止滥用,例如不在训练中使用用户的截图和提示词,防止模型在训练期间访问网络,并开发了分类器,引导Claude避免高风险的行为,如在社交媒体上发帖、创建账户以及与政府网站交互。

“没有万无一失的方法,我们将持续评估和改进安全措施,以平衡Claude的能力和负责任的使用。”Anthropic强调。据悉,多家知名公司已经开始探索Claude的新功能,包括Asana、Canva、Cognition、DoorDash、Replit和TheBrowserCompany等。

Anthropic由前OpenAI成员DarioAmodei和DanielaAmodei创立,旨在开发安全、可靠的AI模型,其Claude系列大语言模型被广泛认为是OpenAI的ChatGPT和谷歌的Gemini的主要竞争对手。此次在关键性能指标上实现领先,展示了Anthropic在人工智能领域同样具有领先实力。

最新文章