OpenAI强敌丢炸弹，新一代大模子性能逾越GPT-4o-外盘期货_中一期货

OpenAI强敌丢炸弹，新一代大模子性能逾越GPT-4o-外盘期货

行业新闻 | 2024-06-21 14:16

今天， OpenAI强敌Anthropic溘然丢炸弹，宣布下一代旗舰大模子Claude 3.5 Sonnet。

3个月前Claude 3曾艳压全场，首次让大批用户有了逾越GPT-4的推背体验。这次作为最新升级，也是即将推出的Claude 3.5全系列中*版本，Anthropic更是自豪地称Claude 3.5 Sonnet已领跑全行业智能水准，不仅在普遍评估中胜过GPT-4o等一众竞争对手，也保持了中端模子Sonnet的*性价比。

价钱上，Claude 3.5 Sonnet每百万输入3美元，每百万输出15美元，只有上一代超大杯Opus的1/5，运行速率却是它的两倍，并拥有20万 token上下文窗口。

现在所有用户都可以登录Claude.ai和移动客户端免费体验新模子，订阅用户将获得更高接见权限（官方称比免费版5倍好用）。也可以通过Anthropic API、Amazon Bedrock等平台获得。

一直眼疾手快的Poe示意，已经放置上了。

速率翻倍，写作更自然、编程更智能

详细来看性能显示。Claude 3.5 Sonnet在研究生级推理能力(GPQA)、本科生级知识(MMLU)和编程能力(HumanEval)方面树立了新的行业基准。在掌握语义的细微差异、诙谐和庞大指令上有显著改善，能以更自然、亲和的语气输出高质量的写作内容。

代码方面显示优异。在团队考察AI能否凭证文字需求改善代码的内部编程测试中， Claude 3.5 Sonnet乐成解决了64%的问题，而Claude 3 Opus只解决了38%。研究职员发现，只要给Claude 3.5 Sonnet清晰的指令和需要工具, 它就能自力编写、编辑和执行代码，并具备庞大推理和故障清扫能力。并能轻松处置代码翻译，稀奇适合更新遗留应用程序和迁徙代码库。

Anthropic开发者关系工程师Alex Albert示意，Claude在编写代码和自主修复pull requests方面变得异常精彩。“显然，一年之后，大部门代码将由大语言模子编写。”

他在一样平常事情中发现，代码测试和修复通常比编写自己更花时间。此时Cloud 3.5 Sonnet可以充当一个成熟的编程署理。Albert在视频中展示了若何在最少输入和没有互联网接见的沙盒环境下，借助Claude将一个裁切圆形头像的bug函数修复，并转变为一个包罗单元测试在内的功效齐全的实现。

最强视觉模子，解放生产力

此次3.5 Sonnet在视觉能力上也实现了伟大突破，是Anthropic迄今为止最壮大的视觉模子。

它在注释图表、图形等视觉推理义务中改善显著。可以准确地从大略图像中转录文本，并输出更多洞察，这也是零售、物流和金融服务等领域的焦点能力。

示例视频中，用户示意要做一小我私人类基因组的班级演讲。给出一张测序里程碑时间线图片和一个测序成本随时间转变的图表，要求Claude 3.5 Sonnet把图中数据转录成 JSON花样。Claude 3.5 Sonnet马上从图中抓取数据，确立了两个主要数组的 JSON 结构。接着凭证进一步指令，将两个数组相连系确立了一个交互式 Plotly.js 图表。最后继续出大招，把完整的演讲demo给搞定了。

图像信息提取和转录、数据结构化、上下文明白、用户协作....Claude 3.5 Sonnet*树模了什么叫解放生产力。再加上速率提升和成本效益，使它成为处置例如上下文敏感的客户支持、协调多步骤事情流程等庞大义务的理想选择。

引入新功效Artifacts，实时查看义务的小监视器

此外另一个亮点是在Claude.ai上引入Artifacts预览版。

Ilya的新创业伙伴，是个技术加强版的Sam Altman？

这也是这个此前一直强调模子平安和底层研究的Anthropic ，在产物交互上的一次大更新。

这是一项扩展用户与Claude互动方式的新功效。当要求Claude天生代码、文本或网站设计等内容时，Artifacts会泛起在对话旁边的专用窗口中，供用户实时查看、编辑和构建Claude的创作。相当于形成了一个动态事情空间，将AI天生的内容更无缝集成到自己的项目和事情流程中。

Anthropic称，这项功效标志着Claude从对话式AI向协作事情环境的演变。这只是Claude.ai更普遍愿景的最先，不久的未来将扩展到支持团队协作。最终甚至整个组织都能够在统一个共享空间中平安地集中他们的知识、文档和正在举行的事情，Claude将作为一个随时待命的队友。

这乍听有点像微软的团队助手Team Copilot。但Team Copilot治剖析议、分配义务、纪录条记等的定位类似一个项目司理；Claude则听起来更像把团队请进一间屋子恬静地坐着，动着手指，一起旁观Claude“为打工人打工”。

Anthropic：我每隔几个月就会厉害一次

作为一家主打平安的AI公司， Anthropic固然也用大量篇幅强调新一代模子经由了严酷的平安测试。

抱着每隔几个月就大幅改善智能、速率和成本之间的权衡曲线的目的，Anthropic还示意将在今年晚些时刻宣布同系列的另两个成员：Claude 3.5 Haiku和Claude 3.5 Opus。除此以外，公司也在开发新的模态和功效，以支持更多的企业用例。

自从今年3月初宣布Claude 3系列以来，Anthropic久未有大动作。上次被社区热议照样Jan Leike和Sam Altman闹翻，从OpenAI激情去职加入“我方阵营”的时刻。

Jan Leike在社交平台示意，自己已加入Anthropic继续大模子可注释性和超级对齐研究。

此次Claude 3.5 Sonnet宣布，Jan Leike也继宣告入职新闻后首次发文站台。

“我喜欢新的Sonnet。我经常让它为我注释机械学习论文。虽然不总是百分百准确，但可能比我大略阅读要好，而且速率快得多。自动化的对齐研究正在越来越靠近现实...”

鉴于昨天Ilya Sutskever宣布确立新公司的新闻，也有八卦的网友问，“是什么让你选择加入Anthropic而不是SSI ?”

一位用户实测让Claude 3.5 Sonnet确立一个能在短时间内玩的原创游戏。它随即设计了「Color Cascade」，一个需要从一系列掉落的形状中捉住准确颜色的游戏。这名用户示意，感受到了AGI的味儿。

Perplexity CEO Aravind Srinivas也发文说，Claude 3.5 Sonnet现已对平台订阅用户开放。在Perplexity内部评估中，它取得了比GPT-4o更高的分数。

不外也有人发现了华点：

固然，这凑巧只是某位Anthropic测试员工的名字。但典中典已成，另外一位在Anthropic做AI对齐的Sam Bowman回复说：“我想我们整代人中约莫有三分之一都叫Sam。Anthropic至少有十几个叫这个名字的，包罗团结首创人在内。”

原来天下是一个伟大的Sam。