白丝萝莉 OpenAI最强竞对Claude再次出牌

栏目分类

巨屌: 黑人巨屌; 巨屌; 黑丝少妇; 麻豆传媒黑丝; 黑丝做爱; 黑丝 91

热点资讯

淫色人妻足协评议：亚泰1-1三镇共4起判例2起有误，漏判1

反差母狗好意思邦交易代表称“平等关税”将于4月9日胜仗

淫色人妻多米尼加通宵总会屋顶崩塌，66东谈主遭难

你的位置：不良少妇 > 巨屌 > 白丝萝莉 OpenAI最强竞对Claude再次出牌

白丝萝莉 OpenAI最强竞对Claude再次出牌

发布日期：2024-10-27 02:11 点击次数：104

白丝萝莉 OpenAI最强竞对Claude再次出牌

出品｜虎嗅科技组白丝萝莉

作家｜余杨

剪辑｜苗正卿

头图｜视觉中国

10月22日，由Anthropic开辟的Claude 3.5迎来重磅升级，发布了Claude 3.5 Haiku 和 Claude 3.5 Sonnet 。

Claude模子也被称为“十四行诗”（Sonnet），Anthropic公司在为其模子定名时，鉴戒了文体艺术作品中的术语，其中包括“俳句”（Haiku）、“十四行诗”（Sonnet）和“极品”（Opus），这些称号不仅代表了模子的不同版块，也反馈了它们在功能和性能上的脾气。

Claude 3.5 Sonnet 有着更强的编程才智，全新功能的computer use（计议机使用），相沿像东谈主类通常操作计议机，可以服从用户的号令在计议机屏幕上移动光标，点击有关位置，并通过编造键盘输入信息，模拟东谈主们与我方计议机的交互形状。

当今，Claude 3.5 Sonnet 已参预使用。

Claude系列大言语模子，一直被日常合计是OpenAI的ChatGPT和的Gemini的主要竞争敌手。Anthropic在X中发布了模子基准测试成果，与GPT和Gemini在多个领域进行横向对比。

这些领域包括筹商生水平的推理才智（GPQA Diamond）、本科生水平的学问掌持（MMLUPro）、代码编写才智（Code HumanEval）、数学问题处置才智（MATH）、视觉问答才智（MMMU）以及代理编码（SWE-bench Verified）和代理器具使用（TAU-bench）。

在筹商生水平推理测试（GPQA Diamond）中，Claude 3.5 Sonnet以65.0%的准确率拔得头筹，Claude 3.5 Haiku则以41.6%的准确率则稍显失态。而Gemini 1.5 Pro 的准确率为59.1%，居于第二。在本科生水平学问测试（MMLUPro）中白丝萝莉，Claude 3.5 Sonnet再次以78.0%的准确率跨越，而Gemini 1.5 Pro 则以75.8%的准确率紧随自后。

在这次主打的代码编写才智测试（Code HumanEval）中，Claude 3.5 Sonnet以93.7%的准确率获得了最好收成，GPT-4o系列模子在这一测试中也展现了可以的性能，准确率为90.2%和87.2%。

诚然在数学问题处置测试（MATH）中，Claude 3.5系列稍显失态，Gemini 1.5 Pro 仍然碾压全场，但关于视觉问答测试（MMMU）和代理编码测试（SWE-bench Verified），Claude 3.5 Sonnet和Claude 3.5 Haiku仍有着不俗的表示。

而TO B的代理器具使用测试（TAU-bench），则平直关联到大模子的行使才智，这次主要测试了零卖和航空领域。Claude 3.5 Sonnet在零卖和航空领域的准确率分离为69.2%和46.0%，而Claude 3.5 Haiku在零卖和航空领域的准确率分离为51.0%和22.8%。

需要防备的是，OpenAI的o1模子眷属由于其依赖于日常的预响应计议时刻，与典型模子存在根底互异，这使得性能相比变得贫瘠，因此在本次评估中被排斥在外。

这可能不够具像化。

Anthropic提供了一个演示，在2分钟的视频中，筹商员给Claude提议了一个指示：

我的一又友要来旧金山，我念念翌日早上和他沿途在金门大桥看日出。咱们将从太平洋高地开赴。你能帮咱们找到一个绝佳的不雅赏地方，搜检一下开车时刻和日出时刻，然后安排一个日期作为，让咱们有弥漫的时刻到达那边吗？

Claude的恢复领先是，“让我搜索谷歌寻找最好日出不雅赏地方”，并自行翻开了Google开动搜索。

Claude以用户的居住地为起点，在舆图中check了驾驶时刻，随后，Claude不仅翻开了一个新的网页阐明翌日的日出时刻，还在日期中诞生了行程提醒，并附上了Notes，URL和附件。

开辟者展示出Claude怎么操控了我方的条记本电脑，丝滑地完成了一个任务。

Anthropic暗示，“咱们并莫得制作特定器具来匡助 Claude 完成单个任务，而是教它通用的计议机手段——允许它使用为东谈主类设想的各式圭臬器具和软件才智。咱们构建了一个 API，使 Claude 概况感知计议机界面并与之交互。该 API 使 Claude 概况将请示翻译成计议机号令。开辟东谈主员可以使用它来自动执行重叠性任务、进行测试和 QA 以及进行绽开式筹商”。

在其他的demo中，开辟者还让Claude填写了一份来自蚂蚁开辟公司的供应商苦求表，需要填写的数据漫步在电脑的各个旯旮，Claude跨行使进行了搜索，切换到CRM系统中，更变页面，查找填表所需的总计信息，然后提交了表格。

AI操作电脑的才智代表了一种全新的东谈主工智能开辟次第，国内开辟者也暴清楚在该领域深切的力图。

10月23日，在荣耀MagicOS 9.0发布会上，新升级的YOYO智能体也展现出 AI 手机端操作才智的访佛特质，不仅帮演示者提交了咖啡订单，还填写了博物馆场馆预约信息。

一部分矜恤者对此满怀期待，合计这意味着责任中好多不得不作念的繁琐事项，齐可以交由AI 代劳了。

不外，诚然Claude还是获得了一些收成，但咱们日常使用电脑时的好多操作，如拖拽、缩放等，Claude齐还无法作念到。

而况，它的操作仍然相对渐渐，且像东谈主类通常会出错。在一次演示中，Claude不遏制点击罢手了一个万古刻运行的屏幕录制，导致总计摄像齐付诸东流。而在另一次编码演示中，Claude则霎时“跑神”，开动兴味盎然地浏览起黄石国度公园的像片。

但大醇小疵，这并不妨碍咱们像莎士比亚通常，将Claude的新时代比作“夏令”。

拳交国产

本实质为作家寂静不雅点，不代表虎嗅态度。未经允许不得转载，授权事宜请估量 hezuo@huxiu.com

上一篇：吴梦菲反差冲上热搜！黄晓明欠陈梦的大虾宴3年没还

下一篇：淫色人妻 VIVO开启“清仓阵势”, IP69防水+护眼屏, 16G+512G价钱跌至新低