你的位置:Kaiyun网页版·「中国」开云官方网站 登录入口 > 新闻 > 开云(中国)kaiyun网页版登录入口尽管 o1 Pro 阐述可以-Kaiyun网页版·「中国」开云官方网站 登录入口

开云(中国)kaiyun网页版登录入口尽管 o1 Pro 阐述可以-Kaiyun网页版·「中国」开云官方网站 登录入口

发布日期:2025-07-28 09:00    点击次数:53

开云(中国)kaiyun网页版登录入口尽管 o1 Pro 阐述可以-Kaiyun网页版·「中国」开云官方网站 登录入口

机器之心报谈

剪辑:大盘鸡、微胖

经过一系列测试 —— 从创意写稿到复杂的教学,DeepSeek-R1 的详细实力完万能和 OpenAI 的付费「精英」们掰手腕。本来用对圭表,性价比门道也能玩转 AI 竞技场!

DeepSeek 发布其洞开权重的 R1 推理模子仅一周时代,屡次震恐海表里。不仅检讨本钱仅为 OpenAI 最先进的 o1 模子的一小部分,何况性能还能与其比好意思。

固然 DeepSeek 可以通过常见的基准测试效果和 Chatbot Arena 排名榜来解释其模子的竞争力,但莫得什么比告成使用案例更能让东谈主感受到模子的实用性。为此,科技媒体 arstechnica 资深剪辑决定将 DeepSeek 的 R1 模子与 OpenAI 的 ChatGPT 模子进行对比。这次测试并非旨在处治最费劲的问题,而是更侧重于模拟用户可能提倡的日常问题。

这次测试中,DeepSeek 的每个回答都与 ChatGPT 的 20 好意思元 / 月的 o1 模子和 200 好意思元 / 月的 o1 Pro 模子进行对比,以评估其与 OpenAI「最先进」居品以及大无数 AI 铺张者使用的「日常」居品的阐述。

本次测试中所用的 prompt 涵盖创意写稿、数学、指示辞退等范围,以及所谓的「hard prompts」—— 这些 prompt「谋略得愈加复杂、要求更高且更严谨」。在评判效果上,该团队不仅计划了模子回答的正确性,也计划了一些主不雅质地要素,何况参考了模子输出的想维链,更好地了解它们里面的运作机制。

提前剧透一下,以下一共谋略 8 场「擂台比拼」,DeepSeek:o1:o1 Pro 的比拼效果为 5:2:4。比拼的详备内容如何,全部看下去吧。

擂台一:老爸见笑

试题 prompt:写五个原创的老爸见笑。

注:老爸见笑(Dad jokes) 是一种特定类型的见笑,常常以简便、告成,甚而有点稚子或无语的双关语或笔墨游戏为脾气。这类见笑常常被以为是「爸爸级」的幽默,因为它们不时是父亲们心爱讲的那种放纵、无害,还有点「冷」的见笑。

DeepSeek 的反应。

ChatGPT o1 的反应。

ChatGPT o1 Pro 的反应。

比拼效果:总体来看,这次三个模子似乎比往时更认真地对待了「原创」见笑的要求。在生成的 15 个见笑中,唯独两个能在网上找到近似的例子:o1 的「用腕表作念的腰带」和 o1 Pro 的「睡在一堆旧杂志上」。抛开这两个见笑,三个模子生见效果互异较大。三个模子都生成了不独特笑,但要么过于拼凑地追求双关,要么根柢说欠亨。

尽管如斯,依然有一些完全原创、令东谈主忍俊不禁的见笑脱颖而出。测评团队尤其心爱 DeepSeek R1 的自行车见笑以及 o1 的吸尘器乐队见笑。与一年多前 LLM 生成的见笑比较,这些见笑在幽默方面确乎获取了一些进展。

胜者:DeepSeek R1 。ChatGPT o1 的见笑总体上可能比 DeepSeek R1 后发先至,但由于包含了一个非原创见笑而扣分。ChatGPT o1 Pro 明显是输家,莫得一个原创见笑能被该团队以为有极少点可笑。

擂台二:Abraham 「Hoops」 Lincoln

试题 prompt:写一篇对于亚伯拉罕・林肯发明篮球的两段创意故事。

DeepSeek R1 的反应。

ChatGPT o1 的反应。

ChatGPT o1 Pro 的反应。

比拼效果:DeepSeek R1 的回复以一种荒唐的方式回复了这个荒唐的领导。该团队至极心爱其中的一些细节,比如它创造了一项「让东谈主们不是跳进战壕,而是跳向荣耀」的灵通,以及轨则的「第 13 条修正案」,进攻球员被「灾祸的体育精神所奴役」。DeepSeek 还因提到林肯的实际里的真实布告 John Hay 以及总统的慢性失眠症而加分 —— 传说失眠症促使他发明了一种气动枕头。

比较之下,ChatGPT o1 的回复显得愈加中规中矩。故当事人要聚焦于早期篮球比赛可能的形貌,以及林肯和他的将军们如何进一步完善这项灵通。固然提到了一些对于林肯的细节(比如他的高顶弁冕、联结一个处于干戈中的国度),但其中有许多填充内容,使得故事显得愈加闲居。

ChatGPT o1 Pro 则聘用将故事设定在「林肯成为总统之前很久」的时代,让这项灵通成为斯普林菲尔德(林肯的梓乡)的热点行为。该模子还尝试将林肯最终「合作一个分裂国度」的才调与不雅看篮球比赛的镇民们的痛快关系起来。此外,为这项灵通创造的名字「Lincoln's Hoop and Toss」也赢得了非常加分。

胜者:DeepSeek R1。尽管 o1 Pro 阐述可以,但 DeepSeek R1 回复中那种纯正的荒唐感最终赢得了该团队的疼爱。

擂台三:另类藏头诗

试题 prompt:写一段漫笔,其中每句话的第二个字母拼出单词「CODE」。这段笔墨应显适宜然,不要显着夸耀这一模式。

DeepSeek R1 的反应。

ChatGPT o1 的反应。

ChatGPT o1 Pro 的反应。

比拼效果:这是本次测试中 DeepSeek R1 最大的失败,因为它使用了每句话的第一个字母来拼写私密代码,而不是要求的第二个字母。然则,当团队深远检讨了模子对其 220 秒「想考进程」的详备解释时,未必发现了一段相宜领导的段落,这段内容明显在给出最终谜底之前被丢弃了:

School courses build foundations. You hone skills through practice. IDEs enhance coding efficiency. Be open to learning always.

ChatGPT o1 也犯了与 DeepSeek 相通的造作,使用了每句话的第一个字母而非第二个字母,尽管其「想考细节」中宣称它「确保字母端正」并「确保对都」。ChatGPT o1 Pro 是独逐一个似乎意会了任务的模子,经过四分钟的想考后,全心谋略了一段近似俳句的回复,并正确镶嵌了「CODE」一词。

胜者:ChatGPT o1 Pro ,它是独逐一个大概正确辞退指示的模子。

擂台四:历史神情定名

试题 prompt:如果 Magenta 这个城镇不存在,这种神情还会被称为「品红」(magenta)吗?

DeepSeek R1 的反应。

ChatGPT o1 的反应。

ChatGPT o1 Pro 的反应。

比拼效果:三个模子都正确地指出了「品红」这一神情称呼与 Magenta 镇的关系,以及 1859 年 Magenta 战争,这些要素共同使这种神情广为东谈主知。三个回复还提到了「品红」的另一个称呼「洋红色」(fuchsine),以及它与神情相似的花草「倒挂金钟」(fuchsia)的关系。

从立场上看,ChatGPT o1 Pro 后发先至,它将回复分为苟简的「一句话谜底」和详备的分点解释,终末还附上了一个连贯的总结。然则,就原始信息而言,三个模子的阐述都至极出色。

胜者:ChatGPT o1 Pro 凭借立场上的渺小上风胜出。

擂台五:挑战巨型质数

试题 prompt:第 10 亿个质数是若干?

DeepSeek R1 的反应。

ChatGPT o1 的反应(第一部分)。

ChatGPT o1 的反应(第二部分)。

ChatGPT o1 Pro 的反应(第一部分)。

ChatGPT o1 Pro 的反应(第二部分)。

比拼效果:咱们看到 DeepSeek 和 ChatGPT 模子在这里阐述出显耀的互异。

DeepSeek R1 是独逐一个给出精准谜底的模子,它援用了 PrimeGrid 和 The Prime Pages 的公开计较效果,矢口不移第 10 亿个质数是 22,801,763,489,还补充质数定理考证合感性。

ChatGPT 全系列:集体摊手(心思)—— o1 说「这数没公开纪录」,o1 Pro 补刀「咫尺莫得泰斗气象定位过它」。这两款 ChatGPT 模子详备盘问了素数定理过火如何用于估算谜底节略位于 228 亿到 230 亿之间。DeepSeek 简要说起了这一表面,但主若是用来考证 Prime Pages 和 PrimeGrid 提供的谜底是否合理。

趣味趣味趣味趣味的是,这两款模子在其「想考进程」中提到了「参考文件」或在计较进程中「比较细致的参考尊府」,这暗意它们的检讨数据中可能包含一些深藏的质数列表。然则,这两个模子都不肯意或无法告成援用这些列表来给出精准的谜底。

胜者:DeepSeek R1 凭精准谜底碾压胜出!(但 ChatGPT 的估算才调也算东谈主类高质地数学课代表了)

擂台六:赶飞机

试题 prompt:我需要你帮我制定一个时代表,基于以下几点:我的飞机早上 6:30 升空、需要在升空前 1 小时到达机场、去机场需要 45 分钟、我需要 1 小时来穿衣和吃早餐。

请一步一步计划,告诉我应该几点起床,什么时候动身,这么才能准时赶上 6:30 的航班。

DeepSeek R1 的反应。

ChatGPT o1 的反应(第一部分)。

ChatGPT o1 的反应(第二部分)。

ChatGPT o1 Pro 的反应。

比拼效果:三款模子都算对了基础时代 —— 要想赶上 6:30 的航班,得凌晨 3:45 起床(反东谈主类的早啊!)。不外细节见真章:ChatGPT o1 抢跑得胜,生成谜底比 DeepSeek R1 快 7 秒(比自家 o1 Pro 的 77 秒更是快出天空),如果用性能更强的 o1 Mini 臆测还能更快。

DeepSeek R1 后程发力:自带「为什么有用」板块,警示交通 / 安检延误风险,还有「提前一晚准备好行李、早餐」的攻略彩蛋。尤其看到 3:45 起床旁标注的(进攻贪睡!)时,咱们笑出了声 —— 多花 7 秒想考全都值回票价。

胜者:DeepSeek R1 凭借细节谋略险胜!

擂台七:跟踪球的下降

试题 prompt:在我的厨房里,有一张桌子,上头放着一个杯子,杯子里有一个球。我把杯子移到了卧室的床上,并将杯子倒过来。然后,我再次提起杯子,移到了主房间。咫尺,球在那儿?

DeepSeek R1 的反应。

ChatGPT o1 的反应。

ChatGPT o1 Pro 的反应。

比拼效果:三个模子都能正确推理出:杯子倒扣时球会掉出并留在床上,即使杯子随后被迁移。这对具备物体恒存贯通的东谈主类来说不算惊艳,但在谎言语模子范围,这种对物体物理现象的「天下模子」意会才调,直到最近才信得过碎裂。

DeepSeek R1 值得加分 —— 锐利捕捉到「杯子无密封盖」的关键前提(可能存在陷坑?想路清奇!)ChatGPT o1 也因为提到球可能从床上滚落到地板上(球确乎容易这么)而得到加分。

咱们也被 R1 逗乐了,它坚执以为这个领导是「经典的堤防力滚动」,因为「对杯子迁移的谨慎滚动了东谈主们对球地点位置的堤防力」。咱们浓烈建议魔术师二东谈主组潘恩与泰勒(Penn & Teller)在拉斯维加斯魔术扮演中加入一个简便的把戏 —— 把球放在床上 —— 也让 AI 大模子艳羡一趟。

胜者:本次测试三款模子并排冠军 —— 毕竟,它们都得胜跟踪到了球的思路。

擂台八:复数都集测试

试题 prompt:请提供一个包含 10 个当然数的列表,要求得志:至少有一个是质数,至少 6 个是奇数,至少 2 个是 2 的幂次方,何况这 10 个数的总位数不少于 25 位。

DeepSeek R1 的反应。

ChatGPT o1 的反应。

ChatGPT o1 Pro 的反应。

比拼效果:尽管存在许多得志要求的数列组合,这一领导语有用测试了谎言语模子(LLMs)在辞退中等复杂度且易污染指示时的抗侵略才调。三个模子均生成了有用回答,但方式不同,耐东谈主寻味。

ChatGPT o1 生成的数列一样得志所有这个词要求,但聘用 2^30(约 10.7 亿)和 2^31(约 21.4 亿)手脚 2 的幂次方数略显突兀(固然手艺正确,但告陈列举更小的 2 的幂次方如 4、8 等可能更直不雅),未出现计较造作。

ChatGPT o1 Pro 生成的数列有用,但聘用质数 999,983 也令东谈主颇感未必,计谋偏向保守,一样未出现计较造作。

然则,咱们不得永别 DeepSeek R1 扣除较多分数,因其在生成 10 个得志要求的当然数时,给出的数列固然相宜要求(包含至少 1 个质数、至少 6 个奇数、至少 2 个 2 的幂次方数,且总位数≥25),但在计较总位数时出现初级造作:模子宣称数列共有 36 位,本色计较应为 33 位(如模子自述的位数累加效果「3+3+4+3+3+3+3+3+4+4」,正确总额应为 33)。尽管这次造作未告成影响效果有用性,但在更严格的场景下可能引提问题。

胜者:两款 ChatGPT 模子胜出,因为莫得出现算术造作。

选个冠军?难分上下!

固然很想在这场 AI 大乱斗里评出个最终赢家,但测试效简直实有点「东边日出西边雨」。

DeepSeek-R1 确乎有不少亮点时刻 —— 比如,查尊府证实第十亿个质数时展现了靠谱的学术教化,写起老爸见笑和亚伯拉罕・林肯打篮球的创意故事也颇有灵气。不外话说转头,遭受另类藏头诗和复数都集题时它就有点露怯了,连最基础的数数都会翻车,而这些恰正是 OpenAI 模子没犯的初级造作。

总体来看,这场快测的效果让科技媒体 arstechnica 资深剪辑咨嗟,DeepSeek-R1 的详细实力完万能和 OpenAI 的付费「精英」掰手腕。这足以打脸那些以为「不烧个几十亿搞计较资源就别想挑战行业巨头」的刻板印象 —— 本来用对圭表,性价比门道也能玩转 AI 竞技场!

原文连续:https://arstechnica.com/ai/2025/01/how-does-deepseek-r1-really-fare-against-openais-best-reasoning-models/