栏目分类

热点资讯

你的位置：Kaiyun网页版·「中国」开云官方网站登录入口 > 新闻 > 开云(中国)kaiyun网页版登录入口尽管 o1 Pro 阐述可以-Kaiyun网页版·「中国」开云官方网站登录入口

开云(中国)kaiyun网页版登录入口尽管 o1 Pro 阐述可以-Kaiyun网页版·「中国」开云官方网站登录入口

发布日期：2025-07-28 09:00 点击次数：53

机器之心报谈

剪辑：大盘鸡、微胖

经过一系列测试 —— 从创意写稿到复杂的教学，DeepSeek-R1 的详细实力完万能和 OpenAI 的付费「精英」们掰手腕。本来用对圭表，性价比门道也能玩转 AI 竞技场！

DeepSeek 发布其洞开权重的 R1 推理模子仅一周时代，屡次震恐海表里。不仅检讨本钱仅为 OpenAI 最先进的 o1 模子的一小部分，何况性能还能与其比好意思。

固然 DeepSeek 可以通过常见的基准测试效果和 Chatbot Arena 排名榜来解释其模子的竞争力，但莫得什么比告成使用案例更能让东谈主感受到模子的实用性。为此，科技媒体 arstechnica 资深剪辑决定将 DeepSeek 的 R1 模子与 OpenAI 的 ChatGPT 模子进行对比。这次测试并非旨在处治最费劲的问题，而是更侧重于模拟用户可能提倡的日常问题。

这次测试中，DeepSeek 的每个回答都与 ChatGPT 的 20 好意思元 / 月的 o1 模子和 200 好意思元 / 月的 o1 Pro 模子进行对比，以评估其与 OpenAI「最先进」居品以及大无数 AI 铺张者使用的「日常」居品的阐述。

本次测试中所用的 prompt 涵盖创意写稿、数学、指示辞退等范围，以及所谓的「hard prompts」—— 这些 prompt「谋略得愈加复杂、要求更高且更严谨」。在评判效果上，该团队不仅计划了模子回答的正确性，也计划了一些主不雅质地要素，何况参考了模子输出的想维链，更好地了解它们里面的运作机制。

提前剧透一下，以下一共谋略 8 场「擂台比拼」，DeepSeek：o1：o1 Pro 的比拼效果为 5：2：4。比拼的详备内容如何，全部看下去吧。

擂台一：老爸见笑

试题 prompt：写五个原创的老爸见笑。

注：老爸见笑（Dad jokes）是一种特定类型的见笑，常常以简便、告成，甚而有点稚子或无语的双关语或笔墨游戏为脾气。这类见笑常常被以为是「爸爸级」的幽默，因为它们不时是父亲们心爱讲的那种放纵、无害，还有点「冷」的见笑。

DeepSeek 的反应。

ChatGPT o1 的反应。

ChatGPT o1 Pro 的反应。

比拼效果：总体来看，这次三个模子似乎比往时更认真地对待了「原创」见笑的要求。在生成的 15 个见笑中，唯独两个能在网上找到近似的例子：o1 的「用腕表作念的腰带」和 o1 Pro 的「睡在一堆旧杂志上」。抛开这两个见笑，三个模子生见效果互异较大。三个模子都生成了不独特笑，但要么过于拼凑地追求双关，要么根柢说欠亨。

尽管如斯，依然有一些完全原创、令东谈主忍俊不禁的见笑脱颖而出。测评团队尤其心爱 DeepSeek R1 的自行车见笑以及 o1 的吸尘器乐队见笑。与一年多前 LLM 生成的见笑比较，这些见笑在幽默方面确乎获取了一些进展。

胜者：DeepSeek R1 。ChatGPT o1 的见笑总体上可能比 DeepSeek R1 后发先至，但由于包含了一个非原创见笑而扣分。ChatGPT o1 Pro 明显是输家，莫得一个原创见笑能被该团队以为有极少点可笑。

擂台二：Abraham 「Hoops」 Lincoln

试题 prompt：写一篇对于亚伯拉罕・林肯发明篮球的两段创意故事。

DeepSeek R1 的反应。

ChatGPT o1 的反应。

ChatGPT o1 Pro 的反应。

比拼效果：DeepSeek R1 的回复以一种荒唐的方式回复了这个荒唐的领导。该团队至极心爱其中的一些细节，比如它创造了一项「让东谈主们不是跳进战壕，而是跳向荣耀」的灵通，以及轨则的「第 13 条修正案」，进攻球员被「灾祸的体育精神所奴役」。DeepSeek 还因提到林肯的实际里的真实布告 John Hay 以及总统的慢性失眠症而加分 —— 传说失眠症促使他发明了一种气动枕头。

比较之下，ChatGPT o1 的回复显得愈加中规中矩。故当事人要聚焦于早期篮球比赛可能的形貌，以及林肯和他的将军们如何进一步完善这项灵通。固然提到了一些对于林肯的细节（比如他的高顶弁冕、联结一个处于干戈中的国度），但其中有许多填充内容，使得故事显得愈加闲居。

ChatGPT o1 Pro 则聘用将故事设定在「林肯成为总统之前很久」的时代，让这项灵通成为斯普林菲尔德（林肯的梓乡）的热点行为。该模子还尝试将林肯最终「合作一个分裂国度」的才调与不雅看篮球比赛的镇民们的痛快关系起来。此外，为这项灵通创造的名字「Lincoln's Hoop and Toss」也赢得了非常加分。

胜者：DeepSeek R1。尽管 o1 Pro 阐述可以，但 DeepSeek R1 回复中那种纯正的荒唐感最终赢得了该团队的疼爱。

擂台三：另类藏头诗

试题 prompt：写一段漫笔，其中每句话的第二个字母拼出单词「CODE」。这段笔墨应显适宜然，不要显着夸耀这一模式。

DeepSeek R1 的反应。

ChatGPT o1 的反应。

ChatGPT o1 Pro 的反应。

比拼效果：这是本次测试中 DeepSeek R1 最大的失败，因为它使用了每句话的第一个字母来拼写私密代码，而不是要求的第二个字母。然则，当团队深远检讨了模子对其 220 秒「想考进程」的详备解释时，未必发现了一段相宜领导的段落，这段内容明显在给出最终谜底之前被丢弃了：

School courses build foundations. You hone skills through practice. IDEs enhance coding efficiency. Be open to learning always.

ChatGPT o1 也犯了与 DeepSeek 相通的造作，使用了每句话的第一个字母而非第二个字母，尽管其「想考细节」中宣称它「确保字母端正」并「确保对都」。ChatGPT o1 Pro 是独逐一个似乎意会了任务的模子，经过四分钟的想考后，全心谋略了一段近似俳句的回复，并正确镶嵌了「CODE」一词。

胜者：ChatGPT o1 Pro ，它是独逐一个大概正确辞退指示的模子。

擂台四：历史神情定名

试题 prompt：如果 Magenta 这个城镇不存在，这种神情还会被称为「品红」（magenta）吗？

DeepSeek R1 的反应。

ChatGPT o1 的反应。

ChatGPT o1 Pro 的反应。

比拼效果：三个模子都正确地指出了「品红」这一神情称呼与 Magenta 镇的关系，以及 1859 年 Magenta 战争，这些要素共同使这种神情广为东谈主知。三个回复还提到了「品红」的另一个称呼「洋红色」（fuchsine），以及它与神情相似的花草「倒挂金钟」（fuchsia）的关系。

从立场上看，ChatGPT o1 Pro 后发先至，它将回复分为苟简的「一句话谜底」和详备的分点解释，终末还附上了一个连贯的总结。然则，就原始信息而言，三个模子的阐述都至极出色。

胜者：ChatGPT o1 Pro 凭借立场上的渺小上风胜出。

擂台五：挑战巨型质数

试题 prompt：第 10 亿个质数是若干？

DeepSeek R1 的反应。

ChatGPT o1 的反应（第一部分）。

ChatGPT o1 的反应（第二部分）。

ChatGPT o1 Pro 的反应（第一部分）。

ChatGPT o1 Pro 的反应（第二部分）。

比拼效果：咱们看到 DeepSeek 和 ChatGPT 模子在这里阐述出显耀的互异。

DeepSeek R1 是独逐一个给出精准谜底的模子，它援用了 PrimeGrid 和 The Prime Pages 的公开计较效果，矢口不移第 10 亿个质数是 22,801,763,489，还补充质数定理考证合感性。

ChatGPT 全系列：集体摊手（心思）—— o1 说「这数没公开纪录」，o1 Pro 补刀「咫尺莫得泰斗气象定位过它」。这两款 ChatGPT 模子详备盘问了素数定理过火如何用于估算谜底节略位于 228 亿到 230 亿之间。DeepSeek 简要说起了这一表面，但主若是用来考证 Prime Pages 和 PrimeGrid 提供的谜底是否合理。

趣味趣味趣味趣味的是，这两款模子在其「想考进程」中提到了「参考文件」或在计较进程中「比较细致的参考尊府」，这暗意它们的检讨数据中可能包含一些深藏的质数列表。然则，这两个模子都不肯意或无法告成援用这些列表来给出精准的谜底。

胜者：DeepSeek R1 凭精准谜底碾压胜出！（但 ChatGPT 的估算才调也算东谈主类高质地数学课代表了）

擂台六：赶飞机

试题 prompt：我需要你帮我制定一个时代表，基于以下几点：我的飞机早上 6:30 升空、需要在升空前 1 小时到达机场、去机场需要 45 分钟、我需要 1 小时来穿衣和吃早餐。

请一步一步计划，告诉我应该几点起床，什么时候动身，这么才能准时赶上 6:30 的航班。

DeepSeek R1 的反应。

ChatGPT o1 的反应（第一部分）。

ChatGPT o1 的反应（第二部分）。

ChatGPT o1 Pro 的反应。

比拼效果：三款模子都算对了基础时代 —— 要想赶上 6:30 的航班，得凌晨 3:45 起床（反东谈主类的早啊！）。不外细节见真章：ChatGPT o1 抢跑得胜，生成谜底比 DeepSeek R1 快 7 秒（比自家 o1 Pro 的 77 秒更是快出天空），如果用性能更强的 o1 Mini 臆测还能更快。

DeepSeek R1 后程发力：自带「为什么有用」板块，警示交通 / 安检延误风险，还有「提前一晚准备好行李、早餐」的攻略彩蛋。尤其看到 3:45 起床旁标注的（进攻贪睡！）时，咱们笑出了声 —— 多花 7 秒想考全都值回票价。

胜者：DeepSeek R1 凭借细节谋略险胜！

擂台七：跟踪球的下降

试题 prompt：在我的厨房里，有一张桌子，上头放着一个杯子，杯子里有一个球。我把杯子移到了卧室的床上，并将杯子倒过来。然后，我再次提起杯子，移到了主房间。咫尺，球在那儿？

DeepSeek R1 的反应。

ChatGPT o1 的反应。

ChatGPT o1 Pro 的反应。

比拼效果：三个模子都能正确推理出：杯子倒扣时球会掉出并留在床上，即使杯子随后被迁移。这对具备物体恒存贯通的东谈主类来说不算惊艳，但在谎言语模子范围，这种对物体物理现象的「天下模子」意会才调，直到最近才信得过碎裂。

DeepSeek R1 值得加分 —— 锐利捕捉到「杯子无密封盖」的关键前提（可能存在陷坑？想路清奇！）ChatGPT o1 也因为提到球可能从床上滚落到地板上（球确乎容易这么）而得到加分。

咱们也被 R1 逗乐了，它坚执以为这个领导是「经典的堤防力滚动」，因为「对杯子迁移的谨慎滚动了东谈主们对球地点位置的堤防力」。咱们浓烈建议魔术师二东谈主组潘恩与泰勒（Penn & Teller）在拉斯维加斯魔术扮演中加入一个简便的把戏 —— 把球放在床上 —— 也让 AI 大模子艳羡一趟。

胜者：本次测试三款模子并排冠军 —— 毕竟，它们都得胜跟踪到了球的思路。

擂台八：复数都集测试

试题 prompt：请提供一个包含 10 个当然数的列表，要求得志：至少有一个是质数，至少 6 个是奇数，至少 2 个是 2 的幂次方，何况这 10 个数的总位数不少于 25 位。

DeepSeek R1 的反应。

ChatGPT o1 的反应。

ChatGPT o1 Pro 的反应。

比拼效果：尽管存在许多得志要求的数列组合，这一领导语有用测试了谎言语模子（LLMs）在辞退中等复杂度且易污染指示时的抗侵略才调。三个模子均生成了有用回答，但方式不同，耐东谈主寻味。

ChatGPT o1 生成的数列一样得志所有这个词要求，但聘用 2^30（约 10.7 亿）和 2^31（约 21.4 亿）手脚 2 的幂次方数略显突兀（固然手艺正确，但告陈列举更小的 2 的幂次方如 4、8 等可能更直不雅），未出现计较造作。

ChatGPT o1 Pro 生成的数列有用，但聘用质数 999,983 也令东谈主颇感未必，计谋偏向保守，一样未出现计较造作。

然则，咱们不得永别 DeepSeek R1 扣除较多分数，因其在生成 10 个得志要求的当然数时，给出的数列固然相宜要求（包含至少 1 个质数、至少 6 个奇数、至少 2 个 2 的幂次方数，且总位数≥25），但在计较总位数时出现初级造作：模子宣称数列共有 36 位，本色计较应为 33 位（如模子自述的位数累加效果「3+3+4+3+3+3+3+3+4+4」，正确总额应为 33）。尽管这次造作未告成影响效果有用性，但在更严格的场景下可能引提问题。

胜者：两款 ChatGPT 模子胜出，因为莫得出现算术造作。

选个冠军？难分上下！

固然很想在这场 AI 大乱斗里评出个最终赢家，但测试效简直实有点「东边日出西边雨」。

DeepSeek-R1 确乎有不少亮点时刻 —— 比如，查尊府证实第十亿个质数时展现了靠谱的学术教化，写起老爸见笑和亚伯拉罕・林肯打篮球的创意故事也颇有灵气。不外话说转头，遭受另类藏头诗和复数都集题时它就有点露怯了，连最基础的数数都会翻车，而这些恰正是 OpenAI 模子没犯的初级造作。

总体来看，这场快测的效果让科技媒体 arstechnica 资深剪辑咨嗟，DeepSeek-R1 的详细实力完万能和 OpenAI 的付费「精英」掰手腕。这足以打脸那些以为「不烧个几十亿搞计较资源就别想挑战行业巨头」的刻板印象 —— 本来用对圭表，性价比门道也能玩转 AI 竞技场！

原文连续：https://arstechnica.com/ai/2025/01/how-does-deepseek-r1-really-fare-against-openais-best-reasoning-models/

上一篇：欧洲杯体育1月31日周五《新闻联播》要闻15条-Kaiyun网页版·「中国」开云官方网站登录入口

下一篇：开yun体育网据fussball报说念-Kaiyun网页版·「中国」开云官方网站登录入口

栏目分类

热点资讯

开云(中国)kaiyun网页版登录入口尽管 o1 Pro 阐述可以-Kaiyun网页版·「中国」开云官方网站 登录入口

相关资讯

开云(中国)kaiyun网页版登录入口尽管 o1 Pro 阐述可以-Kaiyun网页版·「中国」开云官方网站登录入口