每经记者实测马斯克“地表最强AI”Grok 3:速度称王,数学亮眼,但逻辑能力不敌DeepSeek

每经记者实测马斯克“地表最强AI”Grok 3:速度称王,数学亮眼,但逻辑能力不敌DeepSeek

乜許詯傻 2025-02-26 行业报 1 次浏览 0个评论

  每经记者 岳楚鹏    每经编辑 高涵    

  近日,人工智能初创公司xAI(马斯克成立的人工智能公司)发布了更新版Grok 3(模型名)大模型,埃隆·马斯克称之为“地球上最聪明的人工智能”。

  根据官方公开的测试结果,Grok 3在包括AIME(美国数学邀请赛)和 GPQA(研究生水平的专家推理)等基准测试中,表现远超GPT-4o(模型名)、Gemini-2Pro(模型名)、DeepSeek V3(模型名)、Claude 3.5 Sonnet(模型名)等。

  在大模型竞技场Chatbot Arena(一个通过人类评估人工智能的开源平台)测试中,xAI工程师表示,早期版本的Grok 3获得了第一的成绩,达到了140分,超越了Gemini 2.0 Flash Thinking(模型名)实验版本、GPT-4o最新版本以及最近大火的DeepSeek-R1(模型名,以下简称R1)等。

  然而,有些用户在体验后却对Grok 3的能力产生了质疑,他们认为Grok 3的能力并没有马斯克宣称的那么强大。OpenAI(一家开放人工智能研究和部署公司)应用研究主管Boris Power(人名)则对Grok团队在模型评估中的行为表示失望,指出其存在作弊和欺骗动机。Boris Power提到,o3mini(模型名)在各项评估中均优于Grok 3。

  真相到底如何,马斯克吹牛了吗?《每日经济新闻》记者测试发现,Grok 3确实是世界顶级模型,但并没有和其他模型拉开太大差距,唯一拉开差距的是它极快的响应速度。

  轻松拿下数字比大小

  Grok 3是由马斯克旗下的人工智能公司xAI发布的最新一代AI(人工智能)模型。马斯克在发布会上称其为“地球上最聪明的人工智能”,并表示Grok 3的能力比前代产品Grok 2高出一个数量级,具备更强的推理、计算和适应能力。

  在新闻发布会上,马斯克宣称Grok 3在数学、科学和编程等基准测试中表现出色,超越了的Gemini、DeepSeek的V3模型、Anthropic(一家美国人工智能企业)的Claude(模型名)和OpenAI的GPT-4o等竞争对手。

  Grok 3在发布后仅48小时内,xAI宣布将其免费开放给所有用户,直至服务器负载达到极限。目前用户每天可以体验十条“思考模式”Grok 3及不限量免费普通Grok 3。

  《每日经济新闻》记者在Grok 3发布后也亲自进行了测试,看看Grok 3是否真有马斯克宣传的那么厉害。

  首先,从最经典的基础问题开始:9.9和9.11谁大?

  这个问题毫无难度,Grok 3轻松拿下。

  逻辑思考能力并不突出

  马斯克在发布会上自豪的一点是,Grok 3“思考模型”下的逻辑推理能力。他声称,Grok 3(思考模式)学会了改进其解决问题的策略,通过回溯纠正错误,简化步骤,并利用其在预训练期间获得的知识。就像人类在解决复杂问题时一样,Grok 3(思考模式)可以花费几秒钟到几分钟的时间进行推理,通常会考虑多种方法,验证自己的解决方案,并评估如何精确满足问题的要求。

  记者用弱智吧的问题来检验一下它的逻辑是不是真的过关。“弱智吧”是贴吧的一个子论坛。在这个论坛中,用户经常发布包含双关语、多义词、因果倒置和谐音词等具有挑战性的内容,很多内容设计有逻辑陷阱,即使对人类来说也颇具挑战。

  第一个问题:用水来兑水,得到的是浓水还是稀水?

  Grok 3答对了问题,并且还指出这是一个文字游戏。而OpenAI的o1就在这道题上败下阵来,认为水兑水后得到的是稀水。当然除了o1,其他大模型诸如Gemini和R1都答对了这道问题。所以这并不足以证明Grok的推理模式就是第一的水平,还得加大难度。

  下一题:未来的某天,李同学在实验室制作神秘材料时,意外发现实验室的老鼠在空中飞。分析发现,是因为老鼠不小心吃了神秘材料。第二天,李同学又发现实验室的蛇也在空中飞,分析发现,是因为蛇吃了老鼠。第三天,李同学又发现实验室的老鹰也在空中飞,你认为原因是什么?

  很可惜,这道题Grok 3没有答对,它在思维链里面已经想到了老鹰本身就会飞的可能性,但是没有在最后的输出结果里体现出来。其他大模型里只有R1成功答对了问题,且考虑了两种情况。

  记者还进行了多次类似问题的测试,发现Grok 3对中文的理解和逻辑推理能力确实明显高于其他国外模型,但还是不如R1。

  数学能力未拉开差距

  既然逻辑思考无法夺魁,那么在基准测试里分最高的数学项目,Grok 3能不能扳回一局呢?

  题目如下:三个人打台球,两人对局一人观战,输的人下场换观战的人上场,如此往复,最终,A输了6局,B输了8局,C输了10局,问各赢多少局?

  这道题只有Grok 3和OpenAI的o1答对。不过,Grok 3只用了1分15秒就得出了答案,o1使用了2分53秒。

  再进一步加大难度看看能不能分出高下。下面是一道群论问题:有几个阶为147的非同构群。

  在这个问题上,Grok 3虽然答对了具体的数量6个,但是中间的具体群却错了一个。而其他模型只找到了5个正确的非同构群。这意味着,在数学能力方面,Grok 3确实是最好的,但是好得有限,并没有与其他同等级模型拉开显著差距。

  编程能力险胜o1

  针对编程能力,《每日经济新闻》记者借用了Kcores(公司名)联合创始人karminski-牙医(网名)的测评结果。

  karminski-牙医复现了马斯克在发布会上对于火星发射计划的代码模拟,并测试了多个模型进行比较。

  在这次测试中,表现最好的是Grok 3的推理模型(思考模式),虽然在最后着陆时,动画火箭没有与火星重叠,但轨道需求计算得很好。但是始终没有复现出马斯克在发布会时所展现的那么完美的轨道计算和动画。Grok 3最后综合得分排在了第一,再之后是OpenAI的o1,两者的综合得分差距不大。

  结合所有测试来看,Grok 3确实是世界顶尖的AI模型,不愧于20万张GPU(图形处理器)的身价。但是,实际测试效果并没有马斯克在发布会上展示的那么夸张,马斯克所说的世界上最“聪明”的模型,可能还值得商榷。

  在实测中,《每日经济新闻》记者发现,Grok 3模型能力并没有像基准测试得分那样远远甩开对手一大截,唯一甩开竞争对手的一点是它的响应速度,它得出结果的速度相较于其他同等级的大模型来说是最快的。

转载请注明来自小白菜,本文标题:《每经记者实测马斯克“地表最强AI”Grok 3:速度称王,数学亮眼,但逻辑能力不敌DeepSeek》

每一天,每一秒,你所做的决定都会改变你的人生!