每经记者实测马斯克“地表最强AI”Grok 3：速度称王，数学亮眼，但逻辑能力不敌DeepSeek

乜許詯傻 2025-02-26 行业报 1 次浏览 0个评论

　　每经记者岳楚鹏每经编辑高涵

　　近日，人工智能初创公司xAI（马斯克成立的人工智能公司）发布了更新版Grok 3（模型名）大模型，埃隆·马斯克称之为“地球上最聪明的人工智能”。

　　根据官方公开的测试结果，Grok 3在包括AIME（美国数学邀请赛）和 GPQA（研究生水平的专家推理）等基准测试中，表现远超GPT-4o（模型名）、Gemini-2Pro（模型名）、DeepSeek V3（模型名）、Claude 3.5 Sonnet（模型名）等。

　　在大模型竞技场Chatbot Arena（一个通过人类评估人工智能的开源平台）测试中，xAI工程师表示，早期版本的Grok 3获得了第一的成绩，达到了140分，超越了Gemini 2.0 Flash Thinking（模型名）实验版本、GPT-4o最新版本以及最近大火的DeepSeek-R1（模型名，以下简称R1）等。

　　然而，有些用户在体验后却对Grok 3的能力产生了质疑，他们认为Grok 3的能力并没有马斯克宣称的那么强大。OpenAI（一家开放人工智能研究和部署公司）应用研究主管Boris Power（人名）则对Grok团队在模型评估中的行为表示失望，指出其存在作弊和欺骗动机。Boris Power提到，o3mini（模型名）在各项评估中均优于Grok 3。

　　真相到底如何，马斯克吹牛了吗？《每日经济新闻》记者测试发现，Grok 3确实是世界顶级模型，但并没有和其他模型拉开太大差距，唯一拉开差距的是它极快的响应速度。

　　轻松拿下数字比大小

　　Grok 3是由马斯克旗下的人工智能公司xAI发布的最新一代AI（人工智能）模型。马斯克在发布会上称其为“地球上最聪明的人工智能”，并表示Grok 3的能力比前代产品Grok 2高出一个数量级，具备更强的推理、计算和适应能力。

　　在新闻发布会上，马斯克宣称Grok 3在数学、科学和编程等基准测试中表现出色，超越了的Gemini、DeepSeek的V3模型、Anthropic（一家美国人工智能企业）的Claude（模型名）和OpenAI的GPT-4o等竞争对手。

　　Grok 3在发布后仅48小时内，xAI宣布将其免费开放给所有用户，直至服务器负载达到极限。目前用户每天可以体验十条“思考模式”Grok 3及不限量免费普通Grok 3。

　　《每日经济新闻》记者在Grok 3发布后也亲自进行了测试，看看Grok 3是否真有马斯克宣传的那么厉害。

　　首先，从最经典的基础问题开始：9.9和9.11谁大？

　　这个问题毫无难度，Grok 3轻松拿下。

　　逻辑思考能力并不突出

　　马斯克在发布会上自豪的一点是，Grok 3“思考模型”下的逻辑推理能力。他声称，Grok 3（思考模式）学会了改进其解决问题的策略，通过回溯纠正错误，简化步骤，并利用其在预训练期间获得的知识。就像人类在解决复杂问题时一样，Grok 3（思考模式）可以花费几秒钟到几分钟的时间进行推理，通常会考虑多种方法，验证自己的解决方案，并评估如何精确满足问题的要求。

　　记者用弱智吧的问题来检验一下它的逻辑是不是真的过关。“弱智吧”是贴吧的一个子论坛。在这个论坛中，用户经常发布包含双关语、多义词、因果倒置和谐音词等具有挑战性的内容，很多内容设计有逻辑陷阱，即使对人类来说也颇具挑战。

　　第一个问题：用水来兑水，得到的是浓水还是稀水？

　　Grok 3答对了问题，并且还指出这是一个文字游戏。而OpenAI的o1就在这道题上败下阵来，认为水兑水后得到的是稀水。当然除了o1，其他大模型诸如Gemini和R1都答对了这道问题。所以这并不足以证明Grok的推理模式就是第一的水平，还得加大难度。

　　下一题：未来的某天，李同学在实验室制作神秘材料时，意外发现实验室的老鼠在空中飞。分析发现，是因为老鼠不小心吃了神秘材料。第二天，李同学又发现实验室的蛇也在空中飞，分析发现，是因为蛇吃了老鼠。第三天，李同学又发现实验室的老鹰也在空中飞，你认为原因是什么？

　　很可惜，这道题Grok 3没有答对，它在思维链里面已经想到了老鹰本身就会飞的可能性，但是没有在最后的输出结果里体现出来。其他大模型里只有R1成功答对了问题，且考虑了两种情况。

　　记者还进行了多次类似问题的测试，发现Grok 3对中文的理解和逻辑推理能力确实明显高于其他国外模型，但还是不如R1。

　　数学能力未拉开差距

　　既然逻辑思考无法夺魁，那么在基准测试里分最高的数学项目，Grok 3能不能扳回一局呢？

　　题目如下：三个人打台球，两人对局一人观战，输的人下场换观战的人上场，如此往复，最终，A输了6局，B输了8局，C输了10局，问各赢多少局？

　　这道题只有Grok 3和OpenAI的o1答对。不过，Grok 3只用了1分15秒就得出了答案，o1使用了2分53秒。

　　再进一步加大难度看看能不能分出高下。下面是一道群论问题：有几个阶为147的非同构群。

　　在这个问题上，Grok 3虽然答对了具体的数量6个，但是中间的具体群却错了一个。而其他模型只找到了5个正确的非同构群。这意味着，在数学能力方面，Grok 3确实是最好的，但是好得有限，并没有与其他同等级模型拉开显著差距。