首页AI工具

Grok 4 – 马斯克旗下xAI推出的新一代大模型

芊芊下载2025-07-11 06:15:023次浏览

Grok 4是什么

Grok 4 是 xAI 推出的最新AI大模型,Grok 4 的推理能力相较于前代提升 10 倍。模型具备卓越的推理能力,能在 SAT、GRE 等高难度考试中接近满分,在多项基准测试中超越其他前沿模型。Grok 4 支持多模态功能,能理解主观概念、生成代码和可视化内容,在语音交互上进行重大改进。Grok 4分为两个版本,Grok 4 是单代理(single agent)版本, Grok 4 Heavy 是多代理版本(multi agents),支持四个代理同时工作,上下文窗口最高支持 256k tokens。 Grok 4

Grok 4的主要功能

  • 卓越的推理能力:在 SAT、GRE 等高难度考试中接近满分,展现出超越人类的推理水平。
  • 多模态理解:能理解主观概念,并搜索和分析图片。
  • 信息整合与摘要:从社交媒体等渠道整合信息,提取关键事件并按时间排序。
  • 代码与可视化生成:根据科学提示生成复杂动画,例如模拟黑洞碰撞。
  • 语音交互改进:支持五种新声音,对话更流畅,情感表达更自然。
  • 复杂任务处理:在模拟经营等复杂任务中表现出色,具备强大的战略规划和执行能力。
  • 并行智能体协作:SuperGrok Heavy版本,支持多个智能体并行解决复杂问题。

Grok 4的测试表现

  • 官方测试:
    • Humanity’s Last Exam:包含 2500 个跨学科专家级问题。Grok 4 Heavy 在使用工具的情况下得分达到 44.4%,若进一步优化可提升至 50.7%。
    • AIME25(数学竞赛):Grok 4 Heavy 拿到 100% 满分,碾压其他模型。
    • GPQA(研究生水平问答):Grok 4 Heavy 得分 88.9%,领先于 Gemini 2.5 Pro(86.4%)和 Claude 4 Opus(79.6%)。
    • HMMT25(高中数学竞赛):Grok 4 Heavy 得分 96.7%,远超 Gemini 2.5 Pro(82.5%)。
    • USAMO25(美国数学奥赛):Grok 4 Heavy 得分 61.9%,大幅领先于 Gemini DeepThink(49.4%)和 Gemini 2.5 Pro(34.5%)。
    • ARC-AGI(抽象推理):Grok 4 得分 15.9%,接近翻倍于之前的商业 SOTA。
    • Vending-Bench(模拟经营):Grok 4 净赚 $4694,远超 Claude Opus 4($2077)和人类玩家($844)。
Grok 4
  • 第三方测评(大模型性能评估平台Artificial Analysis 测试):
    • 人工智能指数:Grok 4 拿到 73 分,超过 OpenAI o3(70 分)、谷歌 Gemini 2.5 Pro(70 分)、Anthropic Claude 4 Opus(64 分)和 DeepSeek R1 0528(68 分)。
    • 编码指数和数学指数:Grok 4 均排名第一。
    • GPQA Diamond 得分:创历史新高,达到 88%,超过 Gemini 2.5 Pro 的 84%。
    • Humanity’s Last Exam 得分:创历史新高,达到 24%,超过 Gemini 2.5 Pro 的 21%。
    • 速度:Grok 4 为 75 token/秒,虽不及 o3(188 token/秒)和 Gemini 2.5 Pro(142 token/秒),但优于 Claude 4 Opus Thinking(66 token/秒)。
Grok 4

Grok 4的产品定价

  • 付费订阅计划:
    • SuperGrok:年费300 美元,月费30 美元。
    • SuperGrok Heavy:年费3000 美元,月费300 美元。
  • API 调用定价:
    • 输入:3 美元 / 百万 token。
    • 输出:15 美元 / 百万 token。
Grok 4

Grok 4的官网地址

  • 官网地址:Grok

Grok 4的应用场景

  • 教育辅导:为学生提供个性化的学习方案,解答复杂的学术问题,帮助学生更好地理解和掌握知识。
  • 科学研究:能够分析大量实验数据,预测科学趋势,助力科学家发现新的理论和技术。
  • 商业与金融:进行市场分析和预测,为企业的商业策略制定提供数据支持,优化企业运营效率。
  • 内容创作:辅助创意生成,支持广告、影视、游戏等领域的剧本撰写和动画制作,提升创作效率。
  • 智能助手:作为智能语音助手,处理多模态信息,帮助用户完成日常任务,提升生活便利性。
GLM-Experimental – 智谱Z.ai推出的实验性大模型 飞书 aPaaS – 飞书推出的AI应用开发平台
随机内容