GPT / Claude / Gemini / Llama / DeepSeek / Qwen —— 八年大模型进化史
首次验证大规模预训练 + 微调范式。
证明大模型规模带来质变,奠定 LLM 时代。
引入 RLHF,让模型听懂指令。
点燃 AI 大众化,2 个月破亿用户。
引爆开源 LLM 生态的起点。
多模态初现 + 专业考试达 top 10%。
首个提出超长上下文卖点的大模型。
首次采用宽松商用许可,开启繁荣。
Google 首个原生多模态系列。
首个 1M token 上下文模型。
三档家族分层,Opus 首次在多项评测超 GPT-4。
原生多模态 + 实时语音。
MLA 架构 + 极低推理成本,行业价格重估。
编程 + Artifact 重新定义 AI 写代码体验。
405B 首次开源闭源级旗舰。
推理型模型开端,AIME / IOI 接近人类顶尖。
追平 Llama 3.1,国产开源顶流。
首个官方支持屏幕控制的 Agent 能力。
开源能力逼近 Claude 3.5 Sonnet。
首款开源推理型大模型。
数学推理接近 o 系列。
引入 Extended Thinking,编程与 Agent SOTA。
统一推理与对话,原生 Agent 模式。
Gemini 3 家族首发,SWE-bench 76.5%。
R1 后继者,开源推理 SOTA,MATH 98.1%。
数学推理 SOTA,LMArena #3(ELO 1484)。
LMArena #1(ELO 1504),稳居榜首。
首个 10M token 上下文开源模型。
SWE-bench 73%,比 GPT-5 便宜 22 倍,Aider Polyglot 74.2%。
SWE-bench Verified 87.6% / Pro 64.3%,编程 SOTA。
LMArena #2(ELO 1493),3M token 上下文 + 视频理解 SOTA。
仅 3B 激活参数追平 70B 模型,编程效率极致。
OpenAI · 开启大语言模型时代的 GPT 家族,2018 至今
参数规模跃升,零样本能力初现。
证明大模型规模带来质变,奠定 LLM 时代。
引入 RLHF,让模型听懂指令。
多模态初现 + 专业考试达 top 10%。
上下文 16×,价格降 1/3。
原生多模态 + 实时语音。
推理型模型开端,AIME / IOI 接近人类顶尖。
推理能力进一步突破,ARC-AGI 刷榜。
统一推理与对话,原生 Agent 模式。
SWE-bench 80% 首次突破,价格下调。
专为代码调优,SWE-bench Verified 85%。
数学推理 SOTA,LMArena #3(ELO 1484)。
Anthropic · 以安全性和长文本著称,长任务 Agent 标杆
首个提出超长上下文卖点的大模型。
编程能力提升,学术题目突破。
三档家族分层,Opus 首次在多项评测超 GPT-4。
编程 + Artifact 重新定义 AI 写代码体验。
首个官方支持屏幕控制的 Agent 能力。
引入 Extended Thinking,编程与 Agent SOTA。
SWE-bench 新高,Claude Agent SDK 正式版。
上下文扩展到 300K,Opus 全面刷新。
LMArena #1(ELO 1504),稳居榜首。
SWE-bench Verified 87.6% / Pro 64.3%,编程 SOTA。
Google DeepMind · Google 原生多模态模型家族,继承 Bard 之后
Google 仓促应战 ChatGPT 的初代产品。
Google 首个原生多模态系列。
首个 1M token 上下文模型。
实时多模态 + 超低价。
数学推理接近 o 系列。
Gemini 3 家族首发,SWE-bench 76.5%。
LMArena #2(ELO 1493),3M token 上下文 + 视频理解 SOTA。
Meta · 改变产业格局的开源基础模型代表
引爆开源 LLM 生态的起点。
首次采用宽松商用许可,开启繁荣。
70B 评分追平 GPT-3.5。
405B 首次开源闭源级旗舰。
在 70B 规模追平 405B。
首个 10M token 上下文开源模型。
深度求索 · 性价比与开源重塑行业定价,2023 至今
深度求索首款开源大模型。
开源编程模型新标杆。
MLA 架构 + 极低推理成本,行业价格重估。
开源能力逼近 Claude 3.5 Sonnet。
首款开源推理型大模型。
R1 后继者,开源推理 SOTA,MATH 98.1%。
SWE-bench 73%,比 GPT-5 便宜 22 倍,Aider Polyglot 74.2%。
阿里 · 阿里通义千问家族,开源光谱最全
通义千问开源系列启动。
覆盖最全参数规模的开源系列。
上下文 16×,多语言提升。
追平 Llama 3.1,国产开源顶流。
原生 MoE + Dense 并行,开源多模态增强。
通义旗舰闭源版,多模态与多语言均衡。
仅 3B 激活参数追平 70B 模型,编程效率极致。