6 大家族 · 51 个关键节点 · 2018 → 2026

AI 模型演进时间线

GPT / Claude / Gemini / Llama / DeepSeek / Qwen —— 八年大模型进化史

🌟 关键里程碑

2018-06🟢 GPT 系列

GPT-1

首次验证大规模预训练 + 微调范式。

2020-06🟢 GPT 系列

GPT-3

证明大模型规模带来质变，奠定 LLM 时代。

2022-03🟢 GPT 系列

InstructGPT

引入 RLHF，让模型听懂指令。

2022-11🟢 GPT 系列

ChatGPT (GPT-3.5)

点燃 AI 大众化，2 个月破亿用户。

2023-02♾️ Llama 系列

LLaMA

引爆开源 LLM 生态的起点。

2023-03🟢 GPT 系列

GPT-4

多模态初现 + 专业考试达 top 10%。

2023-03🟠 Claude 系列

Claude 1

首个提出超长上下文卖点的大模型。

2023-07♾️ Llama 系列

Llama 2

首次采用宽松商用许可，开启繁荣。

2023-12🔵 Gemini 系列

Gemini 1 Pro / Ultra

Google 首个原生多模态系列。

2024-02🔵 Gemini 系列

Gemini 1.5 Pro

首个 1M token 上下文模型。

2024-03🟠 Claude 系列

Claude 3 (Opus/Sonnet/Haiku)

三档家族分层，Opus 首次在多项评测超 GPT-4。

2024-05🟢 GPT 系列

GPT-4o

原生多模态 + 实时语音。

2024-05🐳 DeepSeek 系列

DeepSeek V2

MLA 架构 + 极低推理成本，行业价格重估。

2024-06🟠 Claude 系列

Claude 3.5 Sonnet

编程 + Artifact 重新定义 AI 写代码体验。

2024-07♾️ Llama 系列

Llama 3.1

405B 首次开源闭源级旗舰。

2024-09🟢 GPT 系列

o1 / o1-preview

推理型模型开端，AIME / IOI 接近人类顶尖。

2024-09🅰️ Qwen / 通义系列

Qwen 2.5

追平 Llama 3.1，国产开源顶流。

2024-10🟠 Claude 系列

Claude 3.5 Sonnet (new) + Computer Use

首个官方支持屏幕控制的 Agent 能力。

2024-12🐳 DeepSeek 系列

DeepSeek V3

开源能力逼近 Claude 3.5 Sonnet。

2025-01🐳 DeepSeek 系列

DeepSeek R1

首款开源推理型大模型。

2025-03🔵 Gemini 系列

Gemini 2.5 Pro (Deep Think)

数学推理接近 o 系列。

2025-05🟠 Claude 系列

Claude 4 系列 (Sonnet 4 + Opus 4)

引入 Extended Thinking，编程与 Agent SOTA。

2025-08🟢 GPT 系列

GPT-5

统一推理与对话，原生 Agent 模式。

2026-02🔵 Gemini 系列

Gemini 3 Pro

Gemini 3 家族首发，SWE-bench 76.5%。

2026-02🐳 DeepSeek 系列

DeepSeek R2

R1 后继者，开源推理 SOTA，MATH 98.1%。

2026-03🟢 GPT 系列

GPT-5.4 / 5.4 High

数学推理 SOTA，LMArena #3（ELO 1484）。

2026-03🟠 Claude 系列

Claude Opus 4.6 Thinking + Sonnet 4.6

LMArena #1（ELO 1504），稳居榜首。

2026-03♾️ Llama 系列

Llama 4 (Scout/Maverick/Behemoth)

首个 10M token 上下文开源模型。

2026-03🐳 DeepSeek 系列

DeepSeek V3.2

SWE-bench 73%，比 GPT-5 便宜 22 倍，Aider Polyglot 74.2%。

2026-04🟠 Claude 系列

Claude Opus 4.7

SWE-bench Verified 87.6% / Pro 64.3%，编程 SOTA。

2026-04🔵 Gemini 系列

Gemini 3.1 Pro Preview

LMArena #2（ELO 1493），3M token 上下文 + 视频理解 SOTA。

2026-04🅰️ Qwen / 通义系列

Qwen3-Coder-Next

仅 3B 激活参数追平 70B 模型，编程效率极致。

🟢

GPT 系列

OpenAI · 开启大语言模型时代的 GPT 家族，2018 至今

2018-06

GPT-1🌟 里程碑

117Mctx 512

首次验证大规模预训练 + 微调范式。

2019-02

GPT-2

1.5Bctx 1K

参数规模跃升，零样本能力初现。

2020-06

GPT-3🌟 里程碑

175Bctx 2K

证明大模型规模带来质变，奠定 LLM 时代。

2022-03

InstructGPT🌟 里程碑

175Bctx 2K

引入 RLHF，让模型听懂指令。

2022-11

ChatGPT (GPT-3.5)🌟 里程碑

ctx 4K

点燃 AI 大众化，2 个月破亿用户。

2023-03

GPT-4🌟 里程碑

ctx 8K / 32K

多模态初现 + 专业考试达 top 10%。

2023-11

GPT-4 Turbo

ctx 128K

上下文 16×，价格降 1/3。

2024-05

GPT-4o🌟 里程碑

ctx 128K

原生多模态 + 实时语音。

2024-09

o1 / o1-preview🌟 里程碑

ctx 128K

推理型模型开端，AIME / IOI 接近人类顶尖。

2025-01

o3 / o3-mini

ctx 200K

推理能力进一步突破，ARC-AGI 刷榜。

2025-08

GPT-5🌟 里程碑

ctx 400K

统一推理与对话，原生 Agent 模式。

2025-12

GPT-5.2

ctx 400K

SWE-bench 80% 首次突破，价格下调。

2026-01

GPT-5.3 Codex

ctx 400K

专为代码调优，SWE-bench Verified 85%。

2026-03

GPT-5.4 / 5.4 High🌟 里程碑

ctx 400K

数学推理 SOTA，LMArena #3（ELO 1484）。

🟠

Claude 系列

Anthropic · 以安全性和长文本著称，长任务 Agent 标杆

2023-03

Claude 1🌟 里程碑

ctx 100K

首个提出超长上下文卖点的大模型。

2023-07

Claude 2

ctx 100K

编程能力提升，学术题目突破。

2024-03

Claude 3 (Opus/Sonnet/Haiku)🌟 里程碑

ctx 200K

三档家族分层，Opus 首次在多项评测超 GPT-4。

2024-06

Claude 3.5 Sonnet🌟 里程碑

ctx 200K

编程 + Artifact 重新定义 AI 写代码体验。

2024-10

Claude 3.5 Sonnet (new) + Computer Use🌟 里程碑

ctx 200K

首个官方支持屏幕控制的 Agent 能力。

2025-05

Claude 4 系列 (Sonnet 4 + Opus 4)🌟 里程碑

ctx 200K

引入 Extended Thinking，编程与 Agent SOTA。

2025-10

Claude Sonnet 4.5 + Agent SDK

ctx 200K

SWE-bench 新高，Claude Agent SDK 正式版。

2026-02

Claude Opus 4.6 + Haiku 4.5

ctx 300K

上下文扩展到 300K，Opus 全面刷新。

2026-03

Claude Opus 4.6 Thinking + Sonnet 4.6🌟 里程碑

ctx 300K

LMArena #1（ELO 1504），稳居榜首。

2026-04

Claude Opus 4.7🌟 里程碑

ctx 300K

SWE-bench Verified 87.6% / Pro 64.3%，编程 SOTA。

🔵

Gemini 系列

Google DeepMind · Google 原生多模态模型家族，继承 Bard 之后

2023-02

Bard (PaLM 2)

ctx 8K

Google 仓促应战 ChatGPT 的初代产品。

2023-12

Gemini 1 Pro / Ultra🌟 里程碑

ctx 32K

Google 首个原生多模态系列。

2024-02

Gemini 1.5 Pro🌟 里程碑

ctx 1M

首个 1M token 上下文模型。

2024-12

Gemini 2.0 Flash

ctx 1M

实时多模态 + 超低价。

2025-03

Gemini 2.5 Pro (Deep Think)🌟 里程碑

ctx 1M

数学推理接近 o 系列。

2026-02

Gemini 3 Pro🌟 里程碑

ctx 2M

Gemini 3 家族首发，SWE-bench 76.5%。

2026-04

Gemini 3.1 Pro Preview🌟 里程碑

ctx 3M

LMArena #2（ELO 1493），3M token 上下文 + 视频理解 SOTA。

♾️

Llama 系列

Meta · 改变产业格局的开源基础模型代表

2023-02

LLaMA🌟 里程碑

7/13/33/65Bctx 2K

引爆开源 LLM 生态的起点。

2023-07

Llama 2🌟 里程碑

7/13/70Bctx 4K

首次采用宽松商用许可，开启繁荣。

2024-04

Llama 3

8/70Bctx 8K

70B 评分追平 GPT-3.5。

2024-07

Llama 3.1🌟 里程碑

8/70/405Bctx 128K

405B 首次开源闭源级旗舰。

2024-12

Llama 3.3

70Bctx 128K

在 70B 规模追平 405B。

2026-03

Llama 4 (Scout/Maverick/Behemoth)🌟 里程碑

MoEctx 10M

首个 10M token 上下文开源模型。

🐳

DeepSeek 系列

深度求索 · 性价比与开源重塑行业定价，2023 至今

2023-11

DeepSeek LLM

7B / 67Bctx 4K

深度求索首款开源大模型。

2024-01

DeepSeek Coder

1.3/6.7/33Bctx 16K

开源编程模型新标杆。

2024-05

DeepSeek V2🌟 里程碑

MoE 236Bctx 128K

MLA 架构 + 极低推理成本，行业价格重估。

2024-12

DeepSeek V3🌟 里程碑

MoE 671Bctx 128K

开源能力逼近 Claude 3.5 Sonnet。

2025-01

DeepSeek R1🌟 里程碑

MoE 671Bctx 64K

首款开源推理型大模型。

2026-02

DeepSeek R2🌟 里程碑

MoE 671Bctx 128K

R1 后继者，开源推理 SOTA，MATH 98.1%。

2026-03

DeepSeek V3.2🌟 里程碑

MoE 671Bctx 128K

SWE-bench 73%，比 GPT-5 便宜 22 倍，Aider Polyglot 74.2%。

🅰️

Qwen / 通义系列

阿里 · 阿里通义千问家族，开源光谱最全

2023-09

Qwen 1

7/14/72Bctx 8K

通义千问开源系列启动。

2024-02

Qwen 1.5

0.5/1.8/4/7/14/32/72/110Bctx 32K

覆盖最全参数规模的开源系列。

2024-06

Qwen 2

0.5/1.5/7/57/72Bctx 128K

上下文 16×，多语言提升。

2024-09

Qwen 2.5🌟 里程碑

7/14/32/72Bctx 128K

追平 Llama 3.1，国产开源顶流。

2025-04

Qwen 3

多规格 MoEctx 128K

原生 MoE + Dense 并行，开源多模态增强。

2026-02

Qwen 3 Max

闭源ctx 128K

通义旗舰闭源版，多模态与多语言均衡。

2026-04

Qwen3-Coder-Next🌟 里程碑

MoE, 3B 激活ctx 256K

仅 3B 激活参数追平 70B 模型，编程效率极致。

加载中...

🌟 关键里程碑

2018-06🟢 GPT 系列

GPT-1

首次验证大规模预训练 + 微调范式。

2020-06🟢 GPT 系列

GPT-3

证明大模型规模带来质变，奠定 LLM 时代。

2022-03🟢 GPT 系列

InstructGPT

引入 RLHF，让模型听懂指令。

2022-11🟢 GPT 系列

ChatGPT (GPT-3.5)

点燃 AI 大众化，2 个月破亿用户。

2023-02♾️ Llama 系列

LLaMA

引爆开源 LLM 生态的起点。

2023-03🟢 GPT 系列

GPT-4

多模态初现 + 专业考试达 top 10%。

2023-03🟠 Claude 系列

Claude 1

首个提出超长上下文卖点的大模型。

2023-07♾️ Llama 系列

Llama 2

首次采用宽松商用许可，开启繁荣。

2023-12🔵 Gemini 系列

Gemini 1 Pro / Ultra

Google 首个原生多模态系列。

2024-02🔵 Gemini 系列

Gemini 1.5 Pro

首个 1M token 上下文模型。

2024-03🟠 Claude 系列

Claude 3 (Opus/Sonnet/Haiku)

三档家族分层，Opus 首次在多项评测超 GPT-4。

2024-05🟢 GPT 系列

GPT-4o

原生多模态 + 实时语音。

2024-05🐳 DeepSeek 系列

DeepSeek V2

MLA 架构 + 极低推理成本，行业价格重估。

2024-06🟠 Claude 系列

Claude 3.5 Sonnet

编程 + Artifact 重新定义 AI 写代码体验。

2024-07♾️ Llama 系列

Llama 3.1

405B 首次开源闭源级旗舰。

2024-09🟢 GPT 系列

o1 / o1-preview

推理型模型开端，AIME / IOI 接近人类顶尖。

2024-09🅰️ Qwen / 通义系列

Qwen 2.5

追平 Llama 3.1，国产开源顶流。

2024-10🟠 Claude 系列

Claude 3.5 Sonnet (new) + Computer Use

首个官方支持屏幕控制的 Agent 能力。

2024-12🐳 DeepSeek 系列

DeepSeek V3

开源能力逼近 Claude 3.5 Sonnet。

2025-01🐳 DeepSeek 系列

DeepSeek R1

首款开源推理型大模型。

2025-03🔵 Gemini 系列

Gemini 2.5 Pro (Deep Think)

数学推理接近 o 系列。

2025-05🟠 Claude 系列

Claude 4 系列 (Sonnet 4 + Opus 4)

引入 Extended Thinking，编程与 Agent SOTA。

2025-08🟢 GPT 系列

GPT-5

统一推理与对话，原生 Agent 模式。

2026-02🔵 Gemini 系列

Gemini 3 Pro

Gemini 3 家族首发，SWE-bench 76.5%。

2026-02🐳 DeepSeek 系列

DeepSeek R2

R1 后继者，开源推理 SOTA，MATH 98.1%。

2026-03🟢 GPT 系列

GPT-5.4 / 5.4 High

数学推理 SOTA，LMArena #3（ELO 1484）。

2026-03🟠 Claude 系列

Claude Opus 4.6 Thinking + Sonnet 4.6

LMArena #1（ELO 1504），稳居榜首。

2026-03♾️ Llama 系列

Llama 4 (Scout/Maverick/Behemoth)

首个 10M token 上下文开源模型。

2026-03🐳 DeepSeek 系列

DeepSeek V3.2

SWE-bench 73%，比 GPT-5 便宜 22 倍，Aider Polyglot 74.2%。

2026-04🟠 Claude 系列

Claude Opus 4.7

SWE-bench Verified 87.6% / Pro 64.3%，编程 SOTA。

2026-04🔵 Gemini 系列

Gemini 3.1 Pro Preview

LMArena #2（ELO 1493），3M token 上下文 + 视频理解 SOTA。

2026-04🅰️ Qwen / 通义系列

Qwen3-Coder-Next

仅 3B 激活参数追平 70B 模型，编程效率极致。