一篇AI辅助编程的入门指南

AI 辅助编程（也常被叫做 vibe coding）可以理解成：让 AI 帮你查资料、拆任务、写/改代码、跑验证，你负责做决定和验收。

入门只需要弄清两件事：

客户端怎么选：CLI / IDE Code 扩展 / AI IDE。
API 怎么理解：模型、接口形态、以及额度/限额。

本文主要以海外主流工具为例，国内的ai产品，有些还是挺不错的，也便宜很多，有时间再另写一篇介绍。

第一部分：客户端（CLI / IDE 扩展 / AI IDE）

选型：

你比较喜欢在终端里干活：选 CLI，比如 Claude Code、Codex，生态强大、可定制化，不过对新手不太友好。
你想仍然在现有 IDE 里使用 AI 开发：选 IDE 扩展，比如 GitHub Copilot、Cline、Augment Code，交互方便、不用换IDE，但生态较差、更新慢些。
你想要更强的ai coding体验：试试 AI IDE，比如 Cursor、Google Antigravity，兼顾交互和功能，但是要换个IDE、环境。

CLI 部分

对于Cli，新手可以先直接安装cc-switch，无脑配置。

cc-switch

谁做的：社区开源（cc-switch 项目）。
特点：专门用来给多个 CLI 工具做“统一管理/一键切换 API 供应商”（Claude Code、Codex、Gemini CLI 等），非常适合经常在官方/中转站之间切换的人。
安装：到 Releases 下载对应平台的安装包即可。

仓库：https://github.com/farion1231/cc-switch

Claude Code

谁做的：Anthropic。
特点：终端里的 coding agent，可读仓库、改文件、跑命令（一般会有权限/确认步骤）。
安装：

macOS\Linux

bash

curl -fsSL https://claude.ai/install.sh | bash

Windows PowerShell

bash

irm https://claude.ai/install.ps1 | iex

文档：https://code.claude.com/docs/en/quickstart

OpenAI Codex CLI

谁做的：OpenAI（开源，Rust 实现）。
特点：本地终端 agent，可在指定目录读/改/运行代码；Windows 支持通常属于实验/建议用 WSL。
安装（npm）：

shell

npm i -g @openai/codex

仓库/说明：https://github.com/openai/codex

IDE 扩展部分

门槛很低，大部分都有免费额度，新手建议先使用一段时间的IDE扩展入门

Cline

谁做的：社区开源（是Roo Code、Kilo Code他们的爹）。
特点：工作流/功能比较完善（Plan/Act：先给计划、再执行），操作相对简单，很适合新手入门。可以直接使用自定义的API 供应商。
安装：IDE 扩展市场搜索 “Cline” 安装即可。

文档：https://docs.cline.bot/

GitHub Copilot

谁做的：GitHub（Microsoft）。
特点：主打代码补全 + 对话式辅助，也支持 Agent/代理模式 处理更完整的任务流，适合在 VS Code 里“边写边问”。通过OAI扩展来自定义API 供应商。
安装：VS Code自带的。

Augment Code

谁做的：Augment（商业产品）。
特点：强调“上下文引擎”（大仓库更省心），更偏团队/工程化使用；付费为主，并且通常不能自定义 API 供应商。(但社区有大佬开发的开源插件，可以偷偷用)
安装：IDE 扩展市场搜索 “Augment” 安装即可。

定价（了解额度模型）：https://www.augmentcode.com/pricing

AI IDE 部分

Cursor

谁做的：Cursor。
特点：把 Chat/Composer/Agent 做进 IDE，常见卖点是“代码库索引 + 任务式 agent”。AI IDE 先行者，现在各方面优势不大了。
安装：官网下载并安装即可。

文档：https://cursor.com/docs

Google Antigravity

谁做的：Google。
特点：更偏 “agent-first”，有类似“任务指挥台”的界面，适合并行跑多个任务。可以通过学生认证、家庭组，白嫖个pro会员，性价比高。~~当然也可以反代出来做为api，但是现在封号特别严~~
安装：按官方引导下载客户端并登录，需要稳定的外网环境。

介绍：https://developers.googleblog.com/en/build-with-google-antigravity-our-new-agentic-development-platform/

第二部分：API（模型 / 形态 / 来源 / 额度）

API是上述客户端链接的供应商模型服务，有以下几个方面：用什么模型、怎么调 API、从哪里接入、怎么理解额度。

1) 模型怎么选

gpt-5.2：来自Openai，通用主力，逻辑强，比较细致。
- 适合：日常编码、重构、改bug、写脚本、生成测试。
gemini 3.1：来自谷歌，偏多模态（看图、读文档、还原 UI。
- 适合：读设计稿/截图/表格文档、从 UI 截图还原组件、处理长文档信息。
claude opus 4.6：来自Anthropic，偏长文本理解、写作、编码。
- 适合：把需求讲清楚、写技术方案/说明文档、整理复杂上下文、干活快。
- opus很贵，可以用便宜些的claude sonnet 4.6

2) 常见 API 格式（curl 示例）

这部分使用时，一般不需要管，但要知道它们的不同。避免买完API服务，才发现格式对不上，得换个客户端。

OpenAI Chat

最通用的格式，也常被 OpenAI-compatible 中转复用。一般第三方中转、Openai模型的网页聊天，都可以用这个接口。

bash

curl https://api.openai.com/v1/chat/completions \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-5.2",
    "messages": [
      {"role": "system", "content": "你是一个严谨的编程助手"},
      {"role": "user", "content": "用一句话解释什么是 token"}
    ]
  }'

OpenAI Cli（/v1/responses）

OpenAI 更推荐的“统一接口”（相对 /v1/chat/completions 功能支持更好）。比如Codex使用的就是这个接口。

bash

curl https://api.openai.com/v1/responses \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-5.2",
    "input": [
      {"role": "system", "content": "你是一个严谨的编程助手"},
      {"role": "user", "content": "用一句话解释什么是 token"}
    ]
  }'

Claude Messages（Anthropic）

Claude Cli的请求格式

bash

curl https://api.anthropic.com/v1/messages \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "content-type: application/json" \
  -d '{
    "model": "claude-sonnet-4.6",
    "max_tokens": 256,
    "messages": [
      {"role": "user", "content": "用一句话解释什么是上下文窗口"}
    ]
  }'

Gemini（Google Generative Language API）

谷歌Gemini的接口

bash

curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3.1:generateContent?key=$GEMINI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [
      {"role": "user", "parts": [{"text": "用一句话解释什么是 RPM/TPM"}]}
    ]
  }'

提醒：不同平台对模型名（model）和接口路径的命名会有差异；如果你用的是中转站，通常会提供一个“OpenAI-compatible base URL”，此时把上面的 OpenAI URL 换成它的 base URL 即可。

3) 从哪里用 API（官方 vs 中转）

官方直连：链路最短、规则清晰、合规边界更明确；缺点是你要分别管理多家 Key/账单/SDK，并且跨厂商“自动降级/切换”要自己做。使用美元结算，一般是找人拼车，如果用量不大就很贵，另外需要稳定的外网环境。
中转站/聚合（例如 OpenRouter、或者国内的野站）：一套 Key 访问多家模型，接口形态往往做了“统一”，也可能提供路由/降级与用量看板；缺点是多一跳，数据会经过“中转 + 下游 provider”，需要额外关注隐私、日志与计费口径。国内的中转，通常比较便宜，不需要外网环境，但服务通常不稳定、可能跑路。

4) 额度/限额怎么理解

token：可以把它理解成“模型读写文本的计量单位”（不是按字数精确计费）。
- 中文通常是“几个字/词”约等于 1 个 token（不精确）；英文更接近“词的一部分”。
- 计费一般看 输入 token + 输出 token；别忘了工具调用/结构化输出等也会计入。
- 同一段内容，带上大量历史对话/代码/日志，输入 token 会迅速膨胀。
上下文窗口：单次请求允许的总 token 上限（大致可以理解为：历史对话 + 本次输入 + 生成输出的总和）。越大通常越贵也越慢；超限常见表现是报错或被截断。
预算/额度上限：某一段时间内的最大使用量，常见有日限/周限/月限/项目限额/Key限额；官方和中转站都有限额。
RPM/TPM：每分钟请求数/每分钟 token 吞吐限制。不同平台口径不同，也可能“按模型分别限速”。

第三部分：上手流程

先选一个客户端（CLI / IDE 扩展 / AI IDE）。
再选 API 来源（官方直连 vs 国内中转）。
安装和配置完后，询问AI，看看能否正常回应。

以Cline为例：

Cline 配置示例 Cline 回应

第四部分：开发进阶（MCP、Skills、Spec、sub-agents）

这一部分重点介绍几类更偏“工程化”的能力：用 MCP 把模型接到真实工具和数据源上，用 Skills 固化可复用的工作流程，用 Spec 让需求变成可执行的规范，再通过 sub‑agents 让多个专职 agent 分工协作。

注意，使用mcp、skills、spec会占用更多的模型上下文，应该只保留有用的工具.建议保持充足的模型上下文空间，否则效果只会适得其反。

MCP（Model Context Protocol）

是什么：由 Anthropic 在 2024 年 11 月推出的开放标准，定义了 AI 模型如何安全地连接外部工具、数据源和服务。可以把 MCP 理解成"AI 版的 USB-C"：一套统一的协议让AI能接入任何数据与使用工具。

关键能力：

工具（Tools）：AI 可以调用的函数，比如查询数据库、调用 API。
资源（Resources）：文件、数据库记录、API 响应等上下文信息。
提示（Prompts）：预定义的工作流和模板。

推荐的MCP服务器（举例）：

exa：接入 Exa 的实时网页搜索 / 爬取能力，用来查询网络实时信息和调研工作。
chrome-devtools：把 Chrome DevTools 暴露给 AI，支持在真实浏览器里看 DOM、控制台日志、网络请求和性能数据，特别适合前端联调和排查样式/交互问题。
context7：为项目依赖的库/框架拉取最新、版本匹配的官方文档，减少过时 API 和幻觉用法。
filesystem：让 AI 有受控地访问本地或远程文件系统，可读写文件、搜索目录树，适合做代码基/配置的批量操作。
serena：提供语义级代码检索和编辑能力，类似“把高级 IDE 的跳转/重构能力通过 MCP 暴露给模型”，让ai不需要阅读全部代码，也能找到变量、函数的位置，目前与Claude code的LSP能力平替。
augment-context-engine：Augment Code 的 Context Engine MCP，把大仓库/多仓库的语义索引作为上下文提供给 Agent，用于复杂工程的检索和导航。可以让ai不用大规模的读取、搜索项目代码，直接通过mcp找到具体功能的代码块。
react-grab-browser：基于浏览器的页面抓取/选择工具，帮助 AI 从真实网页中提取组件结构或 UI 片段，常用于前端重构和“照着现有页面实现”。可以直接从浏览器复制出项目的代码位置，方便需求描述和节省token，适用于react项目。
mysql-mcp：可以直接让ai连接到MySql数据库，拥有数据库操作的能力。

何时用：给ai提供工具，让它具备更丰富的能力。

Skills（技能库）

是什么：通常由 Claude 推出，是一组"可复用的高级指令"，打包成可随时激活的"程序手册"。不同于一次性提示词，Skills 会在需要时被自动加载，帮助 AI 记住你特定领域的规则、流程和最佳实践。如果说mcp是工具，则skills则是经验。

能做什么：

固化公司的代码规范。
自动化代码审查清单。
多步工作流。

常见 Skills 类型：

代码审查：自动检查 SQL 注入、权限验证、错误处理。
规范指南：确保ai写的代码符合公司风格。
部署流程：提醒 AI 遵循你的上线前检查清单。
测试覆盖：自动补充单侧、E2E 测试。

何时用：有一套你经常要重复的指令或审查流程时；想让 AI 记住某领域的最佳实践而不用每次都讲解、试错。

Spec（规范驱动开发）

是什么：Spec-Driven Development（SDD）要求先写清楚“要做什么、为什么、边界在哪”（机器可读的规范），再让 AI 和代理按规范拆解任务、写代码和测试。相比直接聊天写代码，它更像“先出设计稿，再开工”。

与 Vibe Coding 的区别：

Vibe Coding：一句"帮我写一个登录页面"，AI 自己脑补需求和边界，生成的代码不可控，而且可能要重新生成很多次才能满足需求，后续维护难。
Spec：先把登录/鉴权方式、字段校验、错误处理、埋点/监控等用规范、需求文档说清楚，AI 只是按图施工，通常一次性生成完毕然后零散修改，后续通过需求、代码文档来维护。

常见 Spec 载体：

YAML / JSON / 结构化 Markdown：描述模块、接口、约束、验收条件。
Gherkin（BDD）：Given / When / Then 形式的行为规范。

常见 SDD 工具 / 框架：

GitHub Spec Kit（开源）：目前事实上的开源 SDD 标准。通过 CLI 和 /specify → /plan → /tasks → /implement 四段式命令，把一份规范接入 10+ 种 AI 助手（Claude、Copilot、Cursor、Gemini 等），做到“一份 Spec，多种 Agent 复用”。
OpenSpec：轻量、供应商无锁定的 Spec 框架，使用标准的 YAML / JSON / Markdown 存在仓库里，不依赖外部服务，更适合想低门槛尝试 SDD 的团队。
AWS Kiro：把 SDD 做进自家 AI IDE 的方案。四阶段工作流（需求 → 设计 → 规划 → 执行）全部在 IDE 内完成，结合实时规范校验、规范感知补全等能力，适合 AWS 生态和愿意接受新 IDE 的团队。
Superpowers：偏“加强工程纪律”的工具，为 AI 助手强制引入 TDD / 规划 / 复盘等流程，避免 agent 直接“上来就写代码”，常与 Claude Code 配合使用。
Trellis：在 Spec 上做了分层和索引，让规范既能渐进式披露（类似 Skill），又不会丢失关键上下文；配套脚本把一整套规范化对话流程变成自动注入的 Skill 工作流；内置更强的 Todo 管理（用 JSON + Markdown 记录优先级、负责人、关联分支/worktree）；整体更加轻量，适合团队、新手使用。

何时用：

需求复杂、涉及多服务/多模块，需要多人协作和长期维护时。
希望对 AI 生成的结果有可审查的依据（不是“感觉差不多”）。
需要把“如何用 AI 开发”的经验沉淀到仓库里（规范 + 流程），而不是散落在一次性的代码生成记录里。

一个常见节奏是：写 Spec → 用工具生成方案和任务 → 让 Agent 按 Spec 产出代码和测试 → 人工按 Spec 和用例验收 → 根据反馈同时更新 Spec 与实现。

第一部分：客户端（CLI / IDE 扩展 / AI IDE）

CLI 部分

cc-switch

Claude Code

OpenAI Codex CLI

IDE 扩展 部分

Cline

GitHub Copilot

Augment Code

AI IDE 部分

Cursor

Google Antigravity

第二部分：API（模型 / 形态 / 来源 / 额度）

1) 模型怎么选

2) 常见 API 格式（curl 示例）

OpenAI Chat

OpenAI Cli（/v1/responses）

Claude Messages（Anthropic）

Gemini（Google Generative Language API）

3) 从哪里用 API（官方 vs 中转）

4) 额度/限额怎么理解

第三部分：上手流程

第四部分：开发进阶（MCP、Skills、Spec、sub-agents）

MCP（Model Context Protocol）

Skills（技能库）

Spec（规范驱动开发）

IDE 扩展部分