异步编程的“三国杀”「Notebook LM 」

28 May, 2025

材料来源：Google Jules、OpenAI Codex、Claude Code｜AI异步编程三国杀，人类开始沦为AI编程发展的瓶颈？

当前主流的人工智能编程工具在功能、应用场景和商业模式上有何核心差异和潜在局限？

根据您提供的源材料和我们的对话历史，当前主流的人工智能编程工具，特别是讨论中提到的 Google 的 Jules、OpenAI 的 Codex (及其升级版 GitHub Copilot) 和 Claude 的 Claude Code (基于 Claude 4 模型)，在功能、应用场景和商业模式上存在核心差异，同时也面临一些潜在局限。

当前主流AI编程工具的核心差异

源材料主要对比了 Google 的 Jules、OpenAI 的 Codex/GitHub Copilot 以及 Claude 的 Claude Code，并认为它们代表了不同的“流派”。

Google 的 Jules
- 功能特点:
  - 纯云端。
  - 全托管 (Fully Managed)：用户下达指令后无需管理，AI在后台工作，只在必要时进行沟通或确认，大部分实现过程自主完成。
  - 异步编程能力：可以连续工作长时间（例如睡觉的7小时）。
  - 自然语言描述需求：面向不太像传统工程师那样编程的用户，更多是直接讲述需求。
  - 利用云能力：充分利用 Google 的云计算能力，能很好地切分任务并分发执行。
  - 全包服务：类似于装修中的“全包”，用户给出效果图（需求描述），AI负责从实现到调整的整个过程。
- 应用场景:
  - 针对不熟悉传统编程的用户，直接通过自然语言描述需求即可。
  - 主要面向 ToB (Business-to-Business) 客户。
  - 企业主/老板 最喜欢的模式：下达指令后 AI 自主完成工作，交付结果。
  - 能够将想法快速转化为 高保真、可交互的原型 (类比 3D 打印机在办公室打印概念车)。
- 商业模式/目标客群:
  - 主打 全托管 服务。
  - 核心目标是降低 创业入门门槛：让更多非技术背景的人（如产品经理、创业者）能够自主完成从小任务到 MVP (最小可行产品) 的开发。
  - 面向希望 降低开发成本、提升效率、甚至替代部分程序员 的企业和个人。
OpenAI 的 Codex / GitHub Copilot
- 功能特点:
  - 是 Jules 之前的产品，GitHub Copilot 是其升级版。
  - 可能是 云端和本地相结合 的模式。
  - OpenAI 最近收购了 Windsurf，也在做本地的 code CLI (命令行界面)。
  - 作为 AI 编程领域的竞争者参与“三国杀”。
- 应用场景:
  - 与 Jules 和 Claude Code 一起被视为 AI 编程 Agent 的主要代表。
  - 可能采取的是一种 产品拼接/全方位 的产品路线。
- 商业模式/目标客群:
  - 面向的客群可能与 Jules 的全托管 ToB 客群“完全不同”。
  - 作为一种通用 AI 技术的延展，可能面向更广泛的开发者群体。
- 潜在局限:
  - 完成质量可能“褒贬不一”。
  - 与 Google 相比，在云计算能力上可能存在劣势，需要依赖“金主老爸”。
Claude 的 Claude Code (基于 Claude 4)
- 功能特点:
  - 纯本地运行：在其终端 (Terminal) 中运行。
  - 生态连接：通过 MCP 和 SDK 连接万物，完成软硬件的联系。
  - 异步编程能力：可以长时间连续编程（例如 7 小时）。
  - 大上下文窗口：Claude 4 的最大上下文约 200K（虽小于 Gemini 1.5 Pro 的 1M，但已非常大）。
  - 高安全、透明、可控和私有化：这是其最主打的特点，企业客户最看重这些。
  - 可追溯：对员工操作可追溯。
  - 经安全标准测试：底层模型经过专门针对大模型安全的标准（可能是 ALT 3）测试。
  - 可评估系统：研发了一套评估大模型黑盒原理的系统，使其安全、可信度、可监管度（类比“紧箍咒”）最高。
- 应用场景:
  - 主要面向 企业客户。
  - 深受 资深程序员 喜爱和使用，常与 Cursor 等 IDE 结合。
  - 适用于处理 关键技术设计 (架构、数据库)、测试、调试等重要任务。
  - 能实现 高度定制化的软件开发：以极低的成本为少数人甚至个人定制软件，打破了软件通常需要 10 万以上规模用户的门槛。
- 商业模式/目标客群:
  - 聚焦于满足 企业级需求，特别是对数据安全、过程透明和完全可控有严格要求的客户。
  - 面向希望在保证 可控和透明 的前提下提升研发效率的企业。
  - 认为即使结果“差那么一点”，可控性也更重要。

AI编程工具的潜在局限 (“最后一公里”问题)

尽管 AI 编程 Agent 发展迅猛且势不可挡，源材料指出它们仍存在一些难以克服的“最后一公里”问题，这些问题主要依赖于人类的参与和判断：

可被描述性 (Describability):
- 现实中，很多产品经理或老板很难清楚地描述自己的需求或最终目标 (例如，无法像唐僧那样明确说“去西天取经”，需求可能“跑到 KTV”甚至“飘到没边”)。
- 即使心里有想法，表达出来时通常伴随大量信息丢失。
- AI 在起步阶段就可能因目标不明确而无法与用户对齐。
可被拆解性 (Decomposability):
- 在分解大目标为小任务时，AI 可能会遇到需要专有数据或流程 的情况，这些信息可能不在互联网上，也无法轻易购买。
- AI 在此会被“卡住”，需要人类提供缺失的信息或指导。
可被评估性 (Evaluability):
- 难以确定 AI 新生成的代码版本是否一定比旧版本更好。
- 大模型本质是概率模型，存在随机性和“幻觉”。
- 缺乏可靠机制评估具有随机性模型的产出质量。
- 虽然有些系统（如 Claude 的评估系统）正在尝试解决，但仍依赖于人类的智慧和介入。大模型的“涌现”特性连开发者自己也无法完全解释。

这些局限意味着，当前的 AI 编程 Agent 更多是强大的工具，能够提高编程的下限（使得做出不太差的东西变得容易），但在决定产品上限（发现真实需求、持续快速迭代、实现差异化、解决复杂或核心问题）方面，仍然依赖于人类的判断、决策和专业知识（“老师傅”的角色）。

商业和行业影响

源材料还强调了 AI 编程 Agent 对软件行业和商业模式的深远影响。

降低成本与提高效率: AI 编程能够大幅节省昂贵的程序员成本，并加快产品迭代速度。
改变工作流: 产品经理/创业者可以直接参与原型开发，技术人员的角色可能转向验证、管理 AI 产出或聚焦核心业务。
创业格局变化: 降低创业入门门槛（更容易做出项目），但提高了创业成功的门槛（因为大家都更容易做东西，竞争加剧，需要更强的产品能力和迭代速度）。
市场需求变化: 从服务于大规模用户转向服务于高度定制化、小众甚至个人的需求。
不可逆趋势: AI 编程的自动化是不可逆转的趋势，原因在于代码的确定性和程序员的高成本。即使初期质量不高，未来达到 60-70 分也能带来巨大变革。

总而言之，Google 的 Jules 倾向于云端全托管和面向非技术用户的“全包”服务；OpenAI 的 Codex/Copilot 可能是云地结合和产品整合路线；而 Claude 的 Claude Code 则专注于本地运行、高安全、透明、可控，服务于对这些方面有高要求的企业和专业开发者。尽管路线不同，它们都旨在自动化编程任务，降低成本和技术门槛。然而，它们共同面临需求描述不清、任务难以拆解以及结果难以评估等“最后一公里”挑战，这些挑战使得人类的判断和管理在 AI 编程流程中仍然不可或缺。AI 编程的出现，正在重塑软件行业的成本结构、开发流程和竞争格局。

尽管人工智能编程发展迅速，但要实现完全自主化，还需要克服哪些技术和人为的根本性挑战？

AI编程领域正经历着快速发展，如Google的Jules、OpenAI的Codex和Claude Code等工具的出现，标志着AI Agent开始深度参与编程工作。这些工具展现出异步编程的能力，可以在后台长时间（如连续7小时）工作，根据指令生成代码。对于企业而言，这带来了显著的吸引力，因为代码是最确定的，而程序员是最贵的，AI编程的自动化被认为是不可逆的趋势。一些人预测，未来几年，80%的AI编程岗位可能不复存在。

然而，尽管发展迅速，要实现完全自主化的AI编程，仍然面临一些根本性的技术和人为挑战。来源中明确提到了实现完全自主AI编程所遇到的“最后一公里”问题，并将其概括为三座难以逾越的“大山”：

可被描述的问题（The problem of being describable）：这是指需求或任务能否被清晰、准确地描述出来。AI需要一个明确的目标，就像唐僧知道自己要去西天取经一样。但在现实中，很多产品经理和老板难以清晰地表达自己究竟想要什么。即使心里可能有想法，表达出来时也常伴随大量信息丢失。如果AI的起点——需求描述本身就存在问题，那么它与用户的目标就无法对齐，最终产物可能与预期有较大偏差。这要求人在前期必须能够清晰地定义目标。
可被拆解的问题（The problem of being decomposable）：即使需求被描述出来，任务能否被AI分解成更小、可执行的步骤？AI在拆解复杂任务时可能会遇到障碍。例如，完成某些子任务可能需要专有数据，这些数据在互联网上找不到，其他公司也不出售。或者某些业务流程是AI未知的。在这种情况下，AI会卡住，需要人类提供信息或介入才能继续。
可被评估的问题（The problem of being assessable）：如何可靠地评估AI生成的代码质量，并确保新版本比旧版本更好？当前的大模型本质上是概率模型，存在幻觉和随机性。这使得其输出难以被完全预测和评估。虽然可以通过人类反馈学习或其他评估系统（如Claude自己研发的模拟评估系统）来提高可靠性，但这仍然很困难，并且高度依赖于人类的介入和判断。确保生成物的质量和可靠性，需要“老师傅”级别的程序员进行陪跑和控制。

这些挑战不仅是技术上的限制，也与人类自身固有的不确定性紧密相关。人类需求本身可能不确定、难以描述。同时，尽管AI编程可以提高编程的下限，让很多事情变得容易实现，但创造优秀产品所需的上限——即理解用户、快速迭代和形成产品差异性——仍然依赖于人类的产品负责人、创业者或资深技术人员。他们需要知道要做什么产品、目标用户是谁以及如何持续迭代。AI是工具，可以帮助更快、更便宜地实现想法，但战略性的方向和判断仍是人的职责。

因此，尽管AI编程自动化势不可挡，并且有望改变现有工作流程，让更多非技术人员（如产品经理）能够更直接地参与到MVP（最小可行产品）的创建中，但要实现完全自主的AI编程，克服上述“三座大山”以及人类自身带来的不确定性，仍然需要资深程序员和行业专家在关键环节进行指导、评估和决策。AI在编程中的应用更像是提高效率、降低成本和门槛的强大助手，而非完全替代人类。