「 Bret Taylor访谈 」改变一切的三大 AI 变革
讲座介绍
本访谈录呈现了与技术思想家、连续创业者Bret Taylor的深度对话。Bret Taylor不仅是当前备受关注的AI初创公司Sierra的联合创始人兼CEO,更曾在Facebook担任CTO,并在Salesforce担任联席CEO,拥有在技术创新前沿和大型企业管理层面的双重丰富经验。
在这场广泛而深入的交流中,Bret Taylor结合其个人经历与对行业的敏锐洞察,探讨了人工智能(AI)的多个核心议题。他分享了自己对通用人工智能(AGI)和AI智能体(AI Agents)的理解与定义,回顾了AI发展历程中的关键“顿悟时刻”,并对AI驱动下软件工程、科学研究乃至教育的未来形态提出了深刻见解。同时,他从第一性原理出发,阐述了如何在快速变化的AI时代进行商业决策与产品构建,并以其创办的Sierra公司为例,分享了实践中的思考。
访谈并未局限于技术层面。Bret Taylor坦诚地交流了作为创始人在公司被收购后的心路历程、身份转变的挑战与应对,以及在大公司内部推动创新、整合团队的经验教训。他还就董事会的角色、创始人模式的利弊、工程师的领导力潜能、如何建立并维持公司的创新活力、警惕自满情绪等话题分享了独到观点。此外,他还首次公开详细讲述了早期在Google Maps开发过程中的传奇经历。
内容纲要
├── 引言与AI智能体定义
│ ├── 嘉宾介绍:Bret Taylor (Sierra CEO & Co-founder)
│ ├── Sierra业务:构建与客户互动的AI智能体
│ └── AI智能体定义:基于能动性,赋予软件自主推理与决策能力
├── AI领域的“顿悟时刻”
│ ├── DALL-E与“牛油果椅子”:意识到AI的创造潜力
│ └── ChatGPT发布:持续关注与思考AI
├── 创始人在大公司内的经历与身份转变
│ ├── 个人经历:被Facebook、Salesforce收购,任职CTO、Co-CEO
│ ├── 核心挑战:创始人融入收购后的身份认同转变
│ ├── 成功关键:拥抱新身份,承担整合责任
│ └── 经验收获:在大型平台学到很多,但需主动转变认知
├── 收购流程的洞察与实践
│ ├── 方法论:基于同理心与现实主义
│ ├── 关键环节:区分故事叙述与现实细节,明确成功标准
│ └── 沟通时机:在承诺后、交易完成前进行深入对话建立信任
├── 董事会的角色与创始人领导的公司
│ ├── 董事会价值:提供不同视角,学习顾问式领导
│ ├── 偏好:与创始人领导的公司合作
│ └── 观察:创始人通常能驱动更好结果,拥有更大决策自由度
├── “创始人模式”解读
│ ├── 核心精神:创始人对决策的深度问责
│ ├── 潜在风险:可能被曲解为微观管理
│ └── 平衡之道:结合自上而下的问责与自下而上的赋权
├── 工程师作为领导者与第一性原理思维
│ ├── 潜力:工程师具备优秀领导者的特质(系统思维)
│ ├── 成长:需从专才发展为通才,提升身份认知
│ └── 第一性原理应用:探究根本原因,但也需警惕过度分析和忽视人性
├── 在商业中应用第一性原理(以Sierra为例)
│ ├── 背景:AI市场快速变化,需长远思考
│ ├── Sierra实践:基于结果的定价模型、交付完整解决方案而非工具
│ └── 目标:重新构想AI时代的软件公司形态
├── AI驱动下软件工程的未来
│ ├── 现状与问题:AI生成为人类设计的代码,审查困难,缺陷可能放大
│ ├── 核心转变:工程师从代码作者变为“代码生成机器的操作者”
│ ├── 未来方向:设计面向操作者验证的编程系统(如结合形式化验证)
│ └── 根本变革:需要新的编程范式,而非简单自动化现有流程
├── AGI的定义与实现要素
│ ├── 定义尝试:系统在计算机上达到或超越人类完成任务的能力(强调通用性)
│ ├── 关键输入:数据(含合成/模拟)、算力、算法
│ └── 进展展望:各要素均有瓶颈和突破,整体进展乐观
├── AI自我改进与安全考量
│ ├── 现状:AI辅助编码已普及,逐步走向AI智能体
│ ├── 核心议题:何时跨越辅助到自主?人类问责制的重要性
│ └── 安全措施:需同步发展AI监督AI能力及安全护栏
├── AI惠及全人类、安全与监管
│ ├── 使命解读(OpenAI):安全是前提,更要关注普及、利弊权衡
│ ├── 安全内涵:与意图对齐、避免意外后果,涉及社会影响
│ └── 监管挑战:平衡创新速度、国家安全与全球竞争
├── 基础模型、前沿模型、经济模式与开源
│ ├── 模型区分:基础模型(平台) vs 前沿模型(探索AGI)
│ ├── 商业模式:追求AGI vs 提供基础模型服务的不同逻辑
│ ├── 市场格局:类似云计算,少数巨头主导,用户租用
│ └── 开源影响:Meta策略分析,开源与闭源模型经济性比较(含推理成本)
├── AI/AGI的可及性与应用
│ ├── 市场形态:非赢者通吃,多种选择并存
│ └── ChatGPT角色:成为AI代名词和主要入口,简化AGI交互形态
├── 优化AI提示(Prompt)与智能体技术
│ ├── 实用技巧:利用快速模型优化提示、自我反思机制
│ └── 行业探索:追求模型输出的鲁棒性与精确性
├── 国家层面AI发展的政策与基础设施
│ └── 核心要素:算力基础设施(电力、土地、资本),人随算力走
├── AI对教育的未来与所需技能
│ ├── 核心变革:个性化学习(AI家教)、教育资源民主化
│ └── 技能重点:学习如何学习与思考,适应工具变革,拥抱终身学习
├── AI在科学发现与研究中的潜力
│ ├── 应用前景:解决难题、验证/推翻理论、加速科学突破
│ └── 人才趋势:可能更有利于能跨领域整合知识的“深度通才”
├── AI上下文窗口与知识产权
│ ├── 上下文窗口:重要性取决于应用场景(交互vs系统)
│ └── 知识产权:AI生成内容的归属与专利性待解,可能影响创新格局
├── Google Maps的诞生故事
│ ├── 起源:整合Google Local与Where 2技术
│ ├── 技术抉择:Windows应用背景带来高交互性但也引入XML复杂性
│ └── 重写经历:因性能和维护问题,Bret Taylor周末重构前端
├── 对AI的长期投资与经济影响
│ └── 思考框架:关注AI能解决“智力瓶颈”的行业(如科技、金融),考虑长期效应
├── 工作与家庭生活的平衡
│ └── 个人选择:高度投入工作与家庭,热爱创造,不刻意追求传统平衡
├── 将Sierra打造成持久的公司
│ ├── 目标:建立独立、基业长青的公司
│ ├── 历史警示(SGI/Sun):科技公司成功非永恒,需持续进化
│ └── AI时代挑战:文化适应力比技术本身更重要
├── 再论AI智能体:定义与应用类别
│ ├── 定义核心:拥有自主推理与决策能力的软件
│ └── 应用分类:个人、角色(企业内部)、品牌化面向客户(Sierra)
├── 警惕并克服企业自满情绪
│ ├── 两大表现:官僚主义(流程固化)、内部叙事脱离客户现实
│ └── 对策:领导力(关注客户、打破官僚)
└── 个人成功的定义
└── 核心要素:家庭幸福、伙伴长久合作、公司基业长青
访谈录:与Bret Taylor探讨AI、创业与领导力
采访者: 欢迎,Bret。
一、 引言与AI智能体定义
采访者: 您会如何向普通人定义AGI(通用人工智能)?我能问得多技术化呢?Bret Taylor在这里,他是初创公司Sierra的联合创始人兼CEO。Sierra帮助公司构建直接与客户互动的AI智能体。您会如何定义它?什么是AI智能体?
Bret Taylor: “智能体”(agent)这个词来源于“能动性”(agency),我认为它意味着赋予软件自主推理和决策的机会。这就是我们在Sierra帮助客户做的事情:帮助他们构建一个能够完成所有这些功能的对话式AI。
采访者: 关于您,独特的一点是您创办过公司,也被收购过。跟我谈谈创始人在公司内部工作的情况。
Bret Taylor: 科技公司并不能理所当然地获得未来的成功。我认为AI将改变软件的格局。
采访者: 创造出超越你自身存在的东西是极其困难的,但我认为这是一家公司的终极衡量标准。
采访者: 跟我讲讲Google Maps的故事吧,这现在已经成为传奇了,我想听您亲口讲述。
二、 AI领域的“顿悟时刻”
采访者: 您第一次真正对AI产生“顿悟”是什么时候?就是那种让你意识到“天啊,这东西潜力巨大”的时刻。
Bret Taylor: 我有过两次独立的“顿悟”时刻。一次是我当时可能并未完全理解其巨大潜力,但它重置了我的预期,那就是DALL-E的发布,大概在22年夏天?年份可能记错,但应该是22年夏天。还有他们生成的那个“牛油果椅子”。虽然我的背景是计算机科学,技术功底相当深厚,但我之前并没有太关注大型语言模型(LLM)。在Transformers论文发表后,我就没再跟进进展了。当我看到那个(牛油果椅子)时,我的反应是:我完全不知道计算机还能做这个。那次发布,看到一张生成的牛油果椅子图片,我当时可能没有推断出现在的情况,但它对我产生了震动,让我意识到我需要更关注这个领域,特别是OpenAI。那一刻我意识到,我显然一直没有关注到某个重要的东西。然后大概6个月后,巧合的是在我离开Salesforce后的那个月,ChatGPT问世了。虽然它很快就成为了现象级产品,但在那之前,我已经接入并开始使用了。从那时起,我就无法停止思考它。但那个牛油果椅子,我不知道为什么,也许是一种情感上的触动,你看到计算机做的事情不再仅仅是基于规则的,而是具有创造性的。计算机从零开始创造东西的想法,虽然几年后的今天看来不那么新奇,但在当时彻底震撼了我。
三、 创始人在大公司内的经历与身份转变
采访者: 关于您,独特的一点是您创办过公司,被Facebook和Salesforce收购过。在这些公司内部,您一路晋升,在Facebook担任CTO,在Salesforce担任联席CEO。跟我谈谈创始人为创始人工作,以及创始人在公司内部工作的情况。
Bret Taylor: 是的,这对很多创始人来说是一个非常具有挑战性的转变。我认为有很多收购案例从商业角度看是极具变革性的,比如YouTube和Instagram这两个比较突出的例子,它们显然改变了收购公司的形态。但即使在这些案例中,创始人也没有待很长时间。这么说可能有点不公平,他们还是待了一段时间的。我认为作为创始人的有趣之处在于,这不仅仅是建立一个企业,它很大程度上也是你的身份认同。我觉得不是创始人的人很难体会这一点。你会把所有事情都看得很个人化,从产品到客户,到媒体,到竞争对手,无论是内在还是外在的成功衡量标准。当你经历被收购时,有商业层面的因素,比如你是否能在更大的公司里运作,但这与一种身份认同感交织在一起。你从一家公司的创始人和CEO(或CTO,无论你的头衔是什么)变成了更大组织的一部分。要完全拥抱这一点,你实际上需要改变你的身份认同。你需要从Instagram的负责人,或者在我的例子中,从Quip的负责人,转变为Salesforce的员工;或者从FriendFeed的CEO转变为Facebook的员工。我观察到的是,这种身份转变是实现其他大多数事情的前提。这不仅仅是你处理大公司政治和官僚体系或适应新结构的能力。我实际上认为大多数创始人没有完成这个飞跃,即他们真正认同那个新的事物。这对一些员工来说甚至更难,因为在大多数收购中,被收购公司的员工并没有选择这条路,事实上,他们选择为另一家公司工作,而收购决定了一个不同的结果。这就是为什么整合收购如此微妙。我想说,有了之前被收购的经验,以及收购过一些公司的经验,当我来到Salesforce时,我真的努力对此保持自我意识,努力成为Salesforce的一部分,努力转变我的身份,而不是仅仅围绕Quip这一个议题发声,我真的努力去拥抱它。而且我认为这对一些创始人来说真的很难做到,有些创始人老实说也不想这么做。他们可能只是兑现了支票,这更像是一种交易关系。我真的非常感激在Facebook和Salesforce的经历,我学到了很多。但这确实需要我付出很多努力,去转变我对自己的看法和我是谁,才能从收购我们的公司中获得那种价值。
四、 收购流程的洞察与实践
采访者: 这如何改变了您在Salesforce进行收购的方式?您在那里的时候,公司进行了大量的收购,收购创始人和初创公司,我想Slack也是在您任职期间收购的。这如何改变了您将该公司融入Salesforce文化的方式?
Bret Taylor: 我会先抽象地谈谈,也会谈到一些具体的收购案例。首先,我试图用更多的同理心和更现实的态度来处理。关于收购,有一个微妙之处在于有几个阶段:进行收购的时期;决定收购后进行尽职调查的时期;收购完成并整合公司的时期;以及之后的时期。我观察到的一件事是,进行收购的公司在决定收购的阶段,往往有点像一个相互销售的过程。你在试图为公司找到一个公允价值,这其中会有一些来回,但最终通常会有某种客观的衡量标准,虽然会受到很多因素的影响,但总归有一个公允价值。但你真正想做的是,用公司术语来说是“协同效应”(synergies),但根本上是:为什么要这样做?为什么 ?这是你进行收购的根本原因。这通常是一个讲故事的过程。你把这个产品和我们的产品结合起来,客户会发现整体大于部分之和;这个团队应用于我们的销售渠道;或者如果是Google的收购,想象一下我们可以为这个产品体验带来多少流量;或者像Instagram这样的案例,想象一下我们的广告销售团队与你们优秀的产品结合,我们能多快地帮助你们实现价值,等等。我发现人们因为存在一种讲故事的技巧,为了让双方达成一致进行收购,有时会简化或粉饰一些现实情况。比如一些小事:被收购公司的创始团队对这些决策有多少控制权?它会作为一个独立的业务单元运营,还是你的团队会被拆分到更大公司的职能部门中?正是这些看似微小但重要的事情,人们往往谈论得不够。你不需要弄清楚收购的每一个细节才能使其成功,但你常常会遇到真正的“雷区”,而这些雷区之所以没被发现,是因为你们在进行讲故事式的讨论,而不是深入探讨实际运作方式和重要事项。另一件我认为非常重要的事情是,要非常清楚成功的标准是什么。我认为,有时候是商业结果,有时候是产品目标。但我发现,如果你去看硅谷大多数大型收购案,在交易完成两周后,你去采访收购方和被收购方的管理团队,问他们:“两年后,成功是什么样子的?”我猜大概80%的情况下你会得到不同的答案。我认为这又回到了讲故事的问题上,你们在谈论收购的好处,但没有谈论成功到底是什么样子。所以我真的尝试这样做,我尝试在进行收购时,甚至在我自己被收购时(毕竟发生过两次),提前进行一些更艰难的对话。这样,当你着手处理时,你不仅得到“嘿,为什么 ,一切都会很棒”的说法,而且会问:“说真的,这里的成功到底是什么样子的?”然后,作为被收购公司的创始人,你的工作就是告诉你的团队这个目标,并让你的团队与之对齐。我认为创始人在推动这些收购成功方面承担的责任还不够,而我认为他们应该承担更多。这又回到了某种天真上,就像,你不再是你的公司了,你是一个更大整体的一部分。我认为成功的收购,是当每个人都拥抱这一点的时候。
采访者: 这个对话应该在收购过程的哪个阶段进行?是在我们签署了具有约束力的承诺之后,还是应该在之前进行,这样我就知道我将要面对什么?
Bret Taylor: 我个人的看法是,这不是一开始就要做的。你必须先达到双方都想合并的阶段。这显然是一个财务决策,特别是如果涉及上市公司,还有董事会和股东。硅谷的大多数收购是一家大公司收购一家私营公司,虽然并非全部如此,但这占绝大多数。在这些情况下,通常会有一个定性的门槛,有人会说:“是的,我们做吧。”我们大概有了高层条款,有时是正式的条款清单。我认为就在那之后。这时人们已经对关键事项做出了承诺:多少价值,为什么要做,这些大事。然后通常会有很多律师拿着高薪将这些条款清单转化为更完整的文件集,通常还有更全面的尽职调查等等。这期间会有一个尴尬的等待期。我认为这个时候,那些战略决策者可以聚在一起说:“让我们谈谈这到底意味着什么。”这样做的好处是,对所有各方来说,你们已经相互做出了承诺,所以我认为你有了更多的社交许可来进行真实的对话。但你们也还没有完全完成这层关系,所以权力不平衡并不完全存在,你可以真正地深入讨论。而且我认为这也能建立信任,因为在那些时刻进行更艰难的对话,你就在学习如何进行真实的对话,学习对方如何运作。所以这是我的个人看法。
五、 董事会的角色与创始人领导的公司
采访者: 您提到了董事会。您曾是Shopify的董事会成员,现在是OpenAI的董事会成员,您自己也是一位创始人。董事会的角色是什么?当您在一家创始人领导的公司的董事会中时,这有何不同?
Bret Taylor: 我真的很喜欢参与董事会工作。我参与过多个董事会,因为我认为我骨子里是一个运营者。我可能首先将自己认同为一名工程师,超过其他任何身份。我热爱创造。学习如何成为一名顾问是一个非常不同的视角,我认为你能看到其他公司是如何运作的,并且你也能学会如何在不亲自动手的情况下产生影响和增加价值。这是一个非常……我认为通过学习这样做,我成为了一个更好的领导者。我基本上只加入由创始人领导的董事会,因为通常我认为你可以和他们对话,但我想他们之所以找我,也是因为我是创始人,而且我喜欢与创始人公司合作。我认为,创始人……肯定有很多研究支持这一点,但我认为创始人能为公司带来更好的结果。我认为创始人往往被允许做出比职业经理人更大胆、更具颠覆性的业务决策。当然也有例外,比如Satya(纳德拉),我认为他是我们这一代最伟大(如果不是唯一最伟大)的CEO之一,而且他是一位职业经理人。但你看从Toby Lütke到Marc Benioff,到Mark Zuckerberg,再到OpenAI的Sam,我认为当你创立了一家公司,你所有的利益相关者,特别是员工,会给你“疑罪从无”的信任。你创造了这个东西,如果你说:“嘿,我们需要对我们的战略进行重大调整”,甚至是艰难的事情,比如裁员,创始人往往能获得很大的自由度,并且我认为在某些方面,他们受到的评判也不同,而且理应如此,因为他们的身份与他们创造的东西紧密相连。所以我非常相信创始人领导的公司。一个真正有趣的挑战是从创始人公司过渡到非创始人公司。你知道,亚马逊经历了那个转变,微软也经历了那个转变。基于这个原因,但我热爱与创始人合作。我热爱与像Toby和Sam这样的人合作,因为他们与我如此不同,然而……我能看到他们如何运营他们的企业,我深受启发,并从中学习。显然,在Salesforce为Mark(贝尼奥夫)工作时,我也会想:“哇,那真有趣。”几乎像个人类学家一样:“你为什么那样做?”我想了解更多。所以我喜欢与那些能激励我的创始人合作,因为我能从他们身上学到太多东西。
六、 “创始人模式”(Founder Mode)的解读
采访者: 这是一个了解正在发生的事情的有趣前排座位。您认为创始人是否会在开始听取过多外部声音时偏离方向?这又回到了……我相信您知道Brian Chesky的那个说法,就是“创始人模式”。您怎么看?谈谈这个。
Bret Taylor: 我对这个问题有一个非常微妙的观点,因为它绝不简单。总的来说,我非常喜欢“创始人模式”的精神,那就是让创始人对公司的每一个决定负有深度责任。我认为伟大的公司就是这样运作的。当你,俗话说,“通过委员会做决策”,或者你更关注流程而不是结果时,这就会产生我们作为员工、作为客户都讨厌的所有体验。那就是典型的DMV(车管所)模式,对吧?就是流程优先于结果。同样地,看看现在所有行业因为AI而受到的颠覆。那些能够认识到事情明显将要改变的公司——每个人都能看到,就像一场慢动作的车祸,每个人都知道结局如何——你需要那种果断的、突破性的、跨越管理层级的行动,才能在当今商业环境中以所需的速度进行变革。我对Brian的言论本身没有意见,Brian很了不起。我的问题在于人们如何解读它,并可能将其执行为一种我认为扭曲了其本意的漫画式模仿。我记得在史蒂夫·乔布斯去世后,我并不认识史蒂夫,只见过几次,从未与他有过任何实质性的合作。但根据传闻,他对员工相当严厉,要求极高。我认为很多创始人开始模仿他,甚至模仿到穿黑色高领毛衣、对员工大喊大叫。我不确定那是他们成功的原因。我认为是史蒂夫·乔布斯的品味和判断力,通过那种包装方式执行出来,才是他们成功的原因。同样地,我认为“创始人模式”可能被武器化,成为公开进行微观管理的借口,那可能也不会带来好的结果。大多数伟大的公司都充满了极其优秀的个体贡献者,他们做出好的决策并努力工作。而那些仅仅依靠个人判断来执行所有事情的公司,可能无法扩展成为真正伟大的公司。所以我有一个非常微妙的观点,因为我确实相信创始人,我相信那种来自顶层的问责制,我相信那种创始人有权介入并修正哪怕是微小决策的文化——杰夫·贝索斯著名的“问号邮件”就是这种类型。这是一种正确的公司运营方式。但这并不意味着你没有一种让个体负责任并被赋权的文化。你也不希望人们试图根据领导的喜好来做商业决策,那是这种模式的漫画式表现。所以,当这个说法出来后,我能预见到这一切的发生:有些人会觉得:“你说得对,我需要深入细节。”有些人会这样做,并可能让他们手下的每个人都痛苦不堪。这两种情况可能都会因此发生。
七、 工程师作为领导者与第一性原理思维
采访者: 完全感谢您提供的细节和微妙之处,我也很喜欢。您认为工程师能成为好的领导者吗?
Bret Taylor: 我确实认为工程师能成为好的领导者。但我看到的一点是,我真的相信伟大的CEO和伟大的创始人通常始于一个专业领域,但最终会成为其业务所有领域的更广泛的专家。你知道,商业是多方面的,很少有企业的成功仅仅归功于一件事,比如工程或产品,而很多创始人正是来自这些领域。通常你的市场进入模式很重要,对于消费品公司来说,你如何与世界互动以及公共政策变得极其重要。我认为当你看到创始人从做一件事成长为像Airbnb或Meta这样真正有意义的公司时,你可以看到那些创始人真正地从专精一件事转变为精通多件事。所以我确实认为工程师能成为伟大的领导者。我认为第一性原理思维、系统设计思维确实对组织设计、战略等方面有益。但我也认为,回到我们之前谈论的身份认同问题,我认为创始人需要做出的主要转变之一,特别是工程师出身的创始人,是你不再是公司的“产品经理”,你是CEO。在任何一天,你是否花时间招聘一位高管,因为你有这个需求?你是否花时间在销售上,因为那将产生最大的影响?你是否花时间在公共政策或监管上,因为如果你不这样做,它就会发生在你身上,并可能对你的业务产生负面影响?我认为那些不愿意将自己的身份从过去的角色提升到当下所需角色的工程师,往往会导致公司增长的停滞。所以我百分之百认为工程师能成为伟大的领导者。硅谷大多数伟大的CEO都来自工程背景,我认为这并非巧合。但我也认为,随着公司规模的扩大,这还不够。我认为,像所有伟大的领导者那样完成这种转变,对于公司的发展至关重要。
采访者: 所有商业问题在多大程度上是工程问题?
Bret Taylor: 这是一个比我能力所及更深的哲学问题。什么是工程?我喜欢以工程师的方式处理问题,在于第一性原理思维和理解问题的根本原因,而不是仅仅处理问题的症状。我确实认为,拥有工程背景,从流程(比如工程师如何对服务器宕机进行根本原因分析)到一切,都是分析你为什么丢掉一个销售合同的好方法。我喜欢工程的系统化方法。有一点我认为,回到那些可能变成自身漫画式模仿的好想法上,我看到工程师进入其他领域时的一个现象是,有时你可能会过度分析某些领域的决策。以现代沟通为例,它由社交媒体驱动,节奏非常快。对你发的每一条推文都进行系统的、第一性原理的讨论,可能不是一个好的沟通策略。同样地,比如说企业软件销售的某些方面,它们不一定是理性的,但它们是人性的。比如建立个人关系,以及这些关系对于与合作伙伴建立信任的重要性。这不仅仅是产品和技术。所以我会说,我认为很多事情用工程师的心态来处理会非常有益,但我确实认为,将其推向逻辑极端可能导致分析瘫痪,可能导致对一些根本上是人性问题的事情过度理性化。所以,是的,我认为很多事情可以从工程中受益,但根据我的经验,我不会说所有事情都是工程问题。
八、 在商业中应用第一性原理(以Sierra为例)
采访者: 您几次提到了第一性原理。您现在正在运营您的第三家初创公司Sierra,进展很顺利。您如何在工作中运用第一性原理?您是如何在那里使用的?
Bret Taylor: 是的,现在尤其重要,因为AI市场变化如此之快。如果你回溯两年,大多数人还没用过ChatGPT,大多数公司还没听说过“大型语言模型”或“生成式AI”这些词。而在两年内,ChatGPT成为了历史上增长最快的消费服务之一,有史以来比任何服务都快。在企业的如此多领域,都发生了非常迅速的转型。法律正在被改变,市场营销正在被改变,客户服务——也就是我的公司Sierra所在的领域——正在被改变,软件工程正在被改变。如此短时间内发生如此巨大的变化,我认为是前所未有的。也许我缺乏历史背景,但这感觉比我职业生涯中经历的任何事情都要快。因此,我认为,如果你只是对眼前的‘事实’做出反应,而不从第一性原理思考我们为何处于这个节点,以及12个月后可能会怎样,那么你做出正确战略决策的可能性几乎为零。举个例子,对我来说非常有趣的是,有了现代大型语言模型,受影响最大的职业之一就是软件工程。我经常思考的一件事是:三年后我们公司会有多少软件工程师?随着我们从代码的‘作者’转变为代码生成机器的‘操作者’,软件工程师的角色会是什么?这对我们应该招聘什么类型的人意味着什么?如果我审视我们现在正在进行的软件工程的具体实践,我认为它在两年后会变得完全不同,这几乎是板上钉钉的事。然而,我认为很多创办公司的人在招聘时是针对眼前的问题,而不是进行这种思考。但两年并不长,你现在招聘的那些人,在几年后才刚刚开始真正高效。所以我们尝试从第一性原理思考我们大部分的长期业务。举几个我们业务中的例子:我们的定价模型非常独特,它源于第一性原理思考。我们不向客户收取使用我们平台的许可费,而是只为结果向客户收费。也就是说,如果他们为其客户构建的AI智能体解决了问题,通常会有一个预先协商好的费率。这源于这样一个原则:在AI时代,软件不仅仅是帮助你提高效率,而是实际完成一项任务。对于能够完成任务的东西,什么才是正确且合乎逻辑的商业模式呢?那就是为完成的工作收费,而不是为使用软件的特权收费。同样地,对于我们的很多客户,我们帮助他们交付一个完全可用的AI智能体,我们不会给他们一堆软件然后说“祝你好运,自己配置吧”。这里的逻辑是,在一个软件开发比以往任何时候都更容易的世界里,并且你在为客户交付结果,那么软件的交付模式也可能应该改变。我们真的试图重新构想未来的软件公司应该是什么样子,并试图在我们所做的每一件事中体现这一点。
九、 AI驱动下软件工程的未来
采访者: 太棒了。您认为软件工程将如何改变?是人员会减少,还是人员组织方式会不同,或者您怎么看?
Bret Taylor: 我能说得多技术化?
采访者: 随你畅所欲言,老兄。
Bret Taylor: 我实际上在圣诞节前写了一篇关于这个的博客文章。我认为这是一个值得更多研究的领域。我来描述一下我认为我们今天所处的位置,聪明人可能会有不同意见。很多现代大型语言模型,包括传统的大型语言模型和新兴的推理模型,都是在大量源代码上训练的。这是它们所训练的全部知识的一个重要输入。因此,即使是早期的模型也非常擅长生成代码。所以,在Sierra,每一位工程师都在使用Cursor,这是一个很棒的产品,它基本上与IDE(Visual Studio Code)集成,帮助你更快地生成代码。对我来说,这感觉像是一个非常明显的局部最优解。情况是这样的:你有一堆由人编写的代码,用那些为了方便人们告诉计算机做什么而设计的编程语言编写。可能最有趣的例子是Python,它几乎看起来像自然语言,但出了名的不健壮。大多数Python的bug是通过运行程序发现的,因为没有静态类型检查。类似地,大多数bug,虽然你可以运行花哨的静态分析,但大多数bug只是在运行时出现,因为它就不是那样设计的。它的设计是为了符合人体工程学,便于编写。然而,我们现在用AI来生成它。所以我们基本上设计了我们大部分的计算机编程系统,是为了让代码的作者能够快速输入。而我们正处在一个生成代码的边际成本趋近于零的世界。但我们仍在用那些为人类作者设计的编程语言来生成代码。同样地,如果你曾经看过别人的代码,很多人专业地做这件事,叫做代码审查(code review),这实际上是相当困难的。你最终需要解读,基本上是试图把整个系统装进你的脑子里,并在阅读代码时模拟它,以找出其中的错误。所以现在的讽刺之处在于,我们把那些为作者设计的编程语言(代码),现在让人类来做本质上是代码审查的工作,审查由AI编写的代码。然而所有的AI都集中在代码生成部分。我在想,我不确定……这很好,但我们正在生成大量与我们以前生成的代码有类似缺陷的代码,从安全漏洞到功能性bug,而且数量更大。我认为我们……我希望看到的是,如果我们从生成代码是免费的或趋向于免费这个前提开始,我们会设计出什么样的编程系统?例如,Rust就是一个为安全而非编程便利性设计的编程语言的例子。据我了解,Mozilla项目,因为Firefox中存在太多安全漏洞,他们说:“让我们制作一种非常快的编程语言,但所有东西,包括内存安全,都可以静态检查。”这是一个非常有趣的方向,你不再优化编写的便利性,而是优化正确性。有没有一些编程语言的设计,是为了让人类看一眼就能很快评估:“这是否做了我打算让它做的事情?”我在大学里学过一个计算机科学领域叫做形式化验证(formal verification),当时是将很多计算机程序转化为数学证明,并寻找不一致性。它在某种程度上是有效的,但没有达到期望的程度。但在一个AI生成大量代码的世界里,我们是否应该更多地投资于形式化验证,以便代码生成机器的操作者能够更容易地验证它确实做了他们打算让它做的事情?以及,一种结构上更正确、更安全、并暴露更多验证原语的编程语言,加上一个验证工具,能否让代码生成机器的操作者效率提高20倍,但更重要的是,使其输出的健壮性提高20倍?同样地,有些主题会流行又过时,比如测试驱动开发(test driven development),你先写单元测试或集成测试,然后编写代码直到它满足测试。我认识的大多数非常优秀的程序员,不是鄙视它,而是觉得它听起来比实践中更好。但同样,编写代码是免费的,那么编写测试也是免费的。你如何创建一个编程系统,其中结合了优秀的编程语言设计、形式化验证、健壮的测试(因为你不需要做编写它们的繁琐工作),能否使编写日益复杂的、日益健壮的系统成为可能?然后,类似地,对我来说房间里的大象是,目前大多数这些代码生成系统的核心依赖是IDE。这显然在这个世界中显得不那么重要了。即使有了编码智能体(coding agents),这是世界发展的方向,它也没有改变一个事实:谁对质量负责?谁来修复它?我认为存在一个世界,我们可以通过仅仅自动化我们作为软件工程师每天所做的事情来制造出合理的软件。但我强烈怀疑,如果我们以软件工程师的角色是机器的操作者而非代码的作者来设计这些系统,我们可以使整个过程更加健壮、更加高效。这对我来说感觉像是一个研究问题。我认为很多人,包括我,出于充分的理由,只是对软件开发效率的提高感到兴奋。但我渴望看到新的事物。我对我们目前的状况持建设性的不满态度。
采访者: 这太有趣了,如果软件AI足够好到能写代码,那它也应该足够好到能检查代码。
Bret Taylor: 这是个很棒的问题。但实际上,你知道,我们还在生成Python,这对我来说仍然很有趣。只是因为任何现在听的人,如果曾经运维过运行Python的Web服务,就知道它CPU密集,效率极低。我们是否应该把我们编写的大部分不安全的C代码转换成像Rust这样更安全的系统?如果编写和检查这些东西相对免费,难道我们所有的程序不应该极其高效吗?它们不都应该经过形式化验证吗?它们不都应该被一个优秀的智能体分析吗?我确实认为这可能是“乌龟驮乌龟,一直驮下去”(turtles all the way down),你可以用AI来解决AI中的大部分问题。我试图弄清楚的是:人类操作者用来协调所有这些任务的系统是什么?我回想起软件开发的历史,大多数真正有趣的软件开发隐喻都来自于计算领域的突破。比如,C编程语言来自于Unix,当这些分时系统真正从穿孔卡片发展到更敏捷的东西时。Smalltalk来自于施乐帕克研究中心(Xerox PARC)图形用户界面(GUI)的开发,当时存在一种消息传递(message passing)作为隐喻与图形用户界面的融合。然后有很多非常有趣的原则来自于网络,以及分布式系统、分布式锁、序列化。我认为我们应该认识到,我们正处在一个全新的时代,其重要性不亚于GUI。这就像一个全新的软件开发时代。如果你只是说:“我要为这个新世界从第一性原理出发设计一个编程系统”,那会是什么样子?我认为当我们开发出它时,将会非常令人兴奋。因为与其自动化并加速我们今天已有的同样流程的代码生成,我认为它将感觉原生于这个系统,并以一种我认为将极大利好整个软件的方式,赋予那些协调系统的人们更多的控制权。
十、 AGI的定义与实现要素
采访者: 让我们深入探讨一下AI。您会如何向普通人定义AGI?
Bret Taylor: 我认为一个合理的AGI定义可能是:任何一个人能在计算机上完成的任务,该系统都能达到同等或更好的水平。我不确定这是一个精确的定义,但我会告诉你这个定义的来源及其缺陷,但在我看来,并没有一个完美的AGI定义,或者说没有一个精确的AGI定义。我相信有好的答案。AGI中的“G”(通用性)是关于泛化能力的。你能否拥有一个系统,在它没有被明确训练过的领域也能表现出智能?所以我认为最重要的事情之一是:给定一个全新的领域,这个系统能否变得比一个在该领域受过训练的人更有能力、更智能?我认为这大致是……达到或超过人类水平当然是一个很好的标准。这也就是超级智能的定义。我之所以提到“在计算机上”,是因为我认为这是一个界限,意味着如果存在一个数字接口连接到那个系统,它就提供了AI与之交互的能力,这就是为什么这是一个可以合理达到的标准。我这么说是因为关于AGI的一个有趣问题是它泛化的速度有多快。世界上有些领域,其进展不一定受限于智力,而是受限于其他社会因素。举个例子,我不是这方面的专家,但如果你想想制药行业,据我了解,主要的瓶颈之一是临床试验。所以,无论一个系统在发现新疗法方面有多么智能,它可能不会实质性地改变这一点。所以你可能会有一个在数学领域发现新见解的东西,那将是令人愉悦和惊叹的。但是,这样一个在某个领域超级智能的系统的存在,可能不会以同等速度转化为所有领域。我刚听到经济学家Tyler Cowen的一段演讲片段,他对此的阐述非常有趣,关于经济的哪些部分能比其他部分更快地吸收智能。所以我选择这个AGI的定义,认识到没有完美的定义,因为它既捕捉了这种智能泛化的能力,同时也认识到社会的各个领域,即使我们达到了那个智能水平,它可能也不会以同等的速度应用。
十一、 AGI进展的驱动因素与瓶颈
采访者: 当我思考人工智能受到哪些限制,或者说瓶颈时,我总是想到几件事:监管、算力、能源、数据,还有大型语言模型(LLM)。我遗漏了什么吗?
Bret Taylor: 所以你说的是通往AGI的要素?
采访者: 是的,就像这些方面都存在限制,而它们似乎是限制我们目前加速发展的主要因素。您怎么看?
Bret Taylor: 你说的和我大致想的一样。不过我用我自己的话来说。我认为三个主要的输入是:数据、算力和算法。数据可能很明显,但在Transformer模型被引入后,它提供了一种具有更大并行性的架构,这意味着模型可以变得更大,并在更多数据上更快地训练,这导致了很多突破。这就是LLM,它们很大。几年前的Scaling Laws表明,模型做得越大,它就会越智能,而且效率的提高程度是可以接受的。于是就有了现在的情况。关于这一点有很多文章,但在可用于训练的文本内容方面,新内容的可用性肯定在减弱,有些人会说,我认为存在一个“数据墙”。我不是那个领域的专家,但这已经被广泛讨论,你可以读到很多相关内容。不过,生成数据也有很多有趣的机会。很多人在研究模拟(simulation)。如果你想想自动驾驶汽车这样的领域,模拟是一种非常有趣的生成方式……
采访者: 那是合成数据吗?
Bret Taylor: 我会说那是合成数据。合成数据有……模拟和合成数据有点不同。你可以生成合成数据,比如生成一部小说。模拟,至少在我看来,而且我确信学者们可能会批评我的说法,但我认为模拟是基于一套原则,比如物理定律。所以如果你为训练自动驾驶汽车构建一个真实世界的模拟,你不仅仅是在生成任意数据,比如道路不会变成过山车那样的环形,因为这在物理上是不可能的。所以通过用一套现实世界的约束来限制模拟,数据就具有更高的效力。而且它在某种程度上限制了你可以从中生成的不同数据排列。所以我认为它的质量稍微高一些。但沿着这个思路,很多人想知道,如果你生成合成数据,它能为训练过程增加多少价值?它是不是在某种程度上重复利用它已有的信息?关于推理和推理模型,真正有趣的是,我认为,我对此感到非常乐观,这些模型正在产生全新的想法。所以它确实提供了突破其中一些数据墙的机会。所以数据是一方面,我认为合成数据和模拟都是在那里增长的非常有趣的机会。然后是算力。这是为什么有如此多的数据中心投资,为什么像Nvidia这样的公司增长了这么多。可能更有趣的突破是这些推理模型,其中训练过程和推理过程之间没有那么严格的区分,你可以在推理时投入更多的算力来产生更多的智能。这在很多方面都是一个突破,我认为非常有趣。但它也显示了你如何可能遇到瓶颈,然后找到新的使用机会。最后是算法。最大的突破显然是Transformers模型,“Attention is All You Need”,那篇来自Google的论文,它基本上引领了我们走到今天。但自那以后,也出现了一些非常重要的论文,从思维链推理(chain of thought reasoning)的概念,到我们在OpenAI用GPT-4o模型所做的,即对那些思维链进行一些强化学习,以真正达到新的智能水平。所以我确实认为……我提到了一些关于那里突破的轶事,因为我的观点是,它们各自都有自己的问题。算力,资本密集度非常高。而且很多这些模型的价值半衰期很短,因为新的模型发布得太频繁了。所以你会想,我们能否负担得起?投资这些资本支出的商业理由是什么?然后你有了像GPT-4o这样的突破,你会想,天哪,通过蒸馏模型并将更多计算移到推理时间,它改变了经济性。你遇到了数据问题,你说,天哪,我们快没有文本数据可以训练了。好吧,现在我们可以生成推理,我们可以做模拟。哦,那是一个有趣的突破。然后在算法方面,正如我提到的,这些推理模型的想法本身就非常新颖。这些领域中的每一个,在任何给定的时间点,如果你和其中一个领域的专家交谈——而我不是任何一个领域的专家——他们会告诉你他们能预见到的当前平台期。而且通常是存在的。你会和不同的人谈论某个事物的Scaling Laws会持续多久,你会得到略微不同的意见,但没有人认为它会永远持续下去。而在每一个这样的节点,因为有如此多聪明的人在研究它们,你经常会看到有人在其中每一个领域发现突破。因此,我真的对通往AGI的进展感到乐观。因为其中一个平台期可能会持续一段时间,如果我们就是没有突破所需的关键想法。但我们同时在所有三个领域都停滞不前的想法,对我来说似乎非常不可能。事实上,我们看到的是,由于AGI潜在的经济效益,我们实际上在所有三个领域都看到了突破。因此,你只是看到了过去几年我们所见证的惊人的进步速度。
十二、 AI自我改进与安全考量
采访者: AI在什么时候开始比我们能做得更好地改进AI?或者在我们睡觉的时候改进它?我们离那应该不远了吧?
Bret Taylor: 这可能要回到我们关于软件工程的讨论。但总的来说,这是AGI领域关于自我改进的部分,这从改进的角度来看意义重大,但显然从安全的角度来看也是如此。所以我不知道那会在什么时候发生,但我确实认为,根据某些定义,你可以说它已经在发生了,因为硅谷的每一位工程师都已经在使用编码智能体和像Cursor这样的平台来帮助他们编码。所以我认为随着编码助手发展为编码智能体,未来硅谷的大多数工程师早上来上班时……
采访者: 但这有点像特斯拉的辅助驾驶和完全自动驾驶的区别,对吧?我们什么时候能从“我是副驾驶”飞跃到“我什么都不用做”?
Bret Taylor: 这是个问题,里面有太多的微妙之处,我不确定该如何回答。因为我不确定你是否一定想要那样。我认为对于某些软件应用来说,这很重要。但是当我们提到,我们在谈论软件开发活动时,人们必须为他们生产的软件负责。这意味着,如果你在做一个简单的SaaS(软件即服务)应用,它必须是安全的,可靠的,功能按预期工作。对于像一个具有某种程度自主性的智能体这样意义重大的东西,它是否有适当的护栏?它是否真的做了操作者打算让它做的事情?是否有适当的安全措施?所以我不确定是否存在任何系统,你会想拨动一个开关然后去喝咖啡。但我确实认为,关于这些更广泛的安全问题,我认为当你考虑更高级的模型时,我们不仅需要开发越来越高级的安全措施和安全约束,而且还需要使用AI来监督AI之类的事情。所以这可能……我的董事会同事Zico Kolter可能是谈论一些技术问题的更好人选。但要达到那一点,有很多先决条件。我不确定仅仅是技术的可用性就足够了。只是因为归根结底,我们对我们生产的系统的安全负责,不仅仅是OpenAI,而是每一位工程师。这是一个不应改变的原则。
十三、 AI惠及全人类、安全与监管
采访者: 那意味着什么?当我们说AI安全时,这个概念似乎非常模糊,以至于每个人都有不同的解读。您是如何看待这个问题的?在一个假设美国监管安全而另一个国家不监管安全的世界里,您如何看待这种情况?这会如何影响动态平衡?
Bret Taylor: 我会先宽泛地回答,然后再谈监管问题。我非常认同OpenAI的使命,那就是确保AGI惠及全人类。这不仅仅关乎安全,而且我认为这是有意为之的,虽然这个使命显然是在我加入之前创建的。因为它既关乎安全——有点像希波克拉底誓言,“首先不造成伤害”——我认为如果我们创造出不安全的东西,就无法令人信服地实现那个使命,所以我会说这是使命中最重要的部分。但也有很多其他方面关乎惠及人类。它是否普遍可及?是否存在数字鸿沟,有些人能接触到AGI而有些人不能?同样地,你可以说,我们是否在最大化益处和最小化弊端?显然,AI会颠覆一些工作,但它也可以民主化医疗、教育、专业知识的获取。所以当我思考这个使命时,它始于安全,但我实际上喜欢更广泛地思考它,因为我认为归根结底,惠及人类才是使命。安全是前提,但这几乎就像回到我希波克拉底誓言的比喻:医生的职责是治愈你,“首先不造成伤害”,然后是治愈你。一个只做到无害但不能治愈的医生也不是好医生。所以我真的喜欢整体地思考,而且,Zico或Sam可能会有更完整的答案。但总的来说,我认为代表AGI的系统是否与创造它的人的意图以及操作它的人的意图保持一致?这样它才能做我们想让它做的事,成为一个惠及人类的工具,一个我们积极用来实现我们所寻求结果的工具。这就是我思考安全的方式。它可以是像失准(misalignment)这样重大的事情,也可以是像意外后果(unintended consequences)这样更微妙的事情。我认为后者可能是从智力上和伦理上都非常有趣的领域。如果我看看……加拿大那座倒塌的桥梁,促使工程师佩戴戒指的那个?我忘了名字了。但看看无论是华盛顿州的塔科马海峡大桥,还是三哩岛事件,或者那些我们工程设计的交叉点……你知道,当时人们希望这些能积极地影响人类,但结果却出了严重的问题。有时是工程问题,有时是官僚主义,有时是很多因素。所以当我认为安全时,我不仅仅看它的技术指标,而是这项技术如何在社会中显现?我们如何围绕它做决策?换句话说,技术很少天生是好是坏,关键在于我们用它做什么。我认为那些社会结构也非常重要。所以我觉得现在判断还为时过早,因为我们目前还没有这种超级智能。而且我认为不会仅仅是一家科技公司来定义它如何在社会中显现。你可以想象,拿一个非常对齐的AI系统,由一个人类操作者指挥它去做一些客观上会伤害社会的事情。这就产生了一个问题:谁来决定?谁负责?这是一个永恒的问题。就像你决定是否应该在学校使用智能手机,谁应该决定?会有家长告诉你:“嘿,这是我的决定,这是我的孩子。”然后会有校长告诉你:“这对学校没有好处。”我不确定这会是我的位置或我们的位置来决定,但会有很多比那个问题更深层次的对话,我认为我们需要回答。至于监管,存在两种并非冲突但某种程度上独立存在却又相互关联的力量。一是AI的进步速度,以及确保那些研究前沿模型的人确保这些模型确实惠及人类。然后是地缘政治格局,即你希望AGI由自由的西方民主国家创造,还是由更极权的政府创造?所以我认为监管者面临的内在张力将是:一种确保创造AGI的技术组织确实足够关注惠及人类以及其他所有他们负责的利益相关者的利益的义务感;以及确保西方保持竞争力。我认为这是一件非常微妙的事情。我的观点是,西方在AI领域保持领先非常重要。我为OpenAI总部设在美国,并且我们在美国投入巨资感到非常自豪,我认为这非常重要。而且我也……在某种程度上看到了内部情况,我认为我们确实专注于惠及人类。我倾向于认为,这需要一个多方利益相关者的对话,但我认为存在一个很大的风险,即某些法规可能会产生意外后果,减缓这个更宏大的对话进程。但我这样说并非要轻视它,这实际上是一个极其困难的问题。我认为你正看到它如你所说,在加拿大、美国、欧洲、中国等地以非常不同的方式展开。
十四、 基础模型、前沿模型、经济模式与开源
采访者: 我想回到算力和涉及的资金问题上。一方面,如果我现在想创办一家AI公司,我可以通过刷信用卡,使用AWS的基础设施来启动,他们已经投入了数千亿美元建设,而我可以按时付费使用。另一方面,像OpenAI和微软这样的人投入了大量资金,这些可能更具专有性。您如何看待不同模式的竞争?然后让我有点困惑的是Facebook,也就是Meta。Meta投入了这么多钱,可能是为了全人类的福祉,但我倾向于认为扎克伯格非常聪明,我不认为他会花千亿美元开发一个免费模型送给社会。您如何从资本回报和投资回报的角度看待这个问题?
Bret Taylor: 考虑到构建一个前沿模型所需的资本支出,这确实是一个非常复杂的业务。但让我先从几个我认为有用的术语定义开始。我认为大多数大型语言模型我会称之为基础模型(Foundation Models)。我喜欢“基础”这个词,因为我认为它将成为未来大多数智能系统的基础。大多数构建现代模型的人,特别是涉及语言、图像或音频的模型,不应该从头开始构建模型。他们应该选择一个基础模型,要么直接使用,要么进行微调。所以它在很多方面确实是基础性的,就像大多数人不再自己建服务器,而是从云基础设施提供商那里租用一样。我认为基础模型将是由拥有大量资本支出的公司训练,并由拥有广泛用例的广泛客户租用的东西。我认为这导致……就像数据中心建设者拥有大量数据中心使你拥有资本规模来建设更多数据中心一样,我认为同样的情况也将在很大程度上适用于构建用于训练等的巨大集群。我认为基础模型与前沿模型(Frontier Models)有所不同。前沿模型,我认为这个术语归功于里德·霍夫曼(Reed Hoffman),但我可能记错了,但我是从他那里听说的。这些模型通常是那一两个明显处于领先地位的模型,比如OpenAI的GPT-4o。这些前沿模型是由那些试图构建惠及人类的AGI的实验室构建的。我认为如果你在决定是否构建一个基础模型以及围绕它的商业模式是什么,这与“我要去追求AGI”是非常不同的业务。因为如果你在追求AGI,真的只有一个答案,那就是构建、训练,并向下一个前沿迈进。因为如果你真的能构建出AGI,其经济价值是如此巨大,我认为存在一个非常清晰的商业案例。如果你在预训练一个排名第四的基础模型,那将花费你大量的金钱,而且那项投资的回报可能相当值得怀疑。因为为什么要使用你排名第四的大型语言模型,而不是一个前沿模型或一个开源模型?对于Meta,以及基于此的结果,我认为我们现在可能有太多人在构建模型了。实际上已经出现了一些整合,一些公司被并入亚马逊、微软等。但我确实认为,它会有点像云基础设施业务那样发展,极少数拥有非常庞大资本支出预算的公司负责构建和运营这些数据中心。然后开发者和消费者会使用像ChatGPT这样的消费级产品,或者作为开发者,你会在云中许可和租用其中一个模型。它将如何发展是一个非常有趣的问题。我听说一位投资者将这些称为“有史以来升值最快的资产”。另一方面,如果你看看像OpenAI这样的公司的收入规模,以及我读到的关于像Anthropic这样的地方的信息,更不用说微软和亚马逊了,这也相当令人难以置信。所以如果你是那些公司之一,你无法承受在世界转型时袖手旁观。但我个人很难去资助一个说“我要做预训练”的初创公司。我真的不知道,你在这个市场上的差异化是什么?我认为很多这样的公司,你已经看到它们在整合,因为它们有着制药公司的成本结构,却没有相应的商业模式。
采访者: 但问题就在这里,对吧?OpenAI围绕其AI投资有收入模式。微软围绕其AI投资有收入模式,他们刚刚更新了带有Copilot的Teams的价格。亚马逊围绕AI也有收入模式,在某种程度上,他们让其他人通过AWS付费,然后他们自己也从消费者角度以及所有项目中获得优势——贝索斯上周接受采访时说,亚马逊的每个项目基本上都有AI成分。而Facebook(Meta)则已经投入了所有这些资金,并且未来可能还有无尽的投入,但他们并没有一个围绕AI的特定收入模式,而对他们来说,使用其他模型显然会更便宜,但这可能需要放弃数据或者……我只是试图从扎克伯格的角度来理解。
Bret Taylor: 我实际上愿意相信Mark(扎克伯格)的话。他写的那篇关于开源的帖子,我认为写得非常好,鼓励大家去读读。我认为那是他的策略。如果你看看Facebook——现在你也让我说Facebook了,它以前就叫这个,我在那里待过——这家公司一直非常拥抱开源。如果我看看那些非常流行的东西,从React到现在Llama模型,围绕他们的生态系统吸引开发者一直是他们战略的重要组成部分。Mark在那里阐述了一些策略,我确信有商品化互补品的因素,但我也认为,如果你能吸引开发者使用模型,这本身就是一种力量。我并不真正在那里内部,所以我对此除了认为有不同的参与者以不同的激励机制投入如此之多是件好事之外,并没有其他看法。我认为这确实在推动将这些神奇的工具带给社会的事业。但很多事情都在变化。如果你看看GPT-4 mini的价格,它的质量比两年前最高质量的模型要高得多,而且便宜得多。我没有计算过,但使用它可能比自托管任何开源模型都要便宜。所以即使存在开源模型,它也不是免费的。推理是需要成本的。所以这里面有很多复杂性。实际上,即使我相对接近这些事情,我也不知道事情会走向何方。但你知道,你可以和一个聪明的工程师交谈,他们会告诉你:“哦,是的,如果你自己建服务器,你会比从亚马逊网络服务(AWS)或Azure租用花费更少。”这在绝对意义上某种程度是真的,但忽略了一个事实:你是否希望你的团队里有人去建服务器?哦,事实上,如果你改变了你的服务方式,你需要一个不同的SKU(库存单位),比如你突然开始做训练,需要Nvidia的H100了,那么你之前建的服务器就成了无用的资产。所以我认为对于很多这些模型,开源的存在极其重要,我对此表示赞赏。我也认为AI的经济学相当复杂,因为硬件非常独特,服务成本要高得多。像蒸馏(distillation)这样的技术确实改变了模型的经济性,无论它是开源的还是托管和租赁的。所以我认为总的来说,对开发者而言,现在是一个非常棒的时期,因为你有一个极其广泛的选择菜单。我实际上认为,就像在云计算中一样,你最终会面临价格、性能、质量的权衡。对于任何给定的工程挑战,都会有不同的答案,这是合适的。有些人使用开源的Kafka,有些人与Confluent合作。很好,你知道,事情就是这样运作的。
十五、 AI/AGI的可及性与应用
采访者: 所以您不认为AGI会是赢者通吃?您认为会有多种选择,根据(无论是什么)AGI的定义都具备能力?
Bret Taylor: 首先,我认为OpenAI,我相信它将在其中扮演重要角色。因为既有技术——我认为OpenAI在这方面持续领先——也有ChatGPT,它已经成为大多数消费者眼中AI的同义词。但更重要的是,它是今天大多数人接触AI的方式。所以有趣的事情之一是:什么是AGI?我们讨论了关于定义的看法,但另一个问题是:你如何使用它?它的包装是什么?一部分智能将仅仅是它的结果,比如发现一种新药,这将是了不起的,希望我们能治愈一些疾病。但另一部分将是你作为个体如何接触它。我认识的大多数人,如果他们要签公寓租约,会把它输入ChatGPT获取法律意见。如果你从医生那里拿到化验结果,你可以在ChatGPT上获得第二意见。Clay和我经常使用GPT-4o Pro模式来批评我们在Sierra的战略。所以对我来说,ChatGPT如此了不起之处在于,这个最初古怪命名的研究预览版已经成为AI的同义词,我确实认为当AGI产生时,它将是AGI的交付机制。这不仅仅是因为OpenAI的众多研究人员,更是因为它已经成为个体使用的神奇工具。我认为这非常棒,因为如果我们三年前进行这次对话,谈论通用人工智能,我不确定我们俩是否会设想出如此简单的形式因子来吸收它,你只需和它交谈。所以我认为这很棒,特别是我想到OpenAI的使命是确保AGI惠及全人类时,多么简单、易用的形式因子,还有免费版本,多么棒的惠及人类的方式!所以我真的认为这将是我们社会最终定义为AGI的核心。
十六、 优化AI提示(Prompt)与智能体技术
采访者: 您提到在Sierra用它来批判你们的商业策略。关于提示(prompting),您知道哪些别人会忽略的东西?我的意思是,您肯定有最好的提示技巧吧?
Bret Taylor: 人们认为,因为我与它有关联……
采访者: 您不会只是说:“这是我的策略,你怎么看?”您会输入什么?
Bret Taylor: 我经常对于那些较慢的推理模型,会先使用一个更快的模型,比如GPT-4o,来优化我的提示。比如,在假期期间,部分因为我在思考软件工程的未来,我写过很多编译器,写得足够多,对我来说就像……很轻松。所以我决定试试看我是否能让GPT-4o Pro模式端到端地生成一个编译器前端:解析语法、检查语义正确性、生成中间表示,然后使用LLVM(一个非常流行的编译器集合)来实际运行它。我会花很多时间在GPT-4o上迭代,来优化和完善我想要的东西的细节和具体性。然后我会把它输入到GPT-4o Pro模式中,去喝杯咖啡,回来就能得到结果。我不确定这是否是一个可行的方法,但这非常有趣,因为我确实认为,本着AI是解决AI中更多问题的解决方案的精神,让一个延迟更低、更简单的模型帮助优化……基本上我喜欢把它想成:你就像一个产品经理,你在问一个工程师该怎么做,你的产品需求文档是否足够完整和具体?等待结果有时比……所以我喜欢像那样分阶段进行。这就是我的小窍门。
采访者: 可能有OpenAI的人在听,会翻白眼,但这只是……
Bret Taylor: 这是我……
采访者: 我在OpenAI能和谁聊聊,那种提示词忍者?我对此非常好奇。因为我最近开始让OpenAI或者说ChatGPT,来为我写提示词。我会提示它:“我正在提示一个AI,这是我想达成的关键事项,类似于我的技巧,一个优秀的提示词应该是什么样子的?”然后我会复制粘贴它给我的提示词,再输入回系统。但我在想,我在这里错过了什么?
Bret Taylor: 这是个好技巧。我的意思是,有很多这样的技巧。比如自我反思(self-reflection)是一种让模型观察和批判一个决策(比如一个思维链)的技术。所以总的来说,这种自我反思的机制,我认为是一个非常有效的技巧。在Sierra,我们帮助公司构建面向客户的AI智能体。所以,如果你在设置一个Sonos音箱,你现在会和一个AI聊天。如果你是SiriusXM的用户,你可以和他们的AI Harmony聊天来管理你的账户。我们使用了所有这些技巧,比如自我反思,来检测幻觉或决策制定;为更复杂的任务生成思维链,以确保你将尽可能多的算力和认知负荷投入到重要的技巧上。所以,我们……整个行业都在围绕着如何从这些模型中榨取出健壮性和精确性。这真的很有趣,但变化很快。
十七、 国家层面AI发展的政策与基础设施
采访者: 假设一个情景问题。您被聘请去领导或为一个想要成为AI超级大国的国家提供建议。您会采取什么样的步骤?您认为什么样的政策会有助于实现这一目标?您将如何从世界各地吸引投资和研究人员到这个国家?现在突然间,您面临竞争,而且不是美国。您会如何……从第一性原理出发,为这样一个国家进行规划?那会是什么样子?关键变量是什么?
Bret Taylor: 嗯,这绝对超出了我的专业领域。但我想说,现代AI的关键要素之一是算力(compute)。这是一个直到最近才变成名词的词,但现在算力是一个名词了。我确实认为这是一个政策制定者可以施加影响的领域,因为它涉及很多触及联邦和地方政府的事情,比如电力、土地。然后同样重要的是吸引巨额资本,用于融资、房地产、购买算力本身,以及运营数据中心。再说一次,这些数据中心对电力的需求确实是巨大的。然后是吸引合适的研究人员和研究实验室来利用这些资源。但总的来说,哪里有算力,研究实验室就会找到你。所以我认为关键在于此。然后还有很多国家安全方面的影响,因为这些模型,至少前沿模型,非常敏感。所以,你在地缘政治格局中的位置非常重要。比如,研究实验室和美国政府是否愿意在那里进行训练?以及出口限制等等。但我认为很多都归结为基础设施,就政策而言,这是我的直觉。我认为目前AI在很大程度上受限于基础设施,这是很多这些事情的输入。然后还有很多围绕吸引人才等等,但正如我所说的,你看看那些研究实验室,实际上人并不多,很多,但算力是目前的限制性资源。
采访者: 这是个很好的思考方式。我从加拿大的角度思考这个问题,我们感觉在AI方面做得不够,我们倾向于将大部分优秀人才流失到美国,然后他们出于某种原因在这里(美国)建立基础设施,而不是带回加拿大。我想知道加拿大如何能更好地竞争。这大概是我看待这些问题的视角。
十八、 AI对教育的未来与所需技能
采访者: 您如何看待下一代教育?如果您今天要从零开始创办一所学校,再次强调这是假设,并非您的专业领域,但用您对AI的视角,您会如何思考?比如,孩子们未来需要什么技能?我们可能不再需要教他们哪些我们一直在教的技能?
Bret Taylor: 我先从我认为可能显而易见但让我非常兴奋的好处开始。我认为教育可以变得更加个性化。
采访者: 完全同意。您见过Synthesis Tutor吗?
Bret Taylor: 没有,我没见过。
采访者: 哦,他们开发了这个……Synthesis这家AI公司开发了这个家教,它实际上能教孩子,而且效果非常好,以至于萨尔瓦多这个国家最近采用了它,取代了他们的老师。
Bret Taylor: 太神奇了。
采访者: 它会教你,但它是根据你所欠缺的具体内容来教的。所以不是每节课都一样,而是像:“哦,你没有理解这个基础概念。”它现在大概覆盖K到5或6年级。
Bret Taylor: 太神奇了。你知道,我实际上……而且结果是惊人的。
Bret Taylor: 这并不让我惊讶。我实际上并不认为它必然是取代老师。但我的观点是,如果一个老师班上有28个孩子,他们都以相同的方式学习或以相同的速度学习的可能性非常小。我真的能想象,比如说一位英语老师或历史老师,在协调他们的学习旅程,围绕一个主题,比如美国的AP欧洲历史,有一个他们需要学习的课程大纲。一个人如何记住某个东西,或者理解马丁·路德的重要性,是非常不同的。你可以为可能是听觉学习者的人生成一个音频播客。你可以为需要那种重复的人制作抽认卡。你可以将历史上的关键时刻可视化,给那些可能只是想更直观地体会为什么这是一个有意义的事件,而不是枯燥历史片段的人看。而所有这些,正如你所说,都可以根据你的学习方式和学习进度进行个性化。我认为这极其强大。所以我认为AI的一个很棒的地方是,它正在民主化很多过去相当排外的东西的获取途径。很多富裕的人,如果他们的孩子在学校遇到困难,会花钱请家教,数学家教、科学家教。而且,如果你看看那些试图进入名牌大学的孩子,如果你有经济能力,你会请人辅导你SAT考试,或者帮助你修改大学申请文书。所有这些,如果我们做得好,都应该被民主化。这意味着我们不再因人们的经济能力而限制他们的机会。我认为这是最……最美国的事情了。
采访者: 也是最加拿大的。
Bret Taylor: 这是最不可思议的事情,对人类而言最不可思议的事情。所以我只是认为教育将在如此多的方面向积极的方向改变。因为……我实际上和我的孩子们一起散步时,当他们问……如果你有小孩,他们会问为什么,为什么……到某个时候,父母就开始编造答案或者敷衍了事。我们现在有ChatGPT了,这在你旅行时简直是最好的。打开高级语音模式,然后说:“随便问吧。”
采访者: 百分之百同意。而且我也在听,你知道吗?就像通过孩子的好奇心来体验生活。我的女儿上了高中,第一次带回莎士比亚。她问我一个问题,我当时觉得……完全力不从心。我心想:“我第一次学这个的时候就很差。”然后我们把它输入ChatGPT,它给出了最周到的答案,她还可以问后续问题。我实际上和她一起看,因为我在想:“我都忘了那个了。”甚至都没想过。所以我只是觉得这太不可思议了。我希望在公立学校系统中……我认为这将是非常棒的……当公立学校系统正式采用这些东西时。这样他们就能积极利用像ChatGPT这样的工具,作为提高课堂整体表现水平的机制。并且希望你能在考试成绩和其他方面看到效果,因为孩子们可以获得额外的时间,即使学校系统负担不起为每个人提供。然后最重要的是,孩子们能根据他们的学习风格得到解释,我认为这也将非常重要。至于技能,现在真的很难预测。我想说的是,我确实认为学习如何学习和学习如何思考将继续重要。所以我认为大多数初等和中等教育不应该,也不是,必然是职业性的。其中一些是,比如我上过汽车修理课之类的,我很高兴我学了,但我今天无法用那些知识修理我的电动车。你知道,时代在变。我并不认为它需要完全是非职业性的。但是,学习如何思考的基础知识,学习……写作、阅读、数学、物理、化学、生物学,不是因为你需要记住它,而是理解构成我们所生活的世界的机制,这是相当重要的。我确实认为存在一种风险,人们可能会在他们使用的工具中僵化。让我们回到我们关于软件工程的讨论,但我会给出其他例子。如果你将你作为软件工程师的角色定义为你向IDE中输入代码的速度有多快,那么未来几年可能会让你落后。因为那不再是,或者将不再是,软件工程经验中具有差异化的部分。但是你作为软件工程师的判断力将继续极其重要。你的能动性(agency),决定构建什么、如何构建、如何架构,也许将AI模型用作创造性的陪练。所以我认为,就像如果你是一名会计师,使用Excel并不会让你变得不那么像会计师。而且仅仅因为你没有手工计算那个数学公式,并不会使结果对你的客户来说价值降低。所以我认为我们将经历这种转变,我认为我们用来在世界上创造价值的工具将发生巨大变化。我认为一些将自己的工作定义为非常有效地使用上一代工具能力的人将会受到冲击。但我认为如果我们能够赋权人们并进行再培训,并且拓宽他们定义自己为世界提供价值的视角,我认为很多人可以完成这个过渡。让人不舒服的事情,并非真正在教育领域,那里毕竟是人们生命的早期阶段,而是在于我认为变革的速度超过了大多数技术转型。我认为期望大多数人如此迅速地改变他们的工作方式是不合理的。所以我认为未来5年,对于某些工作来说,将会是真正具有颠覆性和动荡的。但如果你着眼长远,快进25年或50年,我非常乐观。我认为这种变化将需要来自社会、公司和个人的开放心态,关于再培训和通过这种戏剧性不同的新技术的视角重新构想他们的工作。
十九、 AI在科学发现与研究中的潜力
采访者: 我们什么时候能达到……我的意思是,我们可能现在正处于临界点,并且在局部发生着,但我们什么时候开始解决人类一直无法解决的问题?或者排除我们正在走的路径,也许是医学研究方面的,比如:“不,你花了300亿美元研究的这个东西,基于那份1972年被捏造的研究报告,但那一份研究衍生出了所有这些后续研究,我告诉你,这是错的。”因为我能用客观的视角看待它,并帮你摆脱这300亿……你为什么在笑?
Bret Taylor: 哦,不,我只是希望快点。我的意思是,我希望。我的意思是,我……有很多……有一个模型,我不记得是哪个了,引入了一个非常长的上下文窗口。周末有很多人在X(推特)上把他们的论文,比如研究生论文,放进去。它实际上以惊人的保真度对它们进行了评论。我认为我们可能已经接近那个程度了,也许有了合适的工具。但肯定在未来几年内,你知道,我们讨论过AI泛化意味着什么。当然,在那些主要通过文本和数字技术来表示的科学领域,比如数学可能是最适用的,并没有什么真正阻碍AI在数学方面变得非常擅长。没有真正的与现实世界的接口,你不需要做临床试验来验证某件事是否正确。所以我对此感到非常乐观。在像理论物理这样的领域会非常有趣。你会继续有应用派和理论派的分歧,但我认为可能会有非常有趣的新想法出现。也许会发现一些流行理论中存在的逻辑不一致性,这在过去几十年里发生过很多次。我认为我们会很快达到那个程度。我实际上……真正有趣的是,我认识的大多数科学家,那些真正在做科学研究的人,他们对这些技术最为兴奋。他们已经在使用了,我认为这非常棒。我认为我们希望……我真的希望我们能在科学上看到更多的突破。有一件事我不是专家,但我作为业余爱好者读了很多,那就是过去几十年来科学突破的放缓。以及一些理论认为这是因为我们对研究生等要求的专业化程度。我希望,总的来说,随着AI民主化专业知识的获取……我有一个完全个人的理论,它也将在很多方面有利于深度通才(deep generalists)。因为你能在很多领域理解相当多的东西,并利用AI,知道在哪里提示AI去探索,并整合那些领域,这将开始将智力上的力量从那些极其深入的人转移到那些实际上能够协调跨越许多不同领域的智能以实现突破的人。我认为这对社会将非常有益,因为大多数科学突破,难道不往往是跨领域传播非常重要的思想吗?我认为这将非常令人兴奋。
二十、 AI上下文窗口(Context Window)与知识产权
采访者: 上下文窗口(context window)有多重要?
Bret Taylor: 我认为它可能相当重要。特别是,如果你能把所有东西都给AI,然后指示它去做某事,这当然能简化与AI的交互。所以,并且假设它有效,你可以扩展上下文窗口,但注意力可能会被分散得很薄,答案的鲁棒性可能会有问题。但假设,为了论证起见,鲁棒性是完美的。我认为它可以极大地简化与AI的接口。并非所有用途都需要。我也认为,我们在谈论开源模型和API。我也认为,在软件行业中让我兴奋的,不一定是一个带有提示和响应的大型语言模型作为AI的产物,而是端到端的闭环系统,将大型语言模型作为基础设施的一部分来使用。我实际上认为软件中的很多价值将在于此。对于许多这样的应用,上下文窗口的大小可能重要,但通常因为你对正在执行的流程有上下文感知,上下文窗口就稍微不那么重要了。所以我认为它对智能本身很重要。有一个……我不记得是哪位研究员说的:“你把所有人类知识都放进上下文窗口,然后让它发明下一个东西。”这显然是一个简化的想法,但很有趣。但我实际上同样对大型语言模型的工业应用感到兴奋,有点像我的公司Sierra。如果你在一家零售商那里退一双鞋,这是一个相当复杂的过程,比如,是否在退货期内?你想在店内退货还是邮寄?你想打印二维码等等等等。这个过程的编排(orchestration)与模型本身同样重要。我实际上认为,随着我们……就像计算机一样,未来会有很多东西,计算机是体验的一部分,但它并不以计算机的形式显现出来。所以我实际上同样对那些应用感到兴奋,我认为在那些应用中,上下文窗口的重要性稍低。
采访者: 您认为AI的输出应该可以获得版权或专利吗?举个例子,如果我去美国专利局,下载一个比如爱乐压(AeroPress)的专利,然后上传到……GPT-4o Pro,我说……我现在还不能上传,因为你们还不让我处理PDF……但我上传到GPT-4,然后说:“嘿,基于这个专利,我能申请的下一个逻辑上的飞跃是什么?”它会给我图表和输出。假设我看了看,觉得:“嗯,这靠谱,我想申请这个专利。”我可以吗?
Bret Taylor: 我不知道如何回答这个问题。我不是知识产权方面的专家。但我认为会有一个有趣的问题:那是你的想法吗?因为你使用了工具来实现它。我认为答案可能是肯定的,你使用了工具来实现它。但我也认为,总的来说,智能的边际成本会大幅下降。所以很多……我认为总的来说,我们将处于一个新思想和智能产生的复兴时期。所以我认为这总体上是件好事。而且我认为,你那个见解的边际价值可能比几年前要低。
采访者: 我本来希望您会说,你知道,那会变得越来越不重要。因为我觉得所有的专利流氓和所有那些在某种程度上拖慢创新的东西……显然,有合法的专利被侵犯,应该有法律追索权。但如果我能每天去申请一百项专利,这似乎不应该被允许。这就是我的意思。
Bret Taylor: 嗯,总的来说,我认为公司……我认为专利在保护你发明并正在积极使用的东西时是有意义的,你试图……就像标准的专利法律依据。仅仅是生成一堆想法并申请专利,似乎对……的价值具有破坏性。
采访者: 这是我昨晚想到的对抗这个的想法,因为我在想,我不想有人这么做。我在想,如果现有技术(prior art)能使专利无效呢?所以我当时想,如果我只是建立一个实例,然后把它发布在一个网站上,没人需要看那个网站,这里有十亿个想法。
Bret Taylor: 完全正确。
采访者: 但它基本上是为所有东西创造了现有技术,所以你不能再在那上面竞争了。我不知道,我当时在想这个,觉得挺有趣的。
二十一、 Google Maps的诞生故事
采访者: 跟我讲讲Google Maps的故事吧,这现在已经成为传奇了,我想听您亲口讲述。
Bret Taylor: 这是我周末编程的故事,你想听的是这个吗?嗯,是的。所以,我先简单讲讲Google Maps的故事,缩减版。我们在Google推出了一个名为Google Local的产品,有点像一个黄页搜索引擎。可能大多数听众甚至不知道黄页是什么,但当时它是存在的。我们从MapQuest那里授权了地图,MapQuest是当时占主导地位的地图提供商。它在用户体验上有点碍眼,而且总感觉它可以成为Google本地搜索和导航体验中更有意义的一部分。所以拉里·佩奇(Larry Page)尤其极力推动我们加大对地图的投入。我们找到了这家小公司,如果我没记错的话,里面大概有四个人,由Lars和Jens Rasmussen创立,叫做Where 2 Technologies。他们制作了一个名为Expedition的Windows应用程序,那是一个非常漂亮的地图产品。它运行在Windows上,远在Windows应用不再流行之后,但他们……那是他们熟悉的技术。但他们真的……他们的地图模仿了英国的A-Z地图册,非常漂亮,他们对地图充满了热情。所以我们对他们进行了一次小规模的人才收购(acqui-hire),将Google Local团队和Lars、Jens的团队整合在一起,说:“好吧,让我们把这个Windows应用的好想法和Google Local的好想法结合起来,创造出全新的东西。”这就是后来的Google Maps。但在整合过程中有一些特殊之处。因为它是一个Windows应用,这在很多方面既帮助了我们也伤害了我们。帮助我们的一方面是,Google Maps之所以能够拖动地图,并且比之前任何Web应用都更具交互性,是因为我们设定的交互性标准是由一个原生Windows应用设定的,而不是由我们当时使用的传统网站设定的。我认为,正是因为目标定得如此之远——仅仅因为他们一开始就用了这个Windows应用,这只是Lars和Jens技术选择上的一个怪癖——我们才做出了比原本会做的更大胆的技术赌注。我认为如果我们没有从那个古怪的技术决策开始,我们最终的交互性会差很多。但另一件事是,这个Windows应用……有很多……很难描述2000年代初的情况,如果你没经历过的话,但XML当时非常流行。所以Windows和其他地方的大多数东西都是XML,而XSLT——一种将XML转换为不同XML的方式——是所有东西的基础。就像所有的企业软件都是XML这个,XML那个。所以类似地,当我们将其中一些想法放入Web浏览器时,我们有点像进入了自动驾驶模式,使用了大量的XML。这让所有事情都变得非常非常繁琐。所以Google Maps发布时带有一些非常棒的想法,比如可拖拽的地图,我们还用本地搜索技术做了很多事情,所以你可以叠加餐馆列表,这真的很棒。这是一次非常成功的发布。我们之后成了Google内部的红人。但它真的开始显露出陈旧。我们到了这样一个地步,我们决定要支持当时相对较新的Safari Web浏览器。这是在移动电话出现之前。Safari对XML的支持远不如Internet Explorer和Firefox。所以其中一位工程师在JavaScript中实现了一个完整的XSLT转换引擎,才让它工作起来。这简直是……一团糟 üzerine 一团糟 üzerine 一团糟。所以一个原本优雅、快速的Web应用程序很快就变成了……你知道,当时有很多拨号调制解调器和其他东西,所以你打开地图,它就是很慢,而且……这让我作为一个对自己的技艺非常自豪的人感到困扰。所以我变得非常有干劲,在一个周末和大量咖啡的帮助下,重写了它。
采访者: 但你重写了整个东西?
Bret Taylor: 是的,差不多是整个东西。可能又花了一周时间来解决bug。但是的,我在那个周末之后把它发给了团队。我之所以能做到……是的,我算是个不错的程序员,但你知道,你也经历了到那时为止的每一个糟糕决定。所以我很清楚我想要达到的输出。我已经在脑海中模拟过:“如果我能重来一次,我会这样做。”所以当我周五晚上把手放到键盘上时,我并不是在设计一个产品,我知道,我从一开始就参与了那个产品的每一个细节,包括也做了那些糟糕的决定,并非所有都是糟糕的决定。所以一切都非常清晰。我知道我想完成什么。对于任何在大型系统上工作过的工程师来说,你脑海中都有整个系统的蓝图。所以我了解一切。而且我也知道,工程和代码带有很强的作者自豪感。所以我有点……我真的想在周末完成它,这样人们就可以使用它,看到它有多快,并某种程度上克服任何可能对几个月前写的代码有保护欲的人。所以我真的希望原型能发布出去。所以我做了。然后……有趣的是,我之后再也没提过这件事。但我认为Paul Buchheit,Gmail的共同创造者之一,和我一起创办了FriendFeed,他在一次采访中提到了这个故事。所以现在突然间,好像每个人都在谈论它。我当时想:“好吧,谢谢你,Paul。”大家知道这件事让我有点尴尬,但这是一个真实的故事。而且XML简直是糟透了。
采访者: 那些构建了你实际上替换掉的系统的人,有没有给你很多非议?你也是那个团队的一员,但其他人投入了那么多,即使它是一团糟……
Bret Taylor: 我也写了很多。是的,我确定周围有一些议论。但实际上我认为好的团队想要做伟大的工作。所以我认为有很多人也对当时的状态持有建设性的不满。而且,你知道,我认为,那个写XSLT转换引擎的工程师,我认为他有点……那是很多工作,所以你不得不扔掉很多工作,这感觉不好。但特别是,Lars、Jens和我,我们想做出伟大的产品。所以我认为最终,每个人都觉得:“哇,太棒了!”你知道,我们的包大小从200k降到了20k,而且快得多,好得多。所以,总的来说,我认为好的工程文化,你不想有一种“准备,开火,瞄准”的文化,但我也认为你需要非常以结果为导向。我认为如果人们开始把他们的代码看得过于珍贵,这真的会阻碍前进的步伐。是的,我就举个例子,据我了解,很多早期的自动驾驶汽车软件是大量手工编码的启发式规则。很多聪明人认为,最终它可能会是一个更单一的模型,编码了许多相同的规则。在那次过渡中,你必须扔掉大量的代码,但这并不意味着这不是正确的事情。所以我认为总的来说,是的,可能有一些人的羽毛被捋乱了,但最终每个人都觉得:“那更快更好,我们干吧!”你知道,我认为这是正确的决定。
二十二、 对AI的长期投资与经济影响
采访者: 太棒了。给你另一个假设情景。我想让你在思考过程中分享你的内心独白。如果我告诉你,你今天必须把你净资产的100%投入一家上市公司,并且至少20年内不能动它。你会投资哪家公司?请带我了解你的思考过程。
Bret Taylor: 我真的不知道该如何回答这个问题。
采访者: 不给我答案,你会如何思考这个问题?
Bret Taylor: 是的,这是个好问题。首先,我会告诉你我如何思考,但我已经……有几年没担任上市公司CEO了,我很幸福地不那么关注公开市场了。特别是现在,估值显然上涨了很多。所以有……但因为这是一个长期问题,也许这不重要。我认为我现在会思考的是,在未来20年里,经济的哪些部分将从当前这波AI浪潮中受益最多?这不是投资20年的唯一方式,但这肯定是我理解的一个领域。特别是,我提到了我听到的Tyler Cowen的那段演讲片段,即AI可能会不成比例地惠及经济的不同部分。经济的某些部分,智力是其增长的限制因素,在那里你可以吸收几乎任意水平的智力,并产生几乎任意水平的增长。显然,所有这些都有极限,因为你改变了经济的一部分,它会影响经济的其他部分,这就是Tyler在他演讲中的观点。但我可能会考虑这一点,因为我认为在20年的时间跨度内,社会的某些部分将无法极其迅速地改变。但会有一些部分可能会,而且很可能是那些目前智力是稀缺资源的领域。然后我可能会尝试找到那些将从中获得不成比例收益的公司。我猜这就是为什么像Nvidia的股票现在如此之高的原因,因为如果你想获得下游收益,Nvidia可能会从所有AI投资中受益。我不确定我会在20年的时间跨度内这样做,只是假设基础设施会发生变化。所以我没有一个明智的答案,但如果我要做那个练习,我会那样思考。
采访者: 我很喜欢这个。您的直觉认为经济的哪些领域受到智力的限制?不仅仅是经济,也许政治家们也可能受到这个限制,并从中受益,从而国家可以从AI中获得巨大收益,释放其经济的增长和潜力。但我认为,或许只是限定一下问题:您认为经济的哪些领域受到智力或聪明工人的限制?如果是这样,那也是智力的另一种限制。
Bret Taylor: 是的,我认为有两个可能会受益匪浅的领域是技术和金融。你知道,如果你能做出比竞争对手更好的金融决策,你将产生超额回报。这就是为什么在过去,比如说30年的机器学习历史中,对冲基金和金融服务机构,从欺诈预防到真正的投资策略,一直是一个投资领域。软件也类似,正如我们讨论过的,我认为到某个时候,我们将不再受软件供应的限制,但我们现在还远未达到那个程度。你正在把一直以来的稀缺资源——软件工程师——变得不再稀缺。我认为因此,如果你仅仅思考那个行业能增长多少,我们不知道。但在软件工程作为一种资源的约束下,我们已经被限制了很久。谁知道未来20年会怎样,但我们会发现极限在哪里。但对我来说,从智力上讲,那里存在巨大的增长空间。然后总的来说,我认为像处理信息这样的领域将会受益匪浅。所以我认为……我会在20年的时间跨度内思考的是二阶和三阶效应,这就是为什么我没有一个明智的答案。如果你让我把所有的钱都投进去,我会考虑一段时间。可能会用一点GPT-4o Pro来帮助我。但是,你知道,因为你可能在短期内产生大量增长,但然后,如果每个人都这样做,整个行业就商品化了。你知道,过去,在冰箱发明之前,冰是非常昂贵的东西,现在它是免费的。所以我认为如果你谈论的时间跨度是20年,真正思考清楚这些是非常重要的。这就是为什么在没有提前思考这个问题的情况下,我……你可能会在别处显得相当简单化,但我会说软件和金融是我认为有理由应该受益匪浅的领域。
二十三、 工作与家庭生活的平衡
采访者: 我很喜欢这个回答。您如何平衡拥有一个年轻的家庭和再次运营一家初创公司?
Bret Taylor: 我工作很多。我不是……我非常关心并且热爱工作。所以有一点是,我……虽然生活中总有权衡,但如果我不热爱工作,我就不会像现在这样投入这么多。但我就是热爱创造事物,热爱产生影响。所以我早上会兴奋地跳下床,锻炼,去工作,然后花时间和我的家人在一起。总的来说,可能,老实说,第一点(工作)我做得不完美,第二点(家庭),我没有太多的爱好。你知道,我基本上就是工作和陪伴家人。我们第一次谈话时,你看到我背景里有几把吉他,我已经有一段时间没碰它们了。我的意思是,我偶尔会拿起它,但我你知道,没有投入任何时间。我对此也没有任何遗憾。我对我们在Sierra构建的东西充满热情,我对OpenAI充满热情,我非常爱我的家人,所以我对此真的没有任何遗憾。但我基本上就是……生活就是关于你把时间花在哪里,我的时间花在工作和家庭上。所以我就是这样做的。我不知道我是否特别平衡,但我也不追求平衡。我真的以此为傲,而且我热爱,我热爱工作。
二十四、 将Sierra打造成持久的公司
采访者: 在两次出售了您创办的公司之后,这如何影响您对Sierra的看法?您是在想:“哦,我建这个是为了卖掉它”,还是您有不同的想法,比如:“这是我毕生的事业,我建这个是……”那不会发生?
Bret Taylor: 我绝对打算让Sierra成为一家持久的公司和一家独立的公司。但老实说,每个企业家对于每家公司都是这样开始的。所以,你知道,我非常感谢Facebook和Salesforce收购了我之前的公司,希望我在那两家公司都产生了影响。但你不会一开始就,至少我从来没有一开始就说:“嘿,我想创办一家公司来卖掉它。”而且,但我实际上认为,对于Sierra,我们在市场上拥有巨大的吸引力。我真的认为Sierra在帮助消费品牌构建面向客户的AI智能体方面处于领先地位,我对此感到非常自豪。所以我真的看到了通往那里的道路。我跟Clay开玩笑说,我想成为一个坐在门廊上的老人,抱怨Sierra的下一代领导者不再听我们的话了。我希望这个东西不仅能持久,而且能比我活得更久。我认为……实际上,我不认为我们谈过这个,但对我来说这是一个非常有趣的时刻。当Google从它在山景城的一栋楼搬到第一个公司园区时,我们搬进了硅谷图形公司(Silicon Graphics, SGI)的园区,就在山景城的Shoreline大道附近。SGI曾是一家非常成功的公司,足以建造一个园区。当我们……实际上相当尴尬,我们搬进了园区的一半,他们还在另一半。他们就像……我们是这家冉冉升起的新公司,他们在衰落。然后当Facebook,当我们搬出我们在帕洛阿尔托的第二栋楼时,那是一栋稍大的楼,我想我们是从惠普租的。但当我们最终拥有一个园区时,它是来自太阳微系统公司(Sun Microsystems),他们经历了甲骨文的收购,并且一直处于衰落状态。对我来说有趣的是,SGI和Sun都曾在我有生之年创立并发展到显赫地位——显然我可能那时还小,但肯定在我有生之年——足以建造整个公司园区,然后又衰落得足够快,以至于将那个公司园区卖给一家新的软件公司。对我来说,经历过两次这样的事情,搬进一个从前任所有者那里来的“二手”园区,这是一个非常鲜明的提醒:科技公司并不能理所当然地获得未来的成功。我认为我们现在实际上会看到这一点,伴随着AI。我认为AI将改变软件的格局,从生产力工具转变为实际完成任务的智能体。我认为这将帮助一些公司,对他们来说,这放大了他们现有的价值主张。它也将严重伤害另一些公司,对他们来说,传统软件的基于席位的模式将非常迅速地……并真正损害他们。所以当我思考建立一家持久的公司意味着什么时,在我看来,那是一个非常非常艰巨的任务。因为这意味着不仅要创造在未来10年财务上持久的东西,还要建立一种文化,让公司能够真正进化以满足社会和技术不断变化的需求,而且是在一个变化速度历史上前所未有的时代。所以我认为这是有史以来最有趣的商业挑战之一。我认为这与文化的关系和与技术的关系一样重要。因为Sierra今天的每一行代码,在未来5年,更不用说30年后,都将完全不同。而且我认为这非常令人兴奋。所以当我想到它时,我充满了能量。因为它极其困难,而且现在比以往任何时候都更难,去创造出超越你自身存在的东西。但我认为这是一家公司的终极衡量标准。
二十五、 再论AI智能体:定义与应用类别
采访者: 您提到了AI智能体。您会如何定义它?什么是智能体?
Bret Taylor: 我会先更广泛地定义它,然后告诉你我们在Sierra是如何思考它的,那是一个更狭窄的视角。“智能体”(agent)这个词来源于“能动性”(agency),我认为它意味着赋予软件自主推理和决策的机会。我认为对我来说,这就是它的全部含义。我认为它有很多不同的应用。我认为有意义的三个类别是——我会以Sierra的类别结束,这样我可以多谈一点: 一是个人智能体。我确实认为大多数人可能会拥有一个,也许是几个,他们每天使用的AI智能体,这些智能体本质上是放大他们作为个体的能力。你可以做一些常规的事情,比如帮助你分类邮件,到帮助你安排假期——比如你飞回埃德蒙顿,帮你安排行程——再到更复杂的事情,比如:“我要去向老板要求升职,帮我角色扮演一下。”或者“我正在为这份工作准备简历,帮我做一下。”再到“我正在申请新工作,帮我找到我没想到的、应该申请的公司。”我认为这些智能体将非常强大。我认为构建这样的产品可能非常困难,因为当你想到你每天与之互动的所有不同服务和人时,它几乎涵盖了一切。所以它必须泛化很多才能对你有用。而且由于个人隐私等问题,它必须工作得非常好,你才会信任它。所以我认为这需要一段时间才能实现。我认为会有很多演示,但要达到健壮需要时间。 第二类智能体,我会说,是真正在公司内部扮演一个角色(persona)。比如编码智能体、律师助理智能体、分析师智能体。我认为这些已经存在了,我提到了Cursor,有一家叫做Harvey的公司制作法律智能体,我相信在分析师领域也有很多。这些智能体完成一项工作,它们更狭窄。但它们在商业上非常有价值,因为大多数公司已经雇佣了人或顾问来做那些事情,比如分析你供应链的合同,这是一种常规的法律工作,但非常重要,AI可以做得非常好。所以我认为这就是为什么……这是经济中我认为非常令人兴奋的领域,我对这个领域的所有初创公司都感到非常兴奋,因为你基本上是在把过去由人和软件结合的东西,真正变成解决问题的东西。通过缩小自主性的领域,你可以有更健壮的护栏,甚至用现有的模型就能实现足以在商业上可行的效果。而且,顺便说一下,这也改变了这些模型的总可寻址市场(TAM)。比如,我不知道三年前法律软件的总可寻址市场是多少,但应该不会很大。我……我说不出一家法律软件公司的名字,我可能应该知道,但我就是想不起来。但如果你想想我们花在律师身上的钱,那可是一大笔。所以你最终会发现,你极大地扩展了可寻址市场。 我们所在的领域,我认为有点特殊,那就是公司的品牌化的、面向客户的智能体。我认为它特殊的原因是,有人可能会说我们是在帮助做客户服务,这是一个角色。但我确实认为它比那更广泛。因为如果你想想一个网站,比如你的保险公司的网站,试着列出你能在上面做的所有事情:你可以查股价,你可以查管理团队,你可以比较他们的保险公司和所有竞争对手,你可以提交索赔,你可以……购买,你可以捆绑你的房屋和汽车保险,你可以……添加一个家庭成员到你的保单中。你可以在上面做一百万件事。基本上在过去30年里,一个公司的网站(单数)已经成为了你能与那家公司做的所有事情的集合。我喜欢把它想成是公司的数字化体现。这就是我们在Sierra帮助客户做的事情:帮助他们构建一个能够完成所有这些功能的对话式AI。所以,我们的大多数客户从客户服务开始,这是一个很好的应用,因为没人喜欢排队等待,而且拥有一个能够完美访问信息、多语言、富有同理心的东西简直太棒了。但是,当你的数字化前门是一个对话式AI时,人们会对它说任何他们想说的话。我们现在正在做产品发现、考虑购买决策。回到保险的例子:“嘿,我有一个15岁的女儿,我真的很担心她长大前保费的成本。告诉我……我应该选择哪个计划?告诉我为什么你会比你的竞争对手更好?”这是一个非常复杂的互动,对吧?这不是你能做一个网页来实现的。不。但这确实是一场很棒的对话。所以我们真的渴望,当你在野外遇到一个品牌化的智能体时,我们希望Sierra是驱动它的平台。
采访者: 这非常重要,因为至少在加拿大有一个案例,加拿大航空的一个AI智能体虚构了一个丧亲政策。
Bret Taylor: 对。
采访者: 但他们被判需要对智能体所说的负责。
Bret Taylor: 是的。我的意思是,事实证明……而且那是一个AI智能体,整个过程没有人类参与。
Bret Taylor: 看,如果ChatGPT虚构了关于你品牌的一些信息,这是一回事。如果是你自己的AI智能体虚构了关于你品牌的信息,那是另一回事。所以标准就更高了。所以这些智能体的鲁棒性、护栏,当它是你自己的、带有你品牌的时候,一切都更重要。所以这更难,但我也对此感到非常兴奋。因为这有点过于理论化,但我真的喜欢这个框架:如果你想想一个现代网站或移动应用,它本质上是你创建了一个你可以选择的功能目录。但其中主要的能动者是网站的创建者,比如你能做的选项范围是什么。当你有一个代表你品牌的AI智能体时,能动性就转移到了消费者、客户身上。他们可以用任何他们想要的方式,以多方面的方式表达他们的问题。所以这意味着,你的客户体验从你决定放在网站上的枚举功能集,变成了你的客户问的任何问题。然后,你知道,你可以决定如何满足那些请求,或者你是否想要满足。但我认为这真的会改变动态,变得真正赋予消费者权力。正如你所说,我的意思是,那个加拿大航空的案例之所以存在,就是我们存在的原因。公司如果试图自己构建这个,有很多方式会搬起石头砸自己的脚。但特别是,你的客户体验应该……不应该与某一个模型绑定,更不用说当前这一代模型了。所以有了Sierra,你可以一次性地以一种从所有技术中抽象出来的方式定义你的客户体验。它可以是聊天,它可以是打电话给你,它可以是所有这些东西。随着新模型和新技术的出现,我们的平台只会变得更好,但你不需要重新实现你的客户体验。我认为这非常重要,因为,你知道,我们刚才在谈论过去两年发生了什么。你能想象如果你是一个像ADT家庭安防这样的消费品牌,思考在所有这些变化面前,你如何维护你的AI智能体吗?这甚至不……这是不可行的。我的意思是,这不是你作为ADT所做的事情。所以他们与我们合作来构建他们的AI智能体。
二十六、 警惕并克服企业自满情绪
采访者: 您如何抵御自满情绪?很多这样的公司,也许不特指科技公司,它们变得庞大,占据主导地位,然后就松懈了,这就为竞争对手打开了大门。在一些公司中,官僚主义几乎存在一种自然的熵增,而官僚主义又播下了失败和竞争的种子。您如何持续地抵御这种情况?
Bret Taylor: 在公司里做到这一点确实是一件极具挑战性的事情。我观察到的导致企业自满的两件事是:一是官僚主义。我认为官僚主义的根源往往在于,当出现问题时,公司会引入一个流程来解决它。在比如说30年的时间序列里,所有那些出于良好理由、怀着良好意图创建的流程,层层叠加起来,最终变成了一个官僚机器,其中许多规则和流程的制定原因甚至很少被组织记住,但这造成了一种自然的惰性。有时这种惰性可能是好的,你知道,就像……如果你最终……肯定有过这样的故事,高管空降进来,准备、开火、瞄准地推行新战略,结果适得其反。但通常它可能意味着,面对技术转变或新的竞争对手,你就是无法足够快地行动来应对。第二件我认为更微妙的事情是,随着公司规模的增长,其内部叙事可能比来自客户的真相更强大。我记得有一次,在智能手机大战最激烈的时候,我去微软园区拜访一位朋友。我在西雅图-塔科马机场下飞机,开车到雷德蒙德,进入园区。突然间,我看到的每个人都在使用Windows Phone。我猜那一定是要求,无论是正式的还是社交上的,如果你用别的手机,你肯定显得不合群。从我当时的角度来看,那场战争已经输了。很明显是苹果和谷歌在iOS和Android上的双雄争霸。我记得我坐在大厅里等我的朋友来接我过安检,我对微软的一个人发表了一个评论,不是对抗性的评论,但我对他说:“嗯……你们是不是被要求用Windows Phone?”诸如此类,我只是有点好奇。然后我得到了一个非常大胆的回答,大意是:“是的,我们会赢!我们正在接管智能手机市场!”我当时想……你知道,我没说什么,因为那有点社交尴尬,就像:“不,你们不会赢,你们四年前就输了。”但是那里有某种……有某种流程,有某种事情正在发生,阻止你接触到现实。
采访者: 而这就是问题所在。如果你想一下,如果你曾经在一家大公司工作过,你知道,当你在一家小公司工作时,你关心你的客户和你的竞争对手,你会感受到路上的每一个颠簸。当你是一个……比如说某个部门的初级副总裁,你在你的CEO下面八级,你有一套目标和结果,你可能专注于……我想从初级副总裁升到高级副总裁,这对我来说就是成功。你最终会陷入这种对内部世界的短视关注,就像你的孩子会专注于他们高中的社交动态,而不是外面的世界一样。这可能也是理性的,顺便说一下,因为你知道,他们的社交生活可能更多地取决于他们高中那1万个孩子,而不是外面的所有事情。但这正是这些大公司内部人员的生活。所以你最终会……你知道,如果你有一个非常资深的产品负责人说:“我们的这个竞争对手说他们更快,但我们的下一个版本会好得多!”然后每个人都说……突然间,那就变成了“Windows Phone会赢!”这就是每个人都在说的。你真的相信了,因为你遇到的每个人都说同样的话。你最终会通过那个镜头来反映客户的轶事。你最终会得到这种由这种短视的故事叙述的总和所体现出来的现实扭曲力场,这种扭曲力场存在于公司内部。有趣的是,你知道,一种文化能够相信某件事的能力,实际上是该文化的一大优势,但它也可能导致这种情况。所以,官僚主义和不准确的故事叙述的结合,我认为是公司走向衰亡的原因。看看那些像黑莓这样的公司,或者东芝,或者……你真的可以……你知道,当飞机坠毁时,还在讲述你没有坠毁的故事。而且,然后类似地,正如我说的,文化上你仍然可以让那架坠毁飞机后排的人在想:“我什么时候能升到SVP?”而你会想:“这……”你知道。这就是……我的意思是,我见过一百次了。所以我认为这真的归结为领导力。而且我认为,大多数伟大公司拥有的一个特点是,他们对客户痴迷。我认为自由市场不会说谎。所以我认为对于任何持久的文化,尤其是在像软件这样变化如此之快的行业中,最重要的事情之一是:你的员工离客户有多近?客户的直接声音能在多大程度上成为你决策的一部分?我认为这是你需要不断努力的事情。因为那个……你知道,编号为30462的员工,他或她如何真正直接地听到客户的声音?这实际上不是一个简单的问题。是直接的吗?是过滤过的吗?有多少层过滤?
采访者: 完全正确。
Bret Taylor: 然后我认为领导力的另一部分是,你知道,我们谈论官僚主义,流程是为了服务于业务需求而存在的。中层管理者通常不会因为移除流程而获得赞誉,他们往往因为事情出错而被追究责任。我认为真正需要自上而下的领导力来消除官僚主义。而且,这并不总是舒适的。当公司取消管理层级或……所有受影响的人都会……就像抗体一样。而且有充分的理由,我的意思是,这说得通,他们的生活受到了负面影响或其他什么。但这几乎必须来自高层,因为你需要提供掩护。几乎可以肯定的是,顺便说一句,移除流程很可能会出问题。我的意思是,流程的存在通常是有原因的。但当它们无休止地积累时,你最终就会得到官僚主义。所以这是我总是……你走进一家真正官僚的公司时,你能闻到那种味道:不准确的故事叙述,流程优先于结果。这简直……它会吸走你的能量,你能感觉得到。
二十七、 个人成功的定义
采访者: 这是个很棒的答案。我们总是用同一个问题来结束这些访谈,那就是:对您而言,什么是成功?
Bret Taylor: 对我而言的成功……我们谈到了我如何分配时间,在家庭和工作之间……是拥有一个幸福健康的家庭,并且能够和我的联合创始人Clay在我的余生中一起工作,将Sierra打造成一家基业长青的公司。对我来说,那就是成功。
采访者: 感谢您的收听和与我们一起学习。要获取完整的剧集列表、节目笔记、文字记录等,请访问fs.blog/podcast 或直接搜索 The Knowledge Project。最近我开始在访谈结束后录制我对访谈的反思和想法。我会坐下来,强调那些让我印象深刻的关键时刻,我还会谈论与其他剧集的联系,以及那些让我思考但可能还没有完全弄清楚的东西。这部分内容提供给 The Knowledge Project 的支持会员。您可以访问fs.blog/membership 查看节目笔记中的链接,今天就可以注册。我的反思将直接出现在您的私人播客源中。您还可以跳过剧集开头的所有广告。Farnam Street 博客也是您可以了解更多关于我的新书《清晰思考:将平凡时刻转化为非凡成果》(Clear Thinking: Turning Ordinary Moments into Extraordinary Results)的地方。这是一本变革性的指南,它将工具交到您手中,让您掌控自己的命运,提升决策能力,并为自己创造无与伦比的成功。在fs.blog/clear了解更多。下次再见。
要点回顾
一、 引言与AI智能体定义
- 嘉宾:Bret Taylor,初创公司Sierra的联合创始人兼CEO。
- Sierra:帮助公司构建直接与客户互动的AI智能体(AI agents)。
- AI智能体定义:词源来自“agency”(能动性),意味着赋予软件自主推理和决策的机会。
- Sierra的目标:帮助客户构建能做到自主推理和决策的对话式AI。
- Bret Taylor背景:创立过公司,经历过收购,在大型科技公司内部工作过。
- 预告:AI将改变软件格局,建立持久公司的挑战,Google Maps的故事。
二、 AI领域的“顿悟时刻”
- 第一个“顿悟时刻”:DALL-E发布(约2022年夏),特别是生成的“牛油果椅子”图片。
- 当时反应:意识到计算机能做此前未曾想过的事情(创造性,而非仅基于规则),需要更关注大型语言模型(LLM)和OpenAI。
- 第二个“顿悟时刻”:ChatGPT发布(约6个月后,离开Salesforce后)。
- 影响:此后持续思考AI。
三、 创始人在大公司内的经历与身份转变
- Bret Taylor经历:公司被Facebook (FriendFeed)和Salesforce (Quip)收购;在Facebook升任CTO,在Salesforce升任联席CEO。
- 挑战:创始人融入被收购公司是一个艰难的转变。
- 成功收购案例:YouTube、Instagram(但创始人未长期留任)。
- 创始人特质:创业不仅是建业务,更是身份认同;对产品、客户、媒体、竞争对手等各方面都非常个人化。
- 收购中的转变:涉及商业运作和身份认同的转变,需从创始人/CEO/CTO转变为大公司的一员。
- 成功的关键:拥抱新身份,这是处理政治、官僚体系等问题的前提。
- 被收购员工的挑战:他们并未主动选择被收购。
- Bret Taylor在Salesforce的实践:保持自我意识,努力转变身份,成为Salesforce的一部分,而非仅代表Quip。
- 部分创始人的选择:可能仅进行交易性交接(“cash the check”)。
- 收获:在Facebook和Salesforce学到很多,但需要付出努力改变自我认知。
四、 收购流程的洞察与实践
- 经验影响:在Salesforce主导收购(如Slack)时,运用了被收购的经验。
- 收购方法:更具同理心和现实主义。
- 收购阶段:决策期、尽职调查期、整合期、整合后期。
- 决策期特点:相互销售的过程,寻找公允价值,围绕协同效应()进行故事叙述。
- 风险:故事叙述可能简化或粉饰现实(如创始人控制权、团队整合方式)。
- 重要性:需讨论“枯燥但重要”的细节,避免触及“第三轨”。
- 明确成功标准:收购后对“成功”的定义,收购方与被收购方管理层往往存在分歧。
- 建议方法:在承诺收购(达成高层条款)之后、最终完成交易之前,进行更深入、更困难的对话。
- 对话时机:利用尽职调查和法律文件准备的“尴尬等待期”,此时双方已承诺,但权力尚未完全失衡,有助于建立信任。
- 被收购创始人的责任:应为收购成功承担责任,认识到自己已是更大整体的一部分。
五、 董事会的角色与创始人领导的公司
- 董事会经验:Shopify、OpenAI。
- 董事会价值:作为顾问,了解其他公司运作,学习在不亲自执行的情况下产生影响、增加价值,从而成为更好的领导者。
- 偏好:加入由创始人领导的公司董事会,通常是创始人寻求他的经验。
- 信念:创始人通常能为公司带来更好的结果,有权做出更大胆、更具颠覆性的决策(相较于职业经理人,Satya Nadella是例外)。
- 创始人特权实例:Toby Lütke、Marc Benioff、Mark Zuckerberg、Sam Altman等,利益相关者(尤其是员工)更倾向于给予信任。
- 挑战:从创始人领导过渡到非创始人领导(如Amazon、Microsoft)。
- 个人收获:向Toby、Sam、Marc Benioff等创始人学习,观察他们的运营方式并受启发。
六、 “创始人模式”(Founder Mode)的解读
- 背景:提及Brian Chesky的“创始人模式”。
- 观点:观点微妙,并非简单。
- 赞同精神:创始人对公司各项决策负有深度责任。伟大的公司如此运作(避免委员会决策、流程优先于结果)。
- 当前必要性:面对AI带来的颠覆,需要果断决策。
- 风险:可能被曲解为公开的微观管理,导致负面结果。
- 类比:模仿乔布斯外在(高领毛衣、斥责员工)而非核心(品味、判断力)。
- “创始人模式”被滥用:可能导致员工痛苦,无法规模化。
- 平衡:需要自上而下的问责制,也要有赋权和负责任的个体。避免为取悦领导而决策。
七、 工程师作为领导者与第一性原理思维
- 观点:工程师可以成为优秀的领导者。
- 成长路径:优秀的CEO/创始人通常始于一个专业领域,然后扩展到业务的各个方面。
- 商业成功要素:多方面,不仅是工程/产品,市场进入策略、公共政策等也很重要。
- 创始人转变:需从单一角色(工程师/产品经理)转变为CEO,应对招聘、销售、政策等多方面需求。
- 工程师优势:第一性原理思维、系统设计思维,有益于组织设计和战略制定。
- 成长瓶颈:若工程师不愿提升身份认知以适应公司需求,可能导致公司增长停滞。
- 观察:硅谷许多优秀CEO有工程背景,但这不足以支撑公司规模化。
- 哲学问题:是否所有商业问题都是工程问题?
- 工程思维益处:第一性原理、探究根本原因而非表面症状。例:用服务器故障根因分析法分析销售失败原因。
- 工程思维风险:过度分析(如沟通领域)、忽视人性因素(如企业销售中的人际关系)、分析瘫痪、过度理性化人际问题。
八、 在商业中应用第一性原理(以Sierra为例)
- 当前重要性:AI市场变化迅速(两年内从鲜为人知到ChatGPT普及和企业广泛转型)。
- 必要性:若仅基于眼前事实而非第一性原理思考,难以做出正确战略决策。
- 示例 - 软件工程:角色正从代码作者转变为代码生成机器的操作者,招聘需着眼未来(如2年后)。
- Sierra实践 - 定价模型:基于结果收费(按解决的问题付费),而非软件许可费。原则:AI完成任务,应为完成的工作付费。
- Sierra实践 - 交付模型:交付可工作的AI智能体,而非软件工具包让客户自行配置。原则:软件开发变易,交付模式也应改变。旨在重新构想未来软件公司的形态。
九、 AI驱动下软件工程的未来
- 当前状况:工程师使用集成LLM的IDE工具(如Cursor)加速代码生成,这似乎是局部最优解。
- 问题:当前生成的代码(如Python)是为人类编写者设计的(易用性优先于健壮性),由AI生成后仍需人类审查(困难)。导致大量生成可能有同样缺陷(安全漏洞、功能bug)的代码。
- 前提假设:代码生成成本趋近于。
- 核心问题:基于此前提,应设计怎样的编程系统?
- 对比 - Rust:为安全而非编写便利性设计,优化正确性。
- 未来需求:需要能让人类快速评估AI生成代码正确性的编程语言。
- 机遇:形式化验证(将程序转为数学证明)可能更有价值。
- 设想:结合优化的语言设计(结构正确/安全、验证原语)+ 验证工具 + 健壮的测试(AI生成)-> 使操作者效率提升20倍,产出健壮性提升20倍。
- 当前锚点:IDE在代码智能体时代的重要性似乎下降。
- 问责:谁对AI生成的代码质量负责?
- 预感:需要为操作者角色设计新系统,而非仅自动化现有编写流程,才能实现更健壮、更高效的开发。这是一个研究性问题。
- AI自检代码:可能(“turtles all the way down”)。
- 关键:需要一个系统,让人类操作者来协调所有这些AI任务。
- 历史启示:计算范式变革(Unix/C, GUI/Smalltalk, 网络/分布式系统)催生了新的软件开发隐喻。
- 当前时代:重要性堪比GUI,需要从第一性原理出发设计新的编程系统,使其感觉“原生”,赋予操作者更多控制权。
十、 AGI的定义与实现要素
- 一个可能的定义:一个系统能在计算机上完成任何人类能完成的任务,并且表现相当或更好。
- 定义的局限性:不精确。
- “G”(通用性)是关键:能在未明确训练的领域展现智能,能在新领域达到或超过人类水平。
- “在计算机上”的限定:因为数字接口允许AI交互。
- 应用速度不均:即使达到AGI,其在不同领域的泛化速度可能不同,受非智力因素(如医药领域的临床试验、社会结构)限制。
- 参考:Tyler Cowen关于经济不同部门吸收智能速度差异的观点。
十一、 AGI进展的驱动因素与瓶颈
- 三大主要输入:数据、算力、算法。
- 数据:Transformer模型使更大模型、更多数据训练成为可能。早期Scaling Laws显示规模越大越智能。担忧:“数据墙”(可用文本数据减少)。机遇:合成数据、模拟(基于物理等原则约束,质量更高,如自动驾驶)。推理模型生成新想法可能突破数据墙。
- 算力:数据中心投资、Nvidia增长。突破:推理模型(推理时投入更多算力提升智能)。挑战:资本密集、硬件价值半衰期短。
- 算法:最大突破是Transformers("Attention is All You Need")。后续重要进展:思维链(Chain of Thought)、对思维链的强化学习(如GPT-4o)。
- 现状与展望:每个领域都有可见的平台期,但各领域突破不断。由于巨大的研发投入,不太可能同时在三个领域都停滞不前,对AGI进展保持乐观。
十二、 AI自我改进与安全考量
- 问题:AI何时能比人类更好地改进AI?
- 关联:AGI的自我改进能力,对发展速度和安全都有深远影响。
- 现状:某种程度上已在发生(工程师使用编码助手)。未来:从编码助手到编码智能体。
- 类比:辅助驾驶 vs 完全自动驾驶,何时跨越?
- 必要性:并非所有场景都希望完全移除人类监督(问责制)。
- 人类责任:对产出的软件负责(安全、可靠、功能、护栏)。
- 安全措施:随着模型进步,需开发更高级的安全措施/约束,并利用AI监督AI。
- 前提:实现完全自主不仅是技术问题。
十三、 AI惠及全人类、安全与监管
- OpenAI使命:确保AGI惠及全人类(不仅仅是安全)。
- 安全是前提:类似希波克拉底誓言“首先不造成伤害”。但目标更广:普及性(数字鸿沟)、最大化益处/最小化弊端(就业冲击 vs 医疗/教育民主化)。
- 整体视角:安全是基础,但最终目标是惠及人类(像医生不仅要无害,还要治愈)。
- 安全目标:确保AGI与创造者/操作者意图一致,成为有益工具。处理失准和意外后果。
- 历史教训:工程灾难(桥梁、三哩岛)涉及技术、官僚等多因素。安全不仅是技术问题。
- 社会影响:技术本身无好坏,取决于应用。社会结构很重要。决策权、问责权是长期问题。
- 监管张力:
- 确保前沿模型研发惠及人类。
- 地缘政治:希望AGI由西方民主国家而非极权政府创造。
- 监管者职责:平衡确保技术组织负责任与维持西方竞争力。
- 观点:西方引领AI很重要。OpenAI致力于惠及人类。需多方对话。
- 风险:监管可能意外减缓西方进展。问题复杂。
十四、 基础模型、前沿模型、经济模式与开源
- AI创业门槛:利用云服务,初创公司可以快速起步。
- 大厂投入:OpenAI/微软等投入巨大(可能更倾向私有)。
- Meta案例:投入巨资开发Llama并开源,其动机?
- 概念区分:
- 基础模型(Foundation Models):智能系统的基石(语言、图像、音频)。大多数公司应基于现有模型进行微调或使用,而非从头构建。类似云基础设施,由高资本投入公司训练,用户租用。
- 前沿模型(Frontier Models):处于技术最前沿(如GPT-4o),由追求AGI的实验室构建。
- 商业逻辑:
- 追求AGI:若成功,经济价值巨大,需持续投入研发下一代前沿模型。
- 构建非顶尖基础模型(如第四名):投资回报率存疑,成本高昂,用户为何不选前沿模型或开源模型?
- 市场趋势:当前模型开发者过多?已出现整合。未来可能类似云计算,少数高资本公司主导,开发者/消费者租用。
- 投资视角:AI资产被视为“升值最快的资产”。营收规模惊人(OpenAI, Anthropic, MS, Amazon)。大厂无法袖手旁观。但资助只做预训练的初创公司风险高(差异化?)。
- 营收模式:OpenAI、微软(Teams+Copilot)、亚马逊(AWS+内部应用)均有清晰模式。Meta的Llama不直接收费。
- Meta战略(据Mark Z.):开源是其开发者生态策略的一部分(如React)。可能意在商品化互补品,吸引开发者。社会层面看,多元参与者和动机是好事。
- 性价比演变:GPT-4o(mini)等模型质优价廉,可能比自托管开源模型更经济。推理成本不容忽视。
- 复杂性:AI经济模式复杂(硬件特殊、服务成本高、蒸馏等技术改变成本结构)。
- 开发者现状:选择丰富(性能/价格/质量权衡),类似Kafka开源版与Confluent商业版并存。
十五、 AI/AGI的可及性与应用
- 市场格局:不太可能是赢者通吃,将有多种选择。
- OpenAI角色:技术领先 + ChatGPT普及,将扮演重要角色。
- ChatGPT:已成为消费者眼中AI的代名词和主要入口。
- AGI形态:如何使用和封装?部分是结果(如药物发现),部分是个人交互工具。
- ChatGPT应用实例:法律咨询(租约)、医疗信息解读(化验单)、商业策略批判(Sierra内部应用)。
- 形态的简洁性:以聊天形式交互,几年前并不明显。
- 使命契合:简洁、易用(含免费版)的形态有助于惠及全人类,将成为社会定义和使用AGI的核心方式。
十六、 优化AI提示(Prompt)与智能体技术
- Bret Taylor技巧:使用快速模型(如GPT-4o)优化、完善提示,再提交给更强大的推理模型(如GPT-4 Pro)。类似产品经理打磨需求文档。分阶段进行。
- 自我提示:让ChatGPT为任务生成优化的提示(与上述技巧类似)。
- 其他技术:自我反思(模型评估自身输出或思维链)。Sierra用于检测幻觉、验证决策。为复杂任务生成思维链。
- 行业趋势:探索如何从模型中获取更健壮、精确的结果。
十七、 国家层面AI发展的政策与基础设施
- 关键要素:算力(涉及电力、土地、巨额资本融资、采购、运营)。政策制定者可在此施加影响。电力需求巨大。
- 人才:吸引研究人员和实验室(通常会跟随算力资源)。
- 地缘政治:国家安全考量,前沿模型敏感性。国际地位影响合作(实验室/政府信任、出口限制)。
- 核心抓手:基础设施是当前政策关键。算力是限制性资源。
- 加拿大启示:AI活动不足、人才流失、基础设施未能回流。应关注算力基础设施建设。
十八、 AI对教育的未来与所需技能
- 核心优势:个性化教育。
- 实例:Synthesis Tutor(AI家教被萨尔瓦多采用),针对性教学,效果显著。
- 教师角色转变:成为学习旅程的协调者,利用AI为不同学习风格的学生生成定制化内容(播客、卡片、可视化)。
- 民主化:AI使优质教育资源(辅导、备考、文书修改)普及化,减少因经济条件造成的机会不平等。
- 日常应用:解答孩子提问、解释复杂概念(莎士比亚)。
- 期待:公立学校系统接纳ChatGPT等工具,提升教学效果,满足个性化学习需求。
- 未来技能:难以预测。学习如何学习和如何思考依然重要(基础读写算、科学原理)。
- 风险:固守于当前工具。
- 示例(软件工程师):角色从打字速度转向判断力、能动性、架构设计、与AI协作。
- 类比(会计师):使用Excel并未贬低其价值。工具在变。
- 挑战:以上一代工具熟练度定义工作价值的人将受冲击。需要再培训,拓宽价值认知。
- 变革速度:超乎寻常,对个体适应提出高要求。未来5年对部分岗位可能剧烈动荡。
- 长远看(25-50年):乐观。需社会、企业、个人保持开放心态,进行再培训和职业重塑。
十九、 AI在科学发现与研究中的潜力
- 应用前景:解决人类难题,识别并摒弃错误研究路径。
- 时间表:希望尽快实现。已有模型能精确评论学术论文。
- 适用领域:以文本/数字技术为主的科学领域(如数学)进展可能最快。理论物理等领域也可能产生新思想、发现理论矛盾。
- 科研人员态度:多数科学家对此技术感到兴奋并已开始使用。期待更多科学突破。
- 现状反思:科学突破放缓(或因过度专业化?)。
- 猜想:AI普及专业知识,可能有利于深度通才(Deep Generalists),他们能理解多领域知识,利用AI探索、整合,促进跨学科突破。
二十、 AI上下文窗口(Context Window)与知识产权
- 上下文窗口重要性:可能很重要。能简化交互(输入所有信息)。前提是保持准确性(过长可能分散注意力)。
- 应用场景差异:对纯粹智能任务(如“发明下一个事物”)很重要。对以流程为核心的闭环系统(如Sierra业务)相对次要,因系统本身有上下文感知。
- 知识产权问题:AI生成内容是否可获得版权/专利?(例:用AI改进专利)。
- 回答:不确定(非IP专家)。若人类使用AI作为工具,可能“是”。
- 影响:智能的边际成本下降,可能迎来思想复兴。但单一见解的边际价值可能降低。
- 顾虑:专利流氓可能利用AI阻碍创新。
- 对策设想:用AI生成海量创意并公开发布,形成现有技术(prior art),使后续专利申请无效。
二十一、 Google Maps的诞生故事
- 背景:Google Local(黄页)发布后,地图体验不佳(使用MapQuest授权地图)。Larry Page推动自研地图。
- 收购:Where 2 Technologies(Lars & Jens Rasmussen等4人),其Windows应用Expedition地图精美。被Google收购。
- 整合:合并Google Local和Where 2团队,目标是结合双方优点创造全新产品(Google Maps)。
- Windows应用影响(正面):设定了高交互性标准(可拖拽地图),促使团队做出大胆技术选择。
- Windows应用影响(负面):过度使用当时流行的XML/XSLT,导致代码繁琐。
- 发布与问题:产品成功发布,但代码逐渐变得臃肿缓慢,尤其在支持Safari时遇到困难(需在JS中实现XSLT引擎)。
- 重写:Bret Taylor利用一个周末(加一周调试)重写了前端。动机:对现有代码不满,心中已有清晰的理想架构,希望用快速原型克服团队对旧代码的固守。
- 结果:代码体积从200k减至20k,速度和体验大幅提升。
- 团队反应:虽有波折(废弃了部分工作),但最终认可新方案的优越性。优秀团队以结果为导向。
- 故事流传:由Paul Buchheit在采访中首次披露。
二十二、 对AI的长期投资与经济影响
- 思考框架(非具体公司推荐):
- 识别未来20年最受益于AI的经济领域。
- 关注那些智力是当前增长瓶颈、且能有效吸收AI能力的行业。
- 寻找能从中获得不成比例收益的公司(如Nvidia,但需考虑长期基础设施变化)。
- 考虑二阶、三阶效应(如行业商品化)。需深入思考。
- 受益领域直觉:技术(软件工程约束解除)、金融(决策优化带来超额回报)、信息处理相关领域。
二十三、 工作与家庭生活的平衡
- 状态:工作量大,热爱工作和创造。
- 优先事项:工作和家庭。爱好较少(如吉他)。对此无悔。
- 时间分配:主要用于工作和家庭。不刻意追求“平衡”,以工作为傲。
二十四、 将Sierra打造成持久的公司
- 目标:使Sierra成为一家持久、独立的公司(承认这是所有创始人的初衷)。
- 对过往收购的感激。
- Sierra现状:市场表现良好,是消费品牌AI智能体领域的领导者。
- 愿景:希望Sierra基业长青,甚至超越创始人自身(成为抱怨下一代领导的老人)。
- SGI/Sun的教训:亲历科技巨头(SGI、Sun)在鼎盛时期建造园区,后衰落并将园区出售给新兴公司(Google、Facebook)。警示:科技公司的未来成功并非必然。
- AI时代的挑战:AI将重塑软件业(工具->智能体),对现有公司构成机遇和威胁。建立持久公司比以往更难,不仅要财务持久,更要建立能适应空前变革速度的文化。文化比技术更关键(代码会变)。
二十五、 再论AI智能体:定义与应用类别
- 定义核心:被赋予能动性(自主推理、决策)的软件。
- 三大类别:
- 个人智能体:增强个体能力(邮件处理、行程规划、模拟对话、求职辅助)。构建难度大(需泛化、信任),需要时间成熟。
- 角色智能体(企业内部):如编码、法律助理、分析师。执行特定工作,领域较窄。当前已具商业价值(替代/增强人力)。改变了潜在市场规模(TAM)。
- 品牌化的面向客户智能体(Sierra专注):代表公司与客户互动。范围比客服更广,是公司数字化存在的整体体现(涵盖服务、销售、咨询等所有交互)。能动性从网站设计者转向客户。
- 对品牌智能体的要求:鲁棒性、护栏要求更高(如Air Canada案例所示)。
- Sierra平台价值:提供与具体模型/技术解耦的客户体验定义层,平台随技术进步而升级,客户体验保持一致。品牌自行构建和维护此类系统不现实。
二十六、 警惕并克服企业自满情绪
- 自满的表现:
- 官僚主义:源于为解决问题而层层叠加的流程,初衷虽好,但累积形成惰性,阻碍变革。规则的制定原因常被遗忘。
- 内部叙事压倒客户真相:公司壮大后,内部视角可能固化。例:微软园区的Windows Phone现象,形成“现实扭曲力场”。员工关注点可能转向内部晋升而非外部市场。文化凝聚力可能加剧此问题。
- 后果:导致公司衰落(如黑莓)。
- 对策:
- 领导层需极度关注客户:市场是检验标准。让员工直接接触客户声音,减少信息过滤。
- 自上而下打破官僚主义:精简流程。中层管理者往往缺乏移除流程的动力(需为失误负责)。需要高层支持和担当风险。
- 体感:官僚化的公司令人窒息(充斥不实叙事、流程压倒结果)。
二十七、 个人成功的定义
- 组成部分:拥有幸福健康的家庭 + 能与联合创始人Clay共事终生 + 将Sierra打造成一家基业长青的公司。