Linguista

「QuantaMagazine」首次实现:AI模型语言分析能力媲美人类专家


独家能力?当AI开始“思考”语言本身

最近有没有被ChatGPT这些大模型(LLMs)惊艳到?它们说话越来越像人,用词、逻辑,常常让你分不清对面是人还是机器。

但是,一个很关键的问题来了:AI真的理解语言吗?还是只是个高级的“模仿大师”?

长久以来,语言都被看作是人类最独特的“超能力”。从古希腊的亚里士多德,到现代语言学大神乔姆斯基,都认为人类之所以是人类,关键就在于我们拥有语言。


🤔 乔姆斯基的“泼冷水”:大数据喂不出“理解力”

乔姆斯基和他的伙伴们对大模型的看法一直很“硬核”,简单来说就是:

🤖 “你” AI模型再牛,也只是在大数据里“泡”出来的。它们能熟练地使用语言,但没办法像人类一样分析推理语言背后的复杂结构。

这就好比一个超级会唱歌的鹦鹉,它能模仿所有曲调,但它不懂乐理,不知道和弦是怎么组织的。

觉得呢?大模型真的只是“下一词预测器”吗?它们只是在做高级的填空题?


💡 伯克利的新发现:AI也学会了“当语言学家”

最近,伯克利的一群语言学家(Gašper Beguš和他的同事们)不服气,决定给大模型来一场 “语言学研究生”级别的考试

为什么这个测试很重要?

因为大模型都是吃了海量数据长大的,为了防止它们作弊(直接“背”出答案),研究人员必须设计它们从没见过的语言材料

这个测试主要有几个大项目,都超硬核:

1. 递归(Recursion):语言的“无限魔力”

递归,简单说,就是一个结构可以嵌在另一个结构里,没完没了

比如,一句简单的“天空是蓝色的”,可以不断嵌套:

简说天空是蓝色的。

玛丽想知道山姆是否知道简说天空是蓝色的。

乔姆斯基认为,这种无限嵌套的能力,正是人类语言可以从有限的词汇和规则中生成无限数量句子的关键,也是人类心智的独特标志。

而在所有递归类型中,最难的是中心嵌入(center embedding),比如:“The cat the dog bit died.” (被狗咬的猫死了)。

结果,在分析这种复杂句子的语法结构时,一个名叫o1的大模型表现惊人。它不仅能正确“拆解”句子,还能像专业语言学家一样,用树形图画出句子的结构

它甚至能更进一步,给一个句子增加一层递归嵌套

2. 歧义识别:分清“鸡肉”还是“宠物鸡”

看下面这句话:

“Rowan fed his pet chicken.”

这句话有歧义:

对于人类来说,结合常识很容易判断。但对电脑来说,这“难于上青天”。因为计算机缺乏那种“常识知识”

让人惊讶的是,o1模型正确地画出了两种不同的语法树,分别对应这两种解读!它捕捉到了语言中微妙的、需要理解常识才能解决的歧义

3. 语音学推理:发明新“方言”让AI推理规则

研究员们更绝,他们现场发明了30种“迷你新语言”,每种只有40个从未听过的“假词”。

然后,他们要求大模型推导出这些新语言的语音规则——比如,什么情况下,一个元音会变成“气声元音”。

结果,o1成功推理出了一条复杂的规则:“当一个元音紧跟在一个‘浊音且阻塞发音’的辅音之后时,它会变成气声元音。”


🤯 “元语言”能力:AI不仅在用,它还在“思考”

这个研究最“炸裂”的地方在于,它证明了大模型有超出预期的“元语言能力”(metalinguistic capacity)。

什么是“元语言能力”?

它不仅仅是会“用”语言,而是能“思考”语言本身。能分析语法、结构、声音模式,就像一个专业的语言学家。

这简直是直接打脸了那些认为“大模型只是在预测下一个词”的说法!它看起来更像是真的在进行深度的语言分析和推理

那人类还独特吗?为什么这很重要?

可能会问,既然AI也能做这些,那我们人类的语言能力还独特吗?

这个研究的结果,可以说是在不断“蚕食”那些曾被认为是人类独有的语言特性。研究者Beguš说得很有趣:“我们似乎没有以前想象的那么独特。”

但是,目前为止,所有的大模型:

  1. 没有提出任何原创性的语言学理论。

  2. 没有告诉我们任何关于语言的新知识。

它们的能力依然建立在“给定历史,预测下一个token(词或符号)”这个基本机制上。

这为什么重要?

认为,是哪些 “非语言” 的特质(比如意识、感受、创造力),会最终让人类与AI区分开来?