朝花夕拾

A Development Engineer, a Life Liver, a Hope Holder

这周吃了一周OpenAI的瓜,奥特曼在OpenAI科技春晚过后没几天突然被莫名其妙的解雇了,而在微软开出了各种丰厚条件准备釜底抽薪时,奥特曼又重新复职。而这一切仅仅发生在几天内。作为吃瓜群众,我们确实不知道背后的实情是什么。但是有些人报出了一些猛料还是比较值得关注的;据说是OpenAI今年秘密训练了新模型Q,这个Q与以往的模型都不相同。它不止能处理外部信息,它还能处理基础数学,它具有逻辑推理能力。而逻辑推理意味着它可以基于历史数据生成更多的新数据,产生新观点甚至是意识。简单来说,它活了。
因为Q产生的惊人能力,OpenAI董事会产生了分歧,以奥特曼为首的董事会成员比较激进,希望可以快速的推进项目。而其他人比较保守,希望先对Q做更好的评估后再看如何推进。因此才发生了上面的大瓜。基于Q*这么强大的能力,我也是对机器到底能否产生意识进行了思考,写了《涌现,让大模型复活》这篇文章。
在这篇文章中,我们将了解,在众多人工智能中,为什么只有大模型才可能产生通用人工智能。同时,通过分析熵的概念如何贯穿于热力学、信息论以及人工智能领域。分析涌现产生的原因和机制,
并基于分析通用人工智能和涌现的关联,进一步了解人工智能的本质。

熵与热力学第二定律

熵的概念在热力学中有着深刻的应用。我们提到了热力学第二定律,即系统的熵不会减少,而是会增加,直至达到最大值。这一定律解释了为什么自然过程是不可逆的,系统总是趋向于更加混沌和无序的状态。通过经典的热水变凉、事物无法永生等现实例子,我们可以了解熵可以随着能量的转化而增加的,形成了自然界朝着无序演化的总趋势。

宇宙中还有一些事物看似跟熵增没有关系,但也遵守着相似的底层逻辑。如光线的折射,时间晶体等。从初中物理中我们学到光线在不同的介质传播时会产生折射现象,对于为什么产生折射,当今物理学已经给出了比较详实和多角度的解释。其中有个比较有意思的解释是,光线穿过不同介质,延折射方向运动时,相对于光线自身来说的成本最低,代价最小。再比如时间晶体,一种状态在一定时间周期内按一定规律震荡的物体。周期性的震荡是它保持能态最低的状态一种体现,对比震荡,让它停止震荡反而要消耗大量能量。这样的例子还有很多。但是总结下来就是:
宇宙总是趋向保持运行的最低成本

对称性与对称破缺

宇宙总是趋向最低成本运行,具体表现为自然规律和物理过程中的稳定平衡,也就是对称。这种对称性推动自然界朝着相对无序的状态发展,以致达到最终平衡,即热寂。然而,在抵达热寂的过程中,

部分区域会偶发性的产生对称破缺,这种局部性的对称破缺造成相变,产生了缤纷的世界万物。这就像整体平静的海洋上,某个角落的涟漪,荡出物质的波浪,奏响了低熵之歌。对称性破缺不是宇宙的必须,但是是生命和世间万物产生的必须。从大爆炸那一刻起,到引力的分离,再到弱力,强力,电磁力的产分离,再到夸克,强子,原子,分子乃至世界万物的产生。每次相变都奠定了人择宇宙的基石。总之,对称性代表着一种亘古永恒的美,对称性破缺则是打破常规,多样缤纷的美。

神奇的涌现

由于对称破缺成就了宇宙的多样性,当低熵存在形成后,他们会以某种形式自我组织和演化。最终在局部达到新的低熵平衡,或者称为局部对称。这种局部对称是熵博弈的结果。当大量低熵存在随时间进行聚集,自组织,演化。在抵达某个临界点时,涌现就产生了。所谓涌现就是由局部构件组成的整体实体具备跟局部构件完全不同的特性。我们生活中到处都有涌现现象,可以说我们生活在充满涌现的世界。低层级的涌现有蚂蚁群,候鸟群等,高层级的涌现,如生命、语言和艺术等。
在论文Emergent Abilities of Large Language Models中,则是对大模型的涌现进行了描述。

通过对大量的涌现现象的梳理,,我们会发现这样的特征:

  1. 所有涌现都基于非常简单朴素的有限规则
  2. 涌现的产生依赖事物达到一定的规模(More is Different)
  3. 产生涌现群体中的事物之间必须存在一定的关联

语言是失乐园的禁果么?

埃舍尔:从形式系统到非形式系统,其中渐变的部分即为混沌,充满递归和交互。我们生活的世界千变万化,但是非常神奇的是,我们可以用简单有限的词汇精细的刻画世间万物。当深入思考后,我们可以发现,不管世界是如何多样多变的,但是总是遵循一定的运行规则。其中比较重要的一个规则是:事物之间存在一定的层级和秩序。如无机物,有机物,动物,人,,,。由于事物存在这样的嵌套关系,我们的语言也可以通过有限的迭代递归,来表达丰富细腻的内容。人类通过对事物的抽象和升维,用简单的词汇就能表达无限的可能,这就是所谓的『有限的手段,无限的使用』。

语言是如此重要,以至于赋予了人类高效输入输出信息的能力。而这种能力使得人类个体可以快速的获得更多信息,产生意识涌现的基础;同时也将人类群体的一个个个体关联起来,形成了社会,国家,艺术等

涌现的基础。人之所以为人,原因可能有很多,如火的使用,工具的使用等。但是语言的产生一定是最重要的原因之一。

Transformer+Embedding产生的化学效应

那么,人工智能怎么才能产生真正的智能?很明显,参考人类的智能,人工智能的智能必然是信息的涌现。基于上文提到涌现产生的三个前提,人工智能必须要有足够的信息输入。而过往的人工智能由于技术手段的缺失,机器只会机械的输入输出数据,算法模型很难很好的感知人类世界的信息。而Embedding的出现则改变了一切,这是一种划时代的技术。有Embedding技术,LLM就像开了天眼,可以像人类一样读,听,甚至看和感知这个世界。通过Embedding,机器可以将各种现实信息编码到高维空间中,生成自己可以理解和处理的语言。而Transformer的出现像是给人工智能插上了翅膀。让它能通过关注重要信息,忽略或者弱化次要信息的方式高效处理信息。而高效处理海量信息的能力又赋予了人工智能产生智能涌现的可能。这也说明了,为什么在众多人工智能中,只有预训练大模型才会产生通用智能。大模型的大是关键中的关键。

结合前文熵的理论可知:没有预训练的Transformer是一张各向对称的白纸,也就是其语言空间的密度函数ρ是均匀的。这个语言空间的密度函数决定了系统的信息熵,如果我们把 ρ 表示成向量 η,则信息熵可以表示为 F(η)。随着语料不断被 emdedding 同时基于注意力机制 transform 到这个语言空间,空间的密度 ρ/η 发生改变,信息熵 F(η) 随着改变,引发语言空间对称性破缺与重建,当达到某个临界点,涌现就产生了。于是人工智能不再是人工智障,一切都有了可能。