人类最伟大的能力,不是知道答案,而是永远保持提问与重构答案的可能。
L.G.Valiant
在规则明确、数据丰富的任务中AI已展现出越来越强大的超人类能力。比如OpenAI宣称,GPT-4参加了多种基准考试,包括美国律师资格考试、法学院入学考试LSAT、SAT数学部分和证据性阅读与写作部分考试等。在这些测试中,GPT-4得分高于88%的人类应试者。
AI技术的快速进展和成熟,无疑从很多方面影响和改变着我们的生活和工作方式,尤其是在整合共识和主流叙事、优化“已知”领域的运行效率方面,现有的AI模型已体现出强大的能力。
相比与当前的AI,人类的价值和竞争优势体现在哪里?个人赞同以下观点,保持对异常现象的好奇心,勇于挑战共识,提出有价值的假说,仍是人类最值得珍视的能力。
AI的优势:高效整合历史经验和共识,
优化“已知”领域的运行效率
当前以大语言模型(LLMs)为代表的AI模型,仍然是一个数据和计算驱动,基于历史频率、相关性及均值的统计归纳系统。它的“智能”,是基于“同一事物可以通过无限种方式被陈述、表达和表征”这一事实。其能力源于语言表征的泛化能力,即能够将一种表达方式转化为另一种表达相同内容的方式,而非真正的认知理解。
LLMs的学习过程体现于词语间关系的发现,它可以从海量的训练数据中,学习到词汇频率、位置编码和共现关系的关联性与相关性,并以概率抽样的方式组合出新颖的输出(“生成”)。LLMs被训练解决的核心问题是:对“下一个词”的预测。模型根据前文逐词预测下一个可能出现的词汇,这一过程并非简单复制数据,而是基于海量语料库中词汇关联模式的重组。对于任何包含在其训练数据中的主题,LLMs都可以基于其习得的条件概率,以各种不同或新颖的方式总结、表征其学习过的文本,生成数量众多的连贯、流畅且文笔优美的维基百科式文章。
有充分证据表明,当大型语言模型(LLMs)遇到需要推理的任务时,其本质上只是复现训练数据中已存在的“关于推理的语言答案”,而非进行任何形式的实时推理。LLMs并未真正参与动态推理,仅仅只是重复训练数据中与推理相关的语言结构模式。当LLMs生成看似真实的陈述时,这仅是真实陈述在训练数据中被高频提及的附带现象,而不是LLMs具有内在理解或自主推理能力。LLMs的真理或知识模型是统计归纳性的,缺乏真理判别的实际根基(因果逻辑)。
当前大型语言模型(LLMs)获取“真理”与知识的本质,是通过统计手段,以词语间的统计关联形式,寻找语料库中被高频提及的陈述与断言,并通过独特的句子形式对现有知识进行创造性总结与重组。
LLMs可以高效整合历史经验和共识,复述主流叙事,帮助我们优化“已知”领域的运行效率,其能力的基础是海量数据和计算驱动的统计归纳,而不是对现实的逻辑推理或实证验证。
人的优势:挑战共识,提出
有价值的假说,基于因果规律建构理论
LLMs的知识边界严格受限于训练数据的历史分布。例如,在科学史模拟中,若训练数据以地心说文献为主,模型输出将偏向旧范式,即使数据中混杂哥白尼的日心说,低频信息也会被统计权重过滤掉。有研究表明,当LLMs使用自身生的历史输出数据进行迭代训练时,其输出会逐渐偏离真实数据分布,导致性能退化(如准确率下降、多样性减少)。
此外,数据驱动、追求提高预测能力的模型,都内含拟合历史数据的“最小化误差”机制,异常/极端数据往往被清洗或赋予较小的权重,但这些异常数据往往提供了新假说、新理论生成的机会。
人类的知识生成机制与当前的AI模型的本质差异在于,我们可以基于对因果规律的理解,提出新的假说,设计因果干预手段(实验或行动),突破历史数据的边界,生成新的数据,创造或发现新的可能性。人类的认知过程,是假说和理论构建驱动的,正如爱因斯坦所说:“能否观察到某个事物取决于你使用的理论,正是理论决定了什么可以被观察”。
科学史和商业史的众多案例表明,新知识、新发现的出现,往往是从勇于挑战共识的伟大头脑,对例外和异常数据的敏锐观察和思考,提出新的假说和理论开始的。
"始终保持对意外现象的敏感性"是科研工作者的必备素养,该论述源自英国科学方法论专家W.I.B.Beveridge的经典著作《科学研究的艺术》。书中提供了大量的科学史案例。我们以其提到的哈维发现血液循环的案例,比对当前AI与人在知识生成方面的鲜明差异。
在哈维提出血液循环论之前,当时流行的看法是:存在两种血液;血液在血管中来回流动;血液可从心脏的一侧流到另一侧。但是,哈维通过观察头部和颈部静脉瓣膜方向,发现并不符合流行的看法。这个无法解释的小事,使他对流行的理论提出质疑。
他系统研究了超过80种动物(涵盖爬行类、甲壳类、昆虫等),并定量计算出心脏每半小时泵血量超过人体总血量,推断血液必须循环流动,而非被一次性消耗。在缺乏显微技术支持,观察不到动脉末端和静脉之间有任何联系的情况下,他假设了毛细管的存在,建构了血液循环假说。
血液循环论提出30多年后,马尔切洛·马尔皮基利用显微镜首次在蛙肺中观察到毛细血管,直接证实了动脉与静脉之间的微观连接结构。
科学史和商业史上,类似的新知识生成范式比比皆是,通过观察反常现象,质疑流行共识,提出假说,因果推理和实验验证的闭环,我们实现了知识生成和持续积累。
机器学习的算法可以高效解决问题,但不能提出和定义问题。达尔文会进一步追问“为什么不同岛屿的雀鸟喙部形态差异显著”,而不是停留在“如何描述物种特征”。知识发现是对未知领域的系统性探索,保持对异常事件的好奇心,勇于挑战共识,提出有价值的假说,这种能力使人类从被动接受数据转向主动建构理论。
正如控制论之父维纳所说:“未来的神谕属于能提出机器无法构想之问题的人”。
作者简介
李玉刚,中泰沪深300指数增强A/C等产品的基金经理,现任中泰证券资管研究部总经理兼量化公募投资部总经理,北京大学经济学硕士。
曾任国泰君安证券研究所金融工程部研究员、衍生产品部及资产管理部量化研究总监、国泰君安资管量化投资部总经理、中泰证券资管对冲基金部总经理。
基金管理人承诺以诚实信用、勤勉尽责的原则管理和运用基金资产,但不保证基金一定盈利,也不保证最低收益。投资有风险,基金过往业绩不代表其未来表现。基金管理人管理的其他基金的业绩不构成对本基金业绩表现的保证。投资者投资基金时应认真阅读基金的基金合同、招募说明书、基金产品资料概要等法律文件。基金管理人提醒投资者基金投资的“买者自负”原则,请投资者根据自身的风险承受能力选择适合自己的基金产品。
(转自:中泰证券资管)