TradingKey - 在市场担忧iPhone制造商苹果(AAPL)在人工智能发展方面落伍之际,苹果最新的一篇AI研究揭露了现在流行的AI大模型的“繁荣假象”:AI推理模型远达不到预期的推理功能——简单问题复杂化,复杂问题直接陷入崩溃。
6月,苹果发表了一篇名为《思考的幻觉:从问题复杂性的角度理解推理模型的优点和局限性》的研究报告。文章指出,现有的一些号称具有“推理能力”或思考能力的AI模型实际上并不具备通用和稳健的推理能力。
无论是OpenAI的o1、再到DeepSeek R1、Claude和Gemini等领先模型,他们已经发展到不是简单给出答案,而是生成详尽的“思维链”(Chain-of-thought,CoT)、模仿人类解决问题时的思考过程、甚至自我反思和修正的模型。
研究人员称之为“大型推理模型”(Large Reasoning Models,LRMs)。不少人认为,这种技术的发展将推动人类向理想的通用人工智能(AGI)迈进。
与常见的强调最终答案准确性的基准测试不同,苹果公司通过不同的复杂性的问题环境对标准模型LLM和推理模型LRM进行了比较,结果推理模型有一些情况下还不如标准模型。
然而,现实生活中的多数问题都属于高复杂度模式,这凸显了推理AI模型在实际应用上的挑战。
谷歌执行长Sundar Pichai用“人工锯齿智能”(人工智能,AJI)来描述AI不稳定的能力——AI给出的答案时而令人赞叹,时而会犯简单的数字错误,比如连strawberry有多少个r字母都不清楚。