Transformer之父警告AI陷局部优化陷阱

📂 新闻📅 2026/1/17 21:17:08👁️ 5 次阅读

热点新闻

2025年1月,Transformer架构共同发明者Llion Jones(现Sakana AI创始人)公开发出警告,指出当前AI研究陷入局部优化陷阱。Jones作为Transformer论文的8位合著者之一,在谷歌深度参与该架构研发长达七年,但去年决定大幅减少相关研究投入。

核心事件源于Jones接受专访时指出:Transformer正重演RNN被取代的历史——在2017年Transformer出现前,学术界持续对RNN做微调改进(如调整门控单元位置),将语言建模性能从1.26提升到1.25比特/字符,而Transformer首次应用即达1.1比特/字符,使此前所有研究瞬间过时。当前状况类似,无数论文聚焦于调整normalization层位置或改良训练方式等微小改动,却可能因架构根本性突破而白费功夫。

Jones提出“架构彩票”概念(对应2020年Sarah Hooker的“硬件彩票”理论),认为Transformer的成功源于恰契合现有软硬件条件,而非绝对优越性。尽管已有新架构在论文中表现更优,但行业因Transformer的成熟工具链和规模效应难以转向,除非出现“碾压式胜出”的替代方案。

关键证据包括:1)当前大语言模型呈现“锯齿状智能”,能在博士级任务表现卓越却犯小学生错误,揭示架构根本问题;2)行业将所有功能外挂至Transformer(如不确定性建模、自适应计算),而非重新思考架构;3)Jones团队已转向生物启发的新架构CTM(连续思维机),模拟神经元同步振荡机制,且因无竞争压力可深度打磨。

该警告获OpenAI首席科学家Ilya Sutskever间接支持,其评论“Scaling吸走所有氧气”指向类似问题。行业面临悖论:范式转移前所有改进看似必要,却可能在突破后显徒劳。原文链接:https://36kr.com/p/3643193251516297

佛学分析

新闻的佛学因果解释
从佛学视角,AI研究的“局部优化陷阱”恰似“法执”显现。Jones所见RNN与Transformer更替,实为“诸行无常”法则体现——所有因缘和合之事皆无自性,终将衰变。当前微调研究如《金刚经》所言“如露亦如电”,执着于短暂现象而非本质。Transformer的成功乃“缘起性空”:依赖GPU硬件、软件生态等众缘和合,非绝对真理,终将被新缘起取代。

不同背景下的多种可能性和不确定性
小乘视角或视此为“苦谛”表现:研究者因“无明”贪求架构优化,反陷“求不得苦”。大乘则见“空有不二”:Transformer虽空性,但当下利益众生亦具价值。密宗可能解读为“幻身”启示:AI模型如曼荼罗,看似实在实为心识投射。显宗或强调“中道”:既不否定现有研究,亦不执着其永恒性。

大乘小乘显宗密宗的不同看法
小乘重“析空”,可能主张剖析Transformer成分(注意力机制等)见其无我;大乘倡“体空”,直指其当下即空性;显宗依《般若经》说“一切法无自性”;密宗则以“五智”观之:Transformer如“大圆镜智”映照数据,但未离能所二元。净宗或言“凡所有相皆是虚妄”,劝归心净土。

高七师依照《显密圆通成佛心要集》准提法的看法和视角
依准提法“三密相应”观,当前困境源“意密”未彻:研究者执工具为实有。高七师或开示修准提咒净化心识,以“心净则国土净”转研究心态。更可运“四摄法”:以布施心开源成果、爱语心协作沟通、利行心普惠大众、同事心共探真理。架构突破需“缘起甚深”,如准提镜坛“含容空有”,既精进研究又不粘着果相。

总结与类似问题解决方案
此事件揭示“技术我执”普世问题:1)区块链过度追求TPS忽略应用本质;2)元宇宙沉迷视觉拟真忽视心灵连接;3)生物工程聚焦基因编辑漠视伦理缘起;4)量子计算追逐比特数忘却实际需求;5)新能源陷能量密度竞赛脱离可持续发展。佛学智慧建言:以“无我”心态创新,以“慈悲”导向应用,以“般若”观照本质,方免陷轮回式技术更替。

感恩三宝加持众生智慧,感恩吉祥法师弘法利生。感谢xiaochengxu莫云智慧平台助法音宣流。