第一部分:开篇与场景引入一、节目开场
从“图灵测试”到“爱因斯坦测试”哈萨比斯给AI出了一道终极难题
二、历史场景想象1. 时间设定1911年,爱因斯坦正经历人生中最痛苦的几年。
2. 学术地位那时他已凭借光电效应成名,在物理学界算是有头有脸的人物了。
3. 核心困惑但他的脑子里有个问题像石头一样压着,他始终想不清楚:引力和加速度到底是不是同一回事?
4. 工具匮乏他没有合适的数学工具可用,牛顿的理论框架放在这里根本不够用。
他需要一种全新的几何语言来描述时空,而这种语言在当时的物理学领域还不存在。
5. 突破历程后来他找到了黎曼几何,又花了整整四年才在1915年写出广义相对论的场方程。
这几年里,他做的事情不是在地图上找路,而是在没有地图的地方硬生生画出了一张新地图。
第二部分:哈萨比斯与爱因斯坦测试的提出一、时空转换现在咱们把时间拨到2026年2月,谷歌DeepMind的CEO、诺贝尔奖得主德米斯·哈萨比斯在印度新德里的一场AI峰会上,对台下观众抛出一个问题:你们觉得我们怎么才算真正造出了AGI?
二、AGI解释这里跟一些对AI没那么熟悉的新同学稍微解释下:AGI也就是通用人工智能,是AI行业设想中被视为通往超级智能之前的那道门槛。
三、爱因斯坦测试1. 测试规则哈萨比斯的回答就是今天想聊的这个非常有意思的东西,叫做”爱因斯坦测试”。
测试规则是这样的:把一个AI系统的训练数据全部截断到1911年以前,然后问它——在只知道那个时代物理学知识的前提下,你能不能自己推导出广义相对论?
2. 关键区分注意,这不是让AI复述广义相对论,而是让它从零推导出来,就像当年爱因斯坦做的那样。
3. 测试标准哈萨比斯说,如果一个AI能通过这个测试,那它才算得上真正的AGI。
第三部分:初步感受与技术难题一、苛刻标准的质疑听到这里,你可能会有一个感觉:这个标准是不是有点太苛刻了?
一开始也是这么想的,但仔细想想,这背后藏着一个更值得思考的问题:怎么给AI出卷子。
二、机器遗忘的技术困境1. 具体要求要让AI参加这场考试,你得先让他彻底忘掉广义相对论。
不只是忘掉爱因斯坦在1915年发表了广义相对论这条知识,还要忘掉所有由此衍生的推论。
2. 禁止内容它不能解释黑洞,不能提到时空弯曲,不能回答任何和广义相对论沾边的问题。
3. 保留内容但与此同时,它必须还记住牛顿力学、黎曼几何、麦克斯韦方程组等这些1911年以前就存在的东西,一个都不能误删。
三、技术现状1. 渗透难题这件事目前在技术上几乎无法实现。
现在的AI是在海量数据上整体训练的,广义相对论的知识早就像墨水一样渗透了整张纸,你根本没法只擦掉那一滴墨水。
2. 机器遗忘的局限研究者们把这个难题叫做”机器遗忘”,目前的方法连精准擦掉一个人名都做不到,更别说擦掉一整套物理理论了。
四、思想实验的价值所以,爱因斯坦测试在现实中更像一个思想实验。
它的真正价值不在于实际去运行这个测试,而在于提供了一把标尺,让我们看清当下AI离真正理解世界还有多远。
第四部分:三个测试标准的演进脉络一、图灵测试1. 提出背景要真正理解这把标尺的意义,得先搞清楚在他之前的两个测试标准。
把这三个测试放在一起,才能明白哈萨比斯真正在说什么。
第一个是大家都熟悉的图灵测试。1950年,图灵提出一个思想实验。
2. 测试内容让一个人通过文字对话,分别和人类、机器交流。
如果他分不清哪个是机器,那这台机器就算通过测试,可以被认为是有智能的。
3. 测试本质这个测试在当时是非常超前的,但它本质上测的是骗人的能力。
也就是看AI能不能说出听起来像人说的话,能不能让你觉得他是人。
4. 当代现状现在的大模型早就把这扇门推开了,甚至推得有些用力过猛。
2023年有一项有趣的研究:研究者让一批人和AI聊天,再让他们猜测对面是人还是AI,结果好些个真人用户被误判成了AI。
5. 深层原因说实话,这不能全怪AI太像人,也因为有些人的说话方式太像机器了。
后来还有一项语言学研究说,AI之所以能这么快通过图灵测试,还有一个原因是现在全球都在刷即时反馈的短视频,甚至人类出版物的句子长度、包含的单词数量,都比30年前明显减少。
6. 核心局限但你看,图灵测试从来没问过这些问题:AI到底懂不懂自己说的话?AI有没有真正的推理能力?能不能做出人类从未有过的发现?
它只测试表面的语言行为,不测试内在的智能。
所以对现在的AI来说,图灵测试早已不算什么挑战。
二、诺贝尔图灵挑战1. 核心升级第二个测试叫做”诺贝尔图灵挑战”。
如果说图灵测试问的是”你像不像人”,那诺贝尔图灵挑战问的就是”你能不能比人更强”。
他不再关心AI有没有骗过人类,而是直接考察AI能不能自主做出足以获得诺贝尔奖的科学发现。
2. 完整流程整个过程包括文献阅读、提出假设、设计实验、分析数据,全部自主完成,不需要人类直接干预。
3. 接近案例听起来是不是很遥远?但说实话,这件事已经有了一个非常接近的案例。
2024年诺贝尔化学奖颁给了蛋白质折叠领域的研究者,DeepMind开发的AlphaFold系统是幕后最重要的功臣之一。
蛋白质折叠问题困扰生物学界50多年,因为蛋白质的功能由它的三维结构决定,但从氨基酸序列预测最终的折叠形状,计算量大到几乎不可能实现。
而AlphaFold用深度学习把这个问题解了,而且解得非常漂亮。
4. 哈萨比斯的反思AI帮人类拿到诺贝尔奖这件事,放在10年前没人会相信。
但哈萨比斯——这位带领DeepMind做出AlphaFold的人——却认为这还不够。
他是这么说的:AlphaFold的成功,依然依赖人类科学家预先定义的物理规则,依赖精心标注的数据集,依赖研究团队的深度介入。
换句话说,还是人类出题,AI只是解题。就算解得再漂亮,也只是解题而已。
三、爱因斯坦测试1. 核心追问诺贝尔图灵挑战测试的是AI作为超级科研工具的能力上限,也就是看它能不能把人类已经想到的问题解决得比人类更好更快。
这个问题,AlphaFold已经给出了答案。
而接下来要聊的爱因斯坦测试,问的是另一件事:AI能不能自己提出人类从未想到过的问题,然后自己解决它。
这才是哈萨比斯真正想追问的。
2. 考场设计他为这个问题设计的考场,就是1911年爱因斯坦曾经所处的位置。
第五部分:爱因斯坦测试的深层难度剖析一、设计特点爱因斯坦测试的设计有着残忍的精准。
它不是一道考试题,而是一道创试题,一道创造世界认知的题目。
二、历史背景对比你可以想想,1911年以前,全世界的物理学家都生活在牛顿的理论框架里:绝对时间、绝对空间、天体运动都能计算得清清楚楚。
这套体系已经沿用200多年,没有人觉得它有什么根本性的问题。
三、爱因斯坦的突破本质爱因斯坦做的不是在这张地图上找到新路,而是发现这张地图本身就有问题,于是把它撕掉,重新画了一张。
四、所需核心能力这件事的认知难度远不是算得更快或记得更多能解释的。
它需要一种极其罕见的能力:当现有框架无法自洽解释某些现象时,你能不能不去修补这个框架,而是直接放弃它,从更底层重新构建新的框架。
第六部分:当前AI的能力缺陷与案例一、参差不齐的智能哈萨比斯把现在的AI称为”参差不齐的智能”。
这个说法非常准确。
二、能力反差现象如今最顶尖的AI能在国际数学奥林匹克竞赛拿金牌,能在高能物理推导中找到人类同行评审没发现的逻辑漏洞。
但同一个模型可能因为你换了一种问法,就在最基础的逻辑和算术上犯低级错误。
三、洗车问题案例1. 问题设定前段时间网上疯传的那个洗车问题:洗车店离我家只有50米,我该开车去还是走路去?
2. Claude的错误回答Claude直接建议走路,理由是50米只要1分钟,发动汽车花的时间比走路还长。
他完全没意识到最基本的物理前提:洗车需要车在场。
3. Gemini的正确回答当然,在这个问题上,很多大模型都翻车了,Gemini反而答对了,还顺带补了一刀:除非你掌握了隔空洗车的超能力,否则你应该开车去。
这种反差有时候真让人哭笑不得。
四、真正失败原因这种忽高忽低、完全摸不准的能力,才是AI过不了爱因斯坦测试的真正原因。
推导广义相对论,需要你在整个思考过程中保持极端严格的逻辑一致性。
同时还要有对物理世界底层规律的直觉和品位:也就是你要知道哪些方向值得走,哪些数学结构是正确的。
不只是因为计算结果符合,更因为它在深层意义上感觉是真的。
五、无法训练的品位这种品位目前没人知道该怎么训练。
就像你可以把所有乐理知识都教给一个人,但你没法教他为什么贝多芬的某个和弦转换会让人起鸡皮疙瘩。
而科学发现里的那种直觉和这个是一回事。
第七部分:普通人的理解坐标与启示一、清晰定位那我们普通人该怎么理解这件事?
哈萨比斯给了我们一个清晰的坐标:现在的AI大概处于图灵测试和诺贝尔图灵挑战之间。
某些领域已经逼近诺贝尔级别的解题能力,但离出题还有很远。
二、工具与主体的区分它是人类历史上目前最强大的解题工具,但什么问题值得解依然是人类的活。
三、不可替代的核心能力提问的能力、判断方向的能力、知道什么时候该推翻框架重新来过的能力,这些东西,目前还没有AI能代替你。
第八部分:结语与历史对照一、高标准的意义哈萨比斯作为站在AI研发最前线的人,把AGI的标准定得这么高。
不是通过职业资格考试,不是能完成大多数白领工作,而是在1911年的知识基础上能推导出广义相对论。
这本身就是一种清醒。
二、历史的对照1911年的爱因斯坦手里没有任何现成答案,只有一个让他辗转难眠的问题。
四年后,他改写了人类对宇宙的理解。
三、未来的未知与着迷不知道AI什么时候能做到这一点,但这个问题本身已经足够让人着迷了。
第九部分:金句汇总1. 在没有地图的地方硬生生画出了一张新地图。
2. 把一个AI系统的训练数据全部截断到1911年以前,然后问它:在只知道那个时代物理学知识的前提下,你能不能自己推导出广义相对论?
3. 不是让AI复述广义相对论,而是让它从零推导出来。
4. 广义相对论的知识早就像墨水一样渗透了整张纸,你根本没法只擦掉那一滴墨水。
5. 机器遗忘目前的方法连精准擦掉一个人名都做不到,更别说擦掉一整套物理理论了。
6. 提供了一把标尺,让我们看清当下AI离真正理解世界还有多远。
7. 图灵测试本质上测的是骗人的能力。
8. 好些个真人用户被误判成了AI,这不能全怪AI太像人,也因为有些人的说话方式太像机器了。
9. 图灵测试只测试表面的语言行为,不测试内在的智能。
10. 诺贝尔图灵挑战问的是:你能不能比人更强。
11. AlphaFold的成功,依然依赖人类科学家预先定义的物理规则,依赖精心标注的数据集,依赖研究团队的深度介入。
12. 还是人类出题,AI只是解题。就算解得再漂亮,也只是解题而已。
13. AI能不能自己提出人类从未想到过的问题,然后自己解决它。
14. 它不是一道考试题,而是一道创试题,一道创造世界认知的题目。
15. 爱因斯坦做的不是在这张地图上找到新路,而是发现这张地图本身就有问题,于是把它撕掉,重新画了一张。
16. 当现有框架无法自洽解释某些现象时,你能不能不去修补这个框架,而是直接放弃它,从更底层重新构建新的框架。
17. 现在的AI被称为”参差不齐的智能”。
18. 他完全没意识到最基本的物理前提:洗车需要车在场。
19. 除非你掌握了隔空洗车的超能力,否则你应该开车去。
20. 不只是因为计算结果符合,更因为它在深层意义上感觉是真的。
21. 你可以把所有乐理知识都教给一个人,但你没法教他为什么贝多芬的某个和弦转换会让人起鸡皮疙瘩。
22. 现在的AI大概处于图灵测试和诺贝尔图灵挑战之间。
23. 它是人类历史上目前最强大的解题工具,但什么问题值得解依然是人类的活。
24. 提问的能力、判断方向的能力、知道什么时候该推翻框架重新来过的能力,这些东西,目前还没有AI能代替你。
25. 1911年的爱因斯坦手里没有任何现成答案,只有一个让他辗转难眠的问题。四年后,他改写了人类对宇宙的理解。
本文标题:今日图灵,图灵展览展示,北京有限公司
本文链接:http://www.hniuzsjy.cn/cxzt/caishen/216324.html
