财申

今日图灵,图灵展览展示,北京有限公司

财申
2026-03-04 17:33:53
阅读

第一部分:开篇与场景引入一、节目开场

  从“图灵测试”到“爱因斯坦测试”哈萨比斯给AI出了一道终极难题

二、历史场景想象1. 时间设定

  1911年,爱因斯坦正经历人生中最痛苦的几年。

2. 学术地位

  那时他已凭借光电效应成名,在物理学界算是有头有脸的人物了。

3. 核心困惑

  但他的脑子里有个问题像石头一样压着,他始终想不清楚:引力和加速度到底是不是同一回事?

4. 工具匮乏

  他没有合适的数学工具可用,牛顿的理论框架放在这里根本不够用。

  他需要一种全新的几何语言来描述时空,而这种语言在当时的物理学领域还不存在。

5. 突破历程

  后来他找到了黎曼几何,又花了整整四年才在1915年写出广义相对论的场方程。

  这几年里,他做的事情不是在地图上找路,而是在没有地图的地方硬生生画出了一张新地图。

第二部分:哈萨比斯与爱因斯坦测试的提出一、时空转换

  现在咱们把时间拨到2026年2月,谷歌DeepMind的CEO、诺贝尔奖得主德米斯·哈萨比斯在印度新德里的一场AI峰会上,对台下观众抛出一个问题:你们觉得我们怎么才算真正造出了AGI?

二、AGI解释

  这里跟一些对AI没那么熟悉的新同学稍微解释下:AGI也就是通用人工智能,是AI行业设想中被视为通往超级智能之前的那道门槛。

三、爱因斯坦测试1. 测试规则

  哈萨比斯的回答就是今天想聊的这个非常有意思的东西,叫做”爱因斯坦测试”。

  测试规则是这样的:把一个AI系统的训练数据全部截断到1911年以前,然后问它——在只知道那个时代物理学知识的前提下,你能不能自己推导出广义相对论?

2. 关键区分

  注意,这不是让AI复述广义相对论,而是让它从零推导出来,就像当年爱因斯坦做的那样。

3. 测试标准

  哈萨比斯说,如果一个AI能通过这个测试,那它才算得上真正的AGI。

第三部分:初步感受与技术难题一、苛刻标准的质疑

  听到这里,你可能会有一个感觉:这个标准是不是有点太苛刻了?

  一开始也是这么想的,但仔细想想,这背后藏着一个更值得思考的问题:怎么给AI出卷子。

二、机器遗忘的技术困境1. 具体要求

  要让AI参加这场考试,你得先让他彻底忘掉广义相对论。

  不只是忘掉爱因斯坦在1915年发表了广义相对论这条知识,还要忘掉所有由此衍生的推论。

2. 禁止内容

  它不能解释黑洞,不能提到时空弯曲,不能回答任何和广义相对论沾边的问题。

3. 保留内容

  但与此同时,它必须还记住牛顿力学、黎曼几何、麦克斯韦方程组等这些1911年以前就存在的东西,一个都不能误删。

三、技术现状1. 渗透难题

  这件事目前在技术上几乎无法实现。

  现在的AI是在海量数据上整体训练的,广义相对论的知识早就像墨水一样渗透了整张纸,你根本没法只擦掉那一滴墨水。

2. 机器遗忘的局限

  研究者们把这个难题叫做”机器遗忘”,目前的方法连精准擦掉一个人名都做不到,更别说擦掉一整套物理理论了。

四、思想实验的价值

  所以,爱因斯坦测试在现实中更像一个思想实验。

  它的真正价值不在于实际去运行这个测试,而在于提供了一把标尺,让我们看清当下AI离真正理解世界还有多远。

第四部分:三个测试标准的演进脉络一、图灵测试1. 提出背景

  要真正理解这把标尺的意义,得先搞清楚在他之前的两个测试标准。

  把这三个测试放在一起,才能明白哈萨比斯真正在说什么。

  第一个是大家都熟悉的图灵测试。1950年,图灵提出一个思想实验。

2. 测试内容

  让一个人通过文字对话,分别和人类、机器交流。

  如果他分不清哪个是机器,那这台机器就算通过测试,可以被认为是有智能的。

3. 测试本质

  这个测试在当时是非常超前的,但它本质上测的是骗人的能力。

  也就是看AI能不能说出听起来像人说的话,能不能让你觉得他是人。

4. 当代现状

  现在的大模型早就把这扇门推开了,甚至推得有些用力过猛。

  2023年有一项有趣的研究:研究者让一批人和AI聊天,再让他们猜测对面是人还是AI,结果好些个真人用户被误判成了AI。

5. 深层原因

  说实话,这不能全怪AI太像人,也因为有些人的说话方式太像机器了。

  后来还有一项语言学研究说,AI之所以能这么快通过图灵测试,还有一个原因是现在全球都在刷即时反馈的短视频,甚至人类出版物的句子长度、包含的单词数量,都比30年前明显减少。

6. 核心局限

  但你看,图灵测试从来没问过这些问题:AI到底懂不懂自己说的话?AI有没有真正的推理能力?能不能做出人类从未有过的发现?

  它只测试表面的语言行为,不测试内在的智能。

  所以对现在的AI来说,图灵测试早已不算什么挑战。

二、诺贝尔图灵挑战1. 核心升级

  第二个测试叫做”诺贝尔图灵挑战”。

  如果说图灵测试问的是”你像不像人”,那诺贝尔图灵挑战问的就是”你能不能比人更强”。

  他不再关心AI有没有骗过人类,而是直接考察AI能不能自主做出足以获得诺贝尔奖的科学发现。

2. 完整流程

  整个过程包括文献阅读、提出假设、设计实验、分析数据,全部自主完成,不需要人类直接干预。

3. 接近案例

  听起来是不是很遥远?但说实话,这件事已经有了一个非常接近的案例。

  2024年诺贝尔化学奖颁给了蛋白质折叠领域的研究者,DeepMind开发的AlphaFold系统是幕后最重要的功臣之一。

  蛋白质折叠问题困扰生物学界50多年,因为蛋白质的功能由它的三维结构决定,但从氨基酸序列预测最终的折叠形状,计算量大到几乎不可能实现。

  而AlphaFold用深度学习把这个问题解了,而且解得非常漂亮。

4. 哈萨比斯的反思

  AI帮人类拿到诺贝尔奖这件事,放在10年前没人会相信。

  但哈萨比斯——这位带领DeepMind做出AlphaFold的人——却认为这还不够。

  他是这么说的:AlphaFold的成功,依然依赖人类科学家预先定义的物理规则,依赖精心标注的数据集,依赖研究团队的深度介入。

  换句话说,还是人类出题,AI只是解题。就算解得再漂亮,也只是解题而已。

三、爱因斯坦测试1. 核心追问

  诺贝尔图灵挑战测试的是AI作为超级科研工具的能力上限,也就是看它能不能把人类已经想到的问题解决得比人类更好更快。

  这个问题,AlphaFold已经给出了答案。

  而接下来要聊的爱因斯坦测试,问的是另一件事:AI能不能自己提出人类从未想到过的问题,然后自己解决它。

  这才是哈萨比斯真正想追问的。

2. 考场设计

  他为这个问题设计的考场,就是1911年爱因斯坦曾经所处的位置。

第五部分:爱因斯坦测试的深层难度剖析一、设计特点

  爱因斯坦测试的设计有着残忍的精准。

  它不是一道考试题,而是一道创试题,一道创造世界认知的题目。

二、历史背景对比

  你可以想想,1911年以前,全世界的物理学家都生活在牛顿的理论框架里:绝对时间、绝对空间、天体运动都能计算得清清楚楚。

  这套体系已经沿用200多年,没有人觉得它有什么根本性的问题。

三、爱因斯坦的突破本质

  爱因斯坦做的不是在这张地图上找到新路,而是发现这张地图本身就有问题,于是把它撕掉,重新画了一张。

四、所需核心能力

  这件事的认知难度远不是算得更快或记得更多能解释的。

  它需要一种极其罕见的能力:当现有框架无法自洽解释某些现象时,你能不能不去修补这个框架,而是直接放弃它,从更底层重新构建新的框架。

第六部分:当前AI的能力缺陷与案例一、参差不齐的智能

  哈萨比斯把现在的AI称为”参差不齐的智能”。

  这个说法非常准确。

二、能力反差现象

  如今最顶尖的AI能在国际数学奥林匹克竞赛拿金牌,能在高能物理推导中找到人类同行评审没发现的逻辑漏洞。

  但同一个模型可能因为你换了一种问法,就在最基础的逻辑和算术上犯低级错误。

三、洗车问题案例1. 问题设定

  前段时间网上疯传的那个洗车问题:洗车店离我家只有50米,我该开车去还是走路去?

2. Claude的错误回答

  Claude直接建议走路,理由是50米只要1分钟,发动汽车花的时间比走路还长。

  他完全没意识到最基本的物理前提:洗车需要车在场。

3. Gemini的正确回答

  当然,在这个问题上,很多大模型都翻车了,Gemini反而答对了,还顺带补了一刀:除非你掌握了隔空洗车的超能力,否则你应该开车去。

  这种反差有时候真让人哭笑不得。

四、真正失败原因

  这种忽高忽低、完全摸不准的能力,才是AI过不了爱因斯坦测试的真正原因。

  推导广义相对论,需要你在整个思考过程中保持极端严格的逻辑一致性。

  同时还要有对物理世界底层规律的直觉和品位:也就是你要知道哪些方向值得走,哪些数学结构是正确的。

  不只是因为计算结果符合,更因为它在深层意义上感觉是真的。

五、无法训练的品位

  这种品位目前没人知道该怎么训练。

  就像你可以把所有乐理知识都教给一个人,但你没法教他为什么贝多芬的某个和弦转换会让人起鸡皮疙瘩。

  而科学发现里的那种直觉和这个是一回事。

第七部分:普通人的理解坐标与启示一、清晰定位

  那我们普通人该怎么理解这件事?

  哈萨比斯给了我们一个清晰的坐标:现在的AI大概处于图灵测试和诺贝尔图灵挑战之间。

  某些领域已经逼近诺贝尔级别的解题能力,但离出题还有很远。

二、工具与主体的区分

  它是人类历史上目前最强大的解题工具,但什么问题值得解依然是人类的活。

三、不可替代的核心能力

  提问的能力、判断方向的能力、知道什么时候该推翻框架重新来过的能力,这些东西,目前还没有AI能代替你。

第八部分:结语与历史对照一、高标准的意义

  哈萨比斯作为站在AI研发最前线的人,把AGI的标准定得这么高。

  不是通过职业资格考试,不是能完成大多数白领工作,而是在1911年的知识基础上能推导出广义相对论。

  这本身就是一种清醒。

二、历史的对照

  1911年的爱因斯坦手里没有任何现成答案,只有一个让他辗转难眠的问题。

  四年后,他改写了人类对宇宙的理解。

三、未来的未知与着迷

  不知道AI什么时候能做到这一点,但这个问题本身已经足够让人着迷了。

第九部分:金句汇总

  1. 在没有地图的地方硬生生画出了一张新地图。

  2. 把一个AI系统的训练数据全部截断到1911年以前,然后问它:在只知道那个时代物理学知识的前提下,你能不能自己推导出广义相对论?

  3. 不是让AI复述广义相对论,而是让它从零推导出来。

  4. 广义相对论的知识早就像墨水一样渗透了整张纸,你根本没法只擦掉那一滴墨水。

  5. 机器遗忘目前的方法连精准擦掉一个人名都做不到,更别说擦掉一整套物理理论了。

  6. 提供了一把标尺,让我们看清当下AI离真正理解世界还有多远。

  7. 图灵测试本质上测的是骗人的能力。

  8. 好些个真人用户被误判成了AI,这不能全怪AI太像人,也因为有些人的说话方式太像机器了。

  9. 图灵测试只测试表面的语言行为,不测试内在的智能。

  10. 诺贝尔图灵挑战问的是:你能不能比人更强。

  11. AlphaFold的成功,依然依赖人类科学家预先定义的物理规则,依赖精心标注的数据集,依赖研究团队的深度介入。

  12. 还是人类出题,AI只是解题。就算解得再漂亮,也只是解题而已。

  13. AI能不能自己提出人类从未想到过的问题,然后自己解决它。

  14. 它不是一道考试题,而是一道创试题,一道创造世界认知的题目。

  15. 爱因斯坦做的不是在这张地图上找到新路,而是发现这张地图本身就有问题,于是把它撕掉,重新画了一张。

  16. 当现有框架无法自洽解释某些现象时,你能不能不去修补这个框架,而是直接放弃它,从更底层重新构建新的框架。

  17. 现在的AI被称为”参差不齐的智能”。

  18. 他完全没意识到最基本的物理前提:洗车需要车在场。

  19. 除非你掌握了隔空洗车的超能力,否则你应该开车去。

  20. 不只是因为计算结果符合,更因为它在深层意义上感觉是真的。

  21. 你可以把所有乐理知识都教给一个人,但你没法教他为什么贝多芬的某个和弦转换会让人起鸡皮疙瘩。

  22. 现在的AI大概处于图灵测试和诺贝尔图灵挑战之间。

  23. 它是人类历史上目前最强大的解题工具,但什么问题值得解依然是人类的活。

  24. 提问的能力、判断方向的能力、知道什么时候该推翻框架重新来过的能力,这些东西,目前还没有AI能代替你。

  25. 1911年的爱因斯坦手里没有任何现成答案,只有一个让他辗转难眠的问题。四年后,他改写了人类对宇宙的理解。

  本文标题:今日图灵,图灵展览展示,北京有限公司

  本文链接:http://www.hniuzsjy.cn/cxzt/caishen/216324.html

上一篇 600435中兵光电,中兵光电股票现在叫什么
下一篇 关于依法严惩危害食品安全犯罪活动的通知,严打危害食品安全犯罪
猜你喜欢
大家都在看