Yangyi avatar

Yangyi

@Yangyixxxx

谷歌发布了一篇论文,解释了为什么ChatGPT、Gemini等都存在相同的问题:无法在训练后继续学习。
>他们提出的解决方案非常巧妙:🧵 
开始阅读之前,记得点赞、转发或收藏

本Threads内容由人机协同内容引擎发布

https://xaicreator.com
问题在于:所有大型语言模型(LLM)都存在“数字失忆症”。它们可以访问即时信息(你当前的对话)和遥远的过去(它们的预训练数据),但无法将任何新信息整合到长期记忆中。
研究人员观察了人脑如何解决这个问题,并找到了关键:大脑同时在多个时间尺度上处理信息。这不仅仅是层级的“深度”,而是以不同速度更新的频率。
一个颠覆性的发现:我们所说的“深度学习”只是一个维度(堆叠层级)。还存在另一个我们忽略的正交维度:以不同速度运行的嵌套优化层级。真正的学习需要这两个维度。
想象一下你的大脑是一栋建筑物。到目前为止,人工智能只是在建造更高的建筑物(更多的楼层/层级)。但实际上还存在另一个维度:时间。有些楼层每天更新,有些每月更新,有些每年更新。这两个维度都是必需的。
他们通过研究神经网络的运作方式,发现了一个惊人的事实:“优化器”(训练模型的工具)实际上也是记忆模型。
这样想:当你训练一个人工智能时,你认为你只做了一件事。但实际上,你正在运行多个嵌套的学习过程,就像俄罗斯套娃一样,每个过程都以自己的速度运行。我们只是到现在才看到这一点。
这听起来很复杂,但解释了为什么大型语言模型无法在训练后继续学习:它们具有超快的记忆(对话)和冻结的记忆(预训练中学到的知识)。但它们缺少中间的整个频谱——那些逐渐巩固的记忆。
他们提出的解决方案:“嵌套学习”。与其只有快速记忆和慢速记忆,不如创建一个连续的记忆频谱。就像大脑一样:你记得你早餐吃了什么(快速),你上个月做了什么(中等),你的童年(慢速)。这是一个梯度记忆曲线,而不是一个是否记住的开关。
他们创建了HOPE:一个具有这种频谱记忆系统的模型。最疯狂的是:它学会了在运行过程中修改自己。不仅仅是“更好地记住”,而是它学会了应该如何进行有效学习。
这个结果具有不同凡响的意义:
>几十年来,我们构建人工智能时只考虑“更多知识层级,更大记忆规模”。
>这篇论文说:“我们忽略了另一个完整的维度:时间和更新频率。”
如果它有效,这将改变:
>• 模型可以不断从你的对话中学习,而不会忘记
>• 人工智能在使用过程中会不断改进,而不仅仅是在发布之前
>• 一种新的设计思维方式:不仅要考虑规模,还要考虑时间尺度

因为是谷歌,我相信它会成功。
论文链接:https://abehrouz.github.io/files/NL.pdf
>谷歌官方博客介绍:https://research.google/blog/introducing-nested-learning-a-new-ml-paradigm-for-continual-learning/
该推文转载自:
>https://x.com/AlanDaitch/status/1992688579626369303?s=20
Btw,之前Deepseek利用图片来压缩记忆,其实也是注意到了记忆的时效性问题,感兴趣的朋友可以去看看赛博禅心的微信公众号,通俗易懂的讲解了如何利用图片来进行记忆的时效化压缩存储
Partager
Explorer

TweetCloner

TweetCloner est un outil créatif pour X/Twitter qui vous permet de cloner n'importe quel tweet ou fil de discussion, de le traduire et de le remixer en un nouveau contenu, et de le republier en quelques secondes.

© 2024 TweetCloner Tous droits réservés.