OpenAI研究如何破解GPT-4思维,开放超级部分团队的工作,Ilya Sutskever在提交人的名单上。
该研究提出了改进大规模稀释编码器培训的方法,并成功地将GPT-4内部表解为1 600万可理解特征。
因此,关于复杂语文模式的内部工作变得更加容易理解。
事实上,早在六个月前,研究就开始了:
OpenAI公布时, 前超隔离小组的成员和论文提出并分享:
我们采用了一个新的基于TopK激活功能的远程编码器培训平台,消除了功能减少,并允许直接设定L0。
我们发现这种方法在平均差幅/L0边界上效果良好,即使规模为1 600万,也很少损失潜在单位(延时单位)。
Ilya Alliance Jan Leike(RLHF发明者之一,
这是一大进步! 分裂编码器是目前真正理解模型内部思维的最佳方法。
更有趣的是,人类学最近 派了类似的工作。
从Claude 3.0 Sonnet中间层成功提取了数百万个地物,提供了其计算内部状况的广泛概念图。
所以他们中有些人驾驶小麦,工作牛, 但是OpenAI不是有点太焦虑, 论文没有指向Arxiv, 分析似乎没有走那么远。
这是对人类的研究和Jan Leike的离开的回应吗?
回到重点,OpenAI超级和解小组 是如何找到如何打破GPT -4思维的?
见OpenAI新出版的研究报告Ilya的名字。
目前,语言模式神经网络的内部工作原则仍然是一个 " 黑盒 ",不能完全理解。
为了理解和解释神经网络,首先必须找到可用于神经计算的基本构件。
鹅,神经网络中的激活,通常显示不可预测和复杂的模式,而且几乎总是每次进入都触发非常密集的激活。 在现实世界中,它是薄的,在任何特定情况下,只有人类大脑中相关神经元的一小部分被激活。
因此,研究人员开始研究编码器的稀释问题,这种技术在神经网络中发现对产生某一特定产出至关重要的几个 " 特征 ",类似于人们在分析问题时脑中至关重要的那些特征。
它们的特性呈现出稀有的激活模式,这些模式自然与人类易于理解的概念相吻合,即使没有直接的解释性激励。
然而,现有的培训稀有编码员的方法面临着重建问题,在大规模扩张中,交易越少,失败的可能性就越大等等。
在OpenAI超级调整小组的这项研究中,他们采用了一个新的基于TopK激活功能的远程编码器(SAE)培训平台,消除了特征减少问题,并直接设定L0(直接控制网络中的非零激活次数)。
该方法在平均差错(MSE)和L0评估指标方面表现极佳,尽管在1 600万规模的培训中,该方法几乎没有损失潜在单位(延迟)。
具体而言,它们使用GPT-2小型和GPT-4系列模型的碎片流作为其编码器的输入器,选择网络深层(接近产出层)的碎片流,如GPT-45/6层和GPT-2小8层。
并使用先前工作中提出的ReLU 基线自编码器结构,编码器可以通过雷LU的激活获得稀释潜伏兹,而解码器则从兹重新生成碎片流。 损失功能包括重建MSE损失和L1, 用于促进潜伏薄度。
小组然后提议使用TopK激活功能,而不是传统的L1。TopK仅保留编码器前引爆器上的最大K值,留下零,从而直接控制低空 k。
L1不需要L1,L1引起的激活收缩已被避免。实验表明,TopK在重新建立质量和薄度之间比ReLU等激活功能之间有一个更好的权衡。
此外,大量潜伏物在从编码器接受培训后随时被激活(实时),导致计算资源的浪费。
团队解决办法包括两项关键技术:
初始化编码器重量为要转换的解码器重量,以便在初始化时可以激活潜值。
添加辅助重建损失项,以利用损失的顶层潜伏物模拟重建损失。
所以即使是1600万个 平坦质量自我记录 也有7%的失败率。
该小组还提议改进 " 顶级 " 多重损失功能,在高薄度情况下提高一般化能力,并探讨两种不同的培训战略对潜伏数量的影响,在这方面,这种影响并不太大。
为了证明该方法的可缩放性,小组培训了一个薄编码器,配有上述1 600万平板,并加工了40亿个GPT-4模型启动时的标记。
GPT-4进程启动40亿面值
其次,评估编码器质量的关键在于所提取的特征是否对下游应用有用,而不仅仅是优化损失和薄度的重建。
因此,小组提出了评估自我编码系统质量的若干新方法,包括:
下游损失(下游损失):评估潜伏对编码器重新创造的语言模型的性能的影响。
测试损失:检查自编码器能否恢复我们认为可能找到的特征。
解释性:评估能否通过简单和精确的解释来理解自我编码潜伏的引爆。
消除稀有现象:评估消除个别潜伏对下游预测的影响。
实验发现,TopK自编码器的自下而上的损失比重建MSE的情况有所改善。
随着潜伏物数量的增加,探测损失有所改善,但在一些地区,探测损失将上升和下降。
此外,研究人员发现,当潜伏物数量大,稀释物数量少时,准确性和召回率是最佳的。
TopK模式的召回率高于RELU模式,并且能够更好地抑制假引爆。
分解混杂性(见上文图6b),小组发现自我编码潜值的影响比直接稀释矢量小,但是,当宽度K太高时,效果较小。
最后,编码器稀释问题还远未解决,本研究中,SAE只捕捉到GPT-4行为的一小部分,即使它看起来是单一的,其潜伏也难以准确解释。 而且,从精细的 SAE到更好地了解模型行为,还需要做很多工作。
关于这项研究的更多详情,有关家庭成员可查看原始文件。
OpenAI还公开公布GPT-2的完整源代码和多个小型自编码模型重量,还有一种在线可视化工具来查看多种模型的启动功能,包括1 600万平板GPT-4自编码器。
OpenAI: https://cdn.openai.com/papers/sparse-autoencoders.pdf。
人类学:https://transexen-电路.pub/2024/scaling-monosemantics/index.html。
链接到引用 :
[ 1 ] https://x.com/OpenAI/status/1798762092528586945
[ 2 ] https://openai.com/index/extracting-concepts-from-gpt-4/
[ 3 ] https://news.ycombinator.com/item?id=40599749
[ 4 ] https://x.com/janleike/status/1798792652042744158
[ 5 ] https://openaipublic.blob.core.windows.net/sparse-autoencoder/sae-viewer/index.html
注册有任何问题请添加 微信:MVIP619 拉你进入群
打开微信扫一扫
添加客服
进入交流群
发表评论