2つの研究論文は、異なる角度から同じ問題を指摘している——それは「concept」とは何か?
言語が二次元座標系に存在すると想像してみてください。X軸は時間軸であり、語彙は時間の流れに沿って文に組織されます。Y軸は意味の次元であり、私たちがある語を選び、別の語を選ばない理由は、意味に基づいています。
最近のSAEsシリーズの研究成果は非常に興味深いものであり、神経ネットワークモデルがY軸上でどのように動作しているかを明らかにしています——モデルは明確な意味を持つ概念的特徴を抽出し、表現することを学習しています。言い換えれば、モデルの計算過程にはいくつかの「ノード」が存在し、それらはランダムな神経活動ではなく、具体的な意味を持つ概念表現に対応しています。これは、意味が深層学習モデルの内部で分解され、観察可能であることを意味します。
原文表示