✍️ Gate 廣場「創作者認證激勵計劃」進行中!
我們歡迎優質創作者積極創作,申請認證
贏取豪華代幣獎池、Gate 精美周邊、流量曝光等超過 $10,000+ 豐厚獎勵!
立即報名 👉 https://www.gate.com/questionnaire/7159
📕 認證申請步驟:
1️⃣ App 首頁底部進入【廣場】 → 點擊右上角頭像進入個人主頁
2️⃣ 點擊頭像右下角【申請認證】進入認證頁面,等待審核
讓優質內容被更多人看到,一起共建創作者社區!
活動詳情:https://www.gate.com/announcements/article/47889
兩篇研究論文,不同角度卻指向同一個問題——什麼是concept?
想像語言存在於二維座標系。X軸是時間維度,詞彙隨著時間流動被組織成句子。Y軸是意義維度,我們之所以選擇某個詞而不是另一個,背後是意義的驅動。
最近SAEs系列的研究成果很有意思,它揭示了神經網絡模型在Y軸上是如何運作的——模型學會了提取和表達具有明確語義的概念特徵。換句話說,模型的計算過程中存在某些"節點",它們對應的不是隨意的神經激活,而是有具體含義的概念表達。這意味著意義在深度學習模型內部是可以被分解、可以被觀察的。
怎麼感覺像發現了什麼不得了的東西,但又說不太出來具體啥用...
Y軸意義維度這套比喻絕了,終於有人把這事講得這麼清楚
所以我們一直在玄學般地訓練的東西,其實內部就是一堆有具體語義的節點在工作?這得改多少人的認知啊
意義能被觀察?這要是真的,那我們對AI的理解直接升維啊
模型內部的"節點"映射概念...聽起來有點兒像給神經網絡做了個MRI掃描,挺科幻的
終於有人認真研究concept本質了,之前都是瞎蒙
二維坐標這個類比牛,但是是不是太簡化了,感覺真實情況複雜得多吧
節點能被分解觀察,那要真有惡意節點咋辦,整個系統的透明度問題必須解決
神經網絡裡真的有concept節點?那咱們是不是該重新想想AGI的實現路徑啊
Y軸這個比喻不錯,但我還是想知道這些節點真的穩定嗎?會不會就是個幻覺
坐等看更多實驗數據,感覺要推翻不少認知了
這下可以更精準地操縱模型行為了吧,既興奮又有點毛骨悚然