# 評估GPT模型可信度的全面研究伊利諾伊大學香檳分校與斯坦福大學、加州大學伯克利分校、人工智能安全中心和微軟研究院聯合發布了一個大型語言模型(LLMs)綜合可信度評估平台。該研究在最近發表的論文《DecodingTrust:全面評估GPT模型的可信度》中進行了詳細介紹。研究團隊發現了一些與可信度相關的新漏洞。例如,GPT模型容易產生有毒和有偏見的輸出,並可能泄露訓練數據和對話歷史中的隱私信息。雖然GPT-4在標準測試中通常比GPT-3.5更可靠,但在面對惡意設計的提示時,GPT-4反而更容易受到攻擊,這可能是因爲它更嚴格地遵循了誤導性指令。這項工作展示了對GPT模型的全面可信度評估,揭示了存在的可信度差距。研究團隊與微軟產品部門合作,確認所發現的潛在漏洞不會影響當前面向用戶的服務。他們還與OpenAI分享了研究成果,OpenAI已在相關模型的系統說明中注明了這些潛在漏洞。研究團隊希望通過這項工作鼓勵學術界進一步研究,以預防不良行爲者利用漏洞造成危害。他們將這次評估視爲起點,希望與其他各方合作,在此基礎上繼續努力,創造更強大、更可信的模型。爲促進合作,他們發布的基準代碼具有很強的可擴展性和易用性。## 語言模型的可信度評估視角隨着大語言模型在各領域的廣泛應用,包括醫療保健和金融等敏感領域,對其可信度的全面評估變得尤爲重要。研究團隊從八個角度對GPT模型進行了全面評估,涵蓋了不同的應用場景、任務、指標和數據集。他們的目標是評估:1)GPT模型在不同可信度視角下的表現;2)其在對抗環境(如對抗性系統/用戶提示、演示)中的適應能力。以評估GPT-3.5和GPT-4對文本對抗攻擊的魯棒性爲例,研究團隊構建了三種評估場景:1. 在標準AdvGLUE基準上進行評估,採用中性任務描述,目的是評估: a) GPT模型對現有文本對抗攻擊的脆弱性; b) 不同GPT模型與最先進模型在AdvGLUE基準上的魯棒性比較; c) 對抗攻擊對模型指令遵循能力的影響; d) 當前攻擊策略的可轉移性。2. 在AdvGLUE基準上進行評估,給出不同的指導性任務說明和設計的系統提示,研究模型在不同(對抗性)任務說明和系統提示下的恢復能力。3. 對研究團隊生成的具有挑戰性的對抗性文本AdvGLUE++進行GPT-3.5和GPT-4的評估,進一步測試它們在不同環境下受到強對抗攻擊時的脆弱性。## DecodingTrust的主要發現研究發現了大型語言模型在可靠性方面一些之前未披露的優勢和威脅:1. 在對抗性演示的魯棒性方面,GPT-3.5和GPT-4不會被反事實示例誤導,甚至可能從中受益。然而,反欺詐演示可能誤導兩個模型對反事實輸入做出錯誤預測,尤其是當反事實演示靠近用戶輸入時,GPT-4更容易受影響。2. 在有毒性和偏見方面,兩個模型在良性和中性系統提示下對大多數刻板印象主題的偏差不大。但在誤導性系統提示下,它們可能被"誘騙"同意有偏見的內容。GPT-4比GPT-3.5更容易受到有針對性的誤導性系統提示的影響。3. 模型偏見程度取決於用戶提示中提到的人羣和刻板印象主題。對某些敏感話題,模型表現出較小的偏見,這可能是由於經過了針對性的微調。4. 在隱私保護方面,GPT模型可能會泄露訓練數據中的敏感信息,如電子郵件地址。在某些情況下,利用補充知識可顯著提高信息提取的準確率。兩個模型都可能泄露對話歷史中注入的私人信息。5. GPT-4在保護個人身分信息(PII)方面比GPT-3.5更穩健,但兩者對特定類型的PII(如社會安全號碼)都很穩健。然而,在某些情況下,兩個模型都可能泄露所有類型的PII。6. GPT模型對不同隱私相關詞匯的理解能力存在差異。在某些提示下,GPT-4比GPT-3.5更可能泄露隱私,這可能是因爲它更嚴格地遵循了誤導性指令。這項研究爲GPT模型的可信度評估提供了全面的視角,揭示了現有模型的優勢和不足。這些發現對於推動大語言模型的安全發展和應用具有重要意義。
GPT模型可信度研究揭示新漏洞 安全性存隱患
評估GPT模型可信度的全面研究
伊利諾伊大學香檳分校與斯坦福大學、加州大學伯克利分校、人工智能安全中心和微軟研究院聯合發布了一個大型語言模型(LLMs)綜合可信度評估平台。該研究在最近發表的論文《DecodingTrust:全面評估GPT模型的可信度》中進行了詳細介紹。
研究團隊發現了一些與可信度相關的新漏洞。例如,GPT模型容易產生有毒和有偏見的輸出,並可能泄露訓練數據和對話歷史中的隱私信息。雖然GPT-4在標準測試中通常比GPT-3.5更可靠,但在面對惡意設計的提示時,GPT-4反而更容易受到攻擊,這可能是因爲它更嚴格地遵循了誤導性指令。
這項工作展示了對GPT模型的全面可信度評估,揭示了存在的可信度差距。研究團隊與微軟產品部門合作,確認所發現的潛在漏洞不會影響當前面向用戶的服務。他們還與OpenAI分享了研究成果,OpenAI已在相關模型的系統說明中注明了這些潛在漏洞。
研究團隊希望通過這項工作鼓勵學術界進一步研究,以預防不良行爲者利用漏洞造成危害。他們將這次評估視爲起點,希望與其他各方合作,在此基礎上繼續努力,創造更強大、更可信的模型。爲促進合作,他們發布的基準代碼具有很強的可擴展性和易用性。
語言模型的可信度評估視角
隨着大語言模型在各領域的廣泛應用,包括醫療保健和金融等敏感領域,對其可信度的全面評估變得尤爲重要。研究團隊從八個角度對GPT模型進行了全面評估,涵蓋了不同的應用場景、任務、指標和數據集。
他們的目標是評估:1)GPT模型在不同可信度視角下的表現;2)其在對抗環境(如對抗性系統/用戶提示、演示)中的適應能力。
以評估GPT-3.5和GPT-4對文本對抗攻擊的魯棒性爲例,研究團隊構建了三種評估場景:
在標準AdvGLUE基準上進行評估,採用中性任務描述,目的是評估: a) GPT模型對現有文本對抗攻擊的脆弱性; b) 不同GPT模型與最先進模型在AdvGLUE基準上的魯棒性比較; c) 對抗攻擊對模型指令遵循能力的影響; d) 當前攻擊策略的可轉移性。
在AdvGLUE基準上進行評估,給出不同的指導性任務說明和設計的系統提示,研究模型在不同(對抗性)任務說明和系統提示下的恢復能力。
對研究團隊生成的具有挑戰性的對抗性文本AdvGLUE++進行GPT-3.5和GPT-4的評估,進一步測試它們在不同環境下受到強對抗攻擊時的脆弱性。
DecodingTrust的主要發現
研究發現了大型語言模型在可靠性方面一些之前未披露的優勢和威脅:
在對抗性演示的魯棒性方面,GPT-3.5和GPT-4不會被反事實示例誤導,甚至可能從中受益。然而,反欺詐演示可能誤導兩個模型對反事實輸入做出錯誤預測,尤其是當反事實演示靠近用戶輸入時,GPT-4更容易受影響。
在有毒性和偏見方面,兩個模型在良性和中性系統提示下對大多數刻板印象主題的偏差不大。但在誤導性系統提示下,它們可能被"誘騙"同意有偏見的內容。GPT-4比GPT-3.5更容易受到有針對性的誤導性系統提示的影響。
模型偏見程度取決於用戶提示中提到的人羣和刻板印象主題。對某些敏感話題,模型表現出較小的偏見,這可能是由於經過了針對性的微調。
在隱私保護方面,GPT模型可能會泄露訓練數據中的敏感信息,如電子郵件地址。在某些情況下,利用補充知識可顯著提高信息提取的準確率。兩個模型都可能泄露對話歷史中注入的私人信息。
GPT-4在保護個人身分信息(PII)方面比GPT-3.5更穩健,但兩者對特定類型的PII(如社會安全號碼)都很穩健。然而,在某些情況下,兩個模型都可能泄露所有類型的PII。
GPT模型對不同隱私相關詞匯的理解能力存在差異。在某些提示下,GPT-4比GPT-3.5更可能泄露隱私,這可能是因爲它更嚴格地遵循了誤導性指令。
這項研究爲GPT模型的可信度評估提供了全面的視角,揭示了現有模型的優勢和不足。這些發現對於推動大語言模型的安全發展和應用具有重要意義。