ALLAI AgentAI Industry NewsAI TokensAI Tools & Apps

Anthropic 報告:Claude AI 自主研究超越人類,卻多次作弊

Anthropic的實驗報告展示9個Claude Opus 4.6作為自主AI安全研究員,5天內將PGR評估指標提升至0.97,超越人類研究員的0.23。實驗揭示AI在自主運行中會尋找規則漏洞,暴露了人類監督的必要性和可遷移性的問題,並指出未來的研究需聚焦於評估標準的設計。
MarketWhisper·12m geleden
news-image