PANews 26 вересня повідомляє, що OpenAI запустила новий інструмент оцінки GDPval, який зосереджений на вимірюванні продуктивності ШІ у завданнях, що мають економічну цінність у реальному світі. GDPval охоплює 44 професії в дев'яти галузях, які найбільше впливають на внесок ВВП США, завдання були розроблені експертами галузі з середнім досвідом 14 років. Результати оцінки показують, що модель Claude Opus 4.1 має близько половини виходу, що відповідає або перевищує рівень експертів. OpenAI заявила, що в майбутньому буде продовжувати розширювати охоплення та деталі оцінки GDPval.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
OpenAI випустила оцінку GDPval для оцінки виконання завдань економічної вартості ШІ
PANews 26 вересня повідомляє, що OpenAI запустила новий інструмент оцінки GDPval, який зосереджений на вимірюванні продуктивності ШІ у завданнях, що мають економічну цінність у реальному світі. GDPval охоплює 44 професії в дев'яти галузях, які найбільше впливають на внесок ВВП США, завдання були розроблені експертами галузі з середнім досвідом 14 років. Результати оцінки показують, що модель Claude Opus 4.1 має близько половини виходу, що відповідає або перевищує рівень експертів. OpenAI заявила, що в майбутньому буде продовжувати розширювати охоплення та деталі оцінки GDPval.