OpenAI розробила нові методи контролю за міркуваннями штучного інтелекту
Дослідники OpenAI опублікували дослідження, присвячене здатності відстежувати та розуміти внутрішні міркування штучного інтелекту, що є важливим для виявлення можливих помилок і небезпечної поведінки.
Компанія OpenAI представила нову систему оцінювання, покликану покращити моніторинг проміжних логічних кроків, які моделі штучного інтелекту генерують перед остаточною відповіддю. Це включає набір із 13 тестів, що дозволяють більш детально "читати" логіку роботи моделей. Оцінки поділили на три категорії: втручання, процеси та результати. Ці категорії допомагають зрозуміти причини зміни поведінки моделі, логічні кроки до рішення, а також передбачити можливу проблемну поведінку.
Одним із ключових висновків дослідження стало те, що прозорість міркувань не знижується з масштабом навчання моделей, проте майбутні більші масштаби можуть принести нові виклики в контролі. Встановлено, що моделі з більшим обсягом міркувань є більш контрольованими, хоча це вимагає більше обчислювальних ресурсів, що дослідники називають "податком на контрольованість". Додаткові уточнювальні запитання після відповідей моделей також виявилися ефективними для виявлення прихованих мотивів та рішень.
Експерти OpenAI наголошують на важливості розробки масштабованих методів нагляду, особливо в умовах зростання складності моделей, щоб забезпечити їх безпечне використання в критично важливих сферах.
| Оцінка | Ціль |
|---|---|
| Втручання | Розуміння причин зміни поведінки |
| Процеси | Аналіз логічних кроків до рішення |
| Результати | Передбачення проблемної поведінки |




