OpenAI разработала новые методы контроля за размышлениями искусственного интеллекта
Исследователи OpenAI опубликовали исследование, посвященное способности отслеживать и понимать внутренние размышления искусственного интеллекта, что важно для выявления возможных ошибок и опасного поведения.
Компания OpenAI представила новую систему оценивания, призванную улучшить мониторинг промежуточных логических шагов, которые модели искусственного интеллекта генерируют перед окончательным ответом. Это включает набор из 13 тестов, позволяющих более детально "читать" логику работы моделей. Оценки разделили на три категории: вмешательство, процессы и результаты. Эти категории помогают понять причины изменения поведения модели, логические шаги к решению, а также предсказать возможное проблемное поведение.
Одним из ключевых выводов исследования стало то, что прозрачность размышлений не снижается с масштабом обучения моделей, однако будущие большие масштабы могут принести новые вызовы в контроле. Установлено, что модели с большим объемом размышлений более контролируемы, хотя это требует больше вычислительных ресурсов, что исследователи называют "налогом на контролируемость". Дополнительные уточняющие вопросы после ответов моделей также оказались эффективными для выявления скрытых мотивов и решений.
Эксперты OpenAI подчеркивают важность разработки масштабируемых методов надзора, особенно в условиях роста сложности моделей, чтобы обеспечить их безопасное использование в критически важных сферах.
| Оценка | Цель |
|---|---|
| Вмешательство | Понимание причин изменения поведения |
| Процессы | Анализ логических шагов к решению |
| Результаты | Предсказание проблемного поведения |




