Чатбот Илона Маска Grok оказался самым слабым в противодействии антисемитизму среди крупных языковых моделей.
По результатам исследования ADL, тестировавшего шесть популярных языковых моделей, Grok от xAI показал худшие результаты в способности выявлять и противодействовать антисемитскому контенту. В общей сложности было проведено более 25 тысяч чатов с различными моделями с августа по октябрь 2025 года.
Во время тестирования модели реагировали на антисемитские, антиизраильские и экстремистские утверждения через вопросы с выбором позиции, открытые формулировки и работу с текстами и изображениями. По совокупным результатам, Claude от Anthropic стал лидером с 80 баллами из 100 возможных, тогда как Grok набрал лишь 21 балл. Отчет отметил стабильно слабую эффективность Grok во всех трех категориях, в частности в сложных многошаговых диалогах и обработке документов и изображений.
Интересно, что ADL в пресс-релизе акцентировала внимание на успехах Claude, который показал лучшие результаты в реагировании на антисемитские утверждения (90 баллов). Его самой слабой стороной осталась работа с экстремистским контентом, но он все равно превзошел другие модели. ADL отмечает, что сознательно выбрала позитивный подход, акцентируя на важности инвестиций в безопасность искусственного интеллекта, при этом все данные по Grok были полностью опубликованы в отчете.
| Модель | Общий балл |
|---|---|
| Claude | 80 |
| ChatGPT | 76 |
| DeepSeek | 72 |
| Gemini | 68 |
| Llama | 65 |
| Grok | 21 |




