Чатбот Ілона Маска Grok виявився найслабшим у протидії антисемітизму серед великих мовних моделей.
За результатами дослідження ADL, що тестувало шість популярних мовних моделей, Grok від xAI показав найгірші результати у здатності виявляти та протидіяти антисемітському контенту. Загалом було проведено понад 25 тисяч чатів з різними моделями від серпня до жовтня 2025 року.
Під час тестування моделі реагували на антиєврейські, антиізраїльські та екстремістські твердження через запитання з вибором позиції, відкриті формулювання та роботу з текстами й зображеннями. За сукупними результатами, Claude від Anthropic став лідером з 80 балами зі 100 можливих, тоді як Grok набрав лише 21 бал. Звіт відзначив стабільно слабку ефективність Grok у всіх трьох категоріях, зокрема у складних багатокрокових діалогах та обробці документів і зображень.
Цікаво, що ADL у пресрелізі акцентувала на успіхах Claude, який показав найкращі результати у реагуванні на антиєврейські твердження (90 балів). Його найслабшою стороною залишилася робота з екстремістським контентом, але він все одно перевершив інші моделі. ADL зазначає, що свідомо обрала позитивний підхід, акцентуючи на важливості інвестицій у безпеку штучного інтелекту, при цьому всі дані щодо Grok були повністю оприлюднені в звіті.
| Модель | Загальний бал |
|---|---|
| Claude | 80 |
| ChatGPT | 76 |
| DeepSeek | 72 |
| Gemini | 68 |
| Llama | 65 |
| Grok | 21 |




