Разработчики создали ИИ-модель на основе текстов до 1931 года
Группа разработчиков под руководством экс-сотрудника OpenAI Алека Редфорда презентовала языковую модель Talkie-1930-13B, которая работает на основе текстовых данных, собранных до 1931 года. В основу модели легло около 260 миллиардов токенов текстов на английском, которые включают книги, газеты, научные журналы, патенты и юридические документы.
Эта экспериментальная инициатива позволяет оценить, как искусственный интеллект действует в условиях «винтажных» знаний, исключающих современную информацию. Например, Talkie-1930 не имеет сведений о Второй мировой войне и современных технологиях, хотя иногда возможны утечки более новых данных.
Несмотря на ограничения, модель хорошо понимает язык, оперирует базовой логикой и математикой. Как оказалось, даже без знаний программирования, она способна писать простой код при условии предоставления примеров. Это открывает возможность тестировать способность ИИ обобщать знания и делать предположения о будущем.
Одной из главных задач стало выявление, может ли ИИ-модель «из прошлого» самостоятельно генерировать большие идеи, такие как теория относительности. Однако качество данных, оцифрованных из старых источников, и проникновение современных знаний в датасет остаются вызовами.
Сейчас команда сосредоточена на масштабировании модели до уровня, соответствующего ранним версиям ChatGPT, а также на расширении корпуса текстов другими языками.
| Модель | Токены | Особенности | Проблемы |
| Talkie-1930-13B | 260 млрд | Понимание языка, логика, базовая математика | Качество данных, утечки времени |




