Розробники створили ШІ-модель на основі текстів до 1931 року
Група розробників під керівництвом екс-працівника OpenAI Алека Редфорда презентувала мовну модель Talkie-1930-13B, яка працює на основі текстових даних, зібраних до 1931 року. В основу моделі лягло близько 260 мільярдів токенів текстів англійською, що включають книги, газети, наукові журнали, патенти та юридичні документи.
Ця експериментальна ініціатива дозволяє оцінити, як штучний інтелект діє в умовах «вінтажних» знань, що виключають сучасну інформацію. Наприклад, Talkie-1930 не має відомостей про Другу світову війну та сучасні технології, хоча інколи можливі витоки новіших даних.
Попри обмеження, модель добре розуміє мову, оперує базовою логікою та математикою. Як виявилось, навіть без знань програмування, вона здатна писати простий код за умови надання прикладів. Це відкриває можливість тестувати здатність ШІ узагальнювати знання та робити припущення про майбутнє.
Одним із головних завдань стало виявлення, чи може ШІ-модель «з минулого» самостійно генерувати великі ідеї, такі як теорія відносності. Проте, якість даних, оцифрованих зі старих джерел, та проникнення сучасних знань у датасет залишаються викликами.
Зараз команда зосереджена на масштабуванні моделі до рівня, що відповідає раннім версіям ChatGPT, а також на розширенні корпусу текстів іншими мовами.
| Модель | Токени | Особливості | Проблеми |
| Talkie-1930-13B | 260 млрд | Розуміння мови, логіка, базова математика | Якість даних, витоки часу |




