Talkie — LLM застрявшая в 1930 Есть такой жанр, тренировка LLM на исторических данных. В этот раз 13B модель натренировали на 260 миллиардах токенов до 1930 года включительно, что делает это наибольшим подобным экспериментом. Дата выбрана неслучайно — всё что написано до 1930 года, в США является общественным достоянием. Такая модель нужна для тестирования возможностей моделей предсказывать будущее и последующего развития алгоритмов. Классический пример такого — открытие теории относительности моделью натренированной на данных до 1910. А вот для этой модели это может быть какая-то ядерная физика. Летом команда собирается выпустить модель на уровне GPT-3. Кстати к созданию этой модели приложил руку Alec Radford, который натренировал самую первую GPT. Поговорить с прошлым (есть очередь, может быть проще скачать веса) Блогпост Веса @ai_newz