Talkie — LLM застрявшая в 1930 Есть такой жанр, тренировка LLM на исторических данных. В этот раз 13B модель натренировали на 260 миллиардах токенов до 1930 года включительно, что делает это наибольшим подобным экспериментом. Дата выбрана неслучайно — всё что написано до 1930 года, в США является общественным достоянием. Такая модель нужна для тестирования возможностей моделей предсказывать будущее и последующего развития алгоритмов. Классический гипотетический пример такого — открытие теории относительности моделью натренированной на данных до 1910. А вот для этой модели это может быть какая-то ядерная физика. Летом команда собирается выпустить модель на уровне GPT-3. Кстати к созданию этой модели приложил руку Alec Radford, который натренировал самую первую GPT. Поговорить с прошлым (есть очередь, может быть проще скачать веса) Блогпост Веса @ai_newz
Talkie — LLM застрявшая в 1930 Есть такой жанр, тренировка LLM на исторических…
Из этого канала
- #4556Mistral Medium 3.5 Это мультимодальная dense модель на 128B, с контекстом на…
Mistral Medium 3.5 Это мультимодальная dense модель на 128B, с контекстом на 256k.
- #4557OpenAI добавили в Codex питомцев И да, его можно сделать гоблином. Ну а что,…
OpenAI добавили в Codex питомцев И да, его можно сделать гоблином. Ну а что, после роста выручки в два раза за неделю, команде можно и подурачиться.
- #4558Помните вы переживали что ваше резюме сделанное с LLM, может не пройти какой-то…
Помните вы переживали что ваше резюме сделанное с LLM, может не пройти какой-то отбор в HR-системе в месте куда откликаетесь? Можете больше не переживать, всё…
- #4554У Сбера вышел Kandinsky 6.0 Image Pro. Главный апдейт тут в editing. В…
У Сбера вышел Kandinsky 6.0 Image Pro. Главный апдейт тут в editing. В side-by-side модель сравнивают с Flux 2 Max и GPT Image 1.5, причём оценивают конкретные…
- #4553Xiaomi MiMo V2.5 вышла в опенсорс Выложили две версии — Pro с 1.02T-A42B и…
Xiaomi MiMo V2.5 вышла в опенсорс Выложили две версии — Pro с 1.02T-A42B и обычная с 310B-A15B, обе поддерживаются миллион токенов контекста.