Интересная книжечка вышла вчера на архиве на 200 страниц по LLMам. От BERTов до ревард моделей, DPO, алайнментов и тюнингу моделек думать step-by-step. На английском. Читаем 🥳 Foundations of Large Language Models https://arxiv.org/abs/2501.09223
Интересная книжечка вышла вчера на архиве на 200 страниц по LLMам. От BERTов до…
Из этого канала
- #932Проект Stargate — это новая компания, по инвестированию $500 миллиардов в…
Проект Stargate — это новая компания, по инвестированию $500 миллиардов в течение следующих четырех лет в создание новой инфраструктуры для искусственного…
- #933АГИ через 500 лярдов:
АГИ через 500 лярдов:
- #934TREAD: Token Routing for Efficient Architecture-agnostic Diffusion Training -…
TREAD: Token Routing for Efficient Architecture-agnostic Diffusion Training - Этот простой трюк ускорит претрен вашего DIT в 25 раз! Идея такая: не все токены…
- #928Есть вот такая эксплорилка архива. https://www.alphaxiv.org/explore Что-то типа…
Есть вот такая эксплорилка архива. https://www.alphaxiv.org/explore Что-то типа https://huggingface.co/papers Показывает тренды папир на архиве К статьям можно…
- #927smolagents - новые агенты от HF Будет заменой для transformers.agents (да, есть…
smolagents - новые агенты от HF Будет заменой для transformers.agents (да, есть такие) Давят на простоту в первую очередь и это правильно Есть кодовый агент…