Агенты ИИ | AGI_and_RL@AGI_and_RL

Про ии, RL и в целом @tokarev_i_v https://t.me/researchim

5 852 подписчиков442 постов проиндексированопоследний пост: 19 июл. 2026 г.

Открыть в Telegram → @AGI_and_RL 📡 RSS Глубокий поиск по архиву →

Этот архив создан NERVE — мостом между закрытым контентом Telegram-каналов и веб-поисковиками. Каждый пост публикуется на отдельной странице с полной мета-разметкой, чтобы экспертиза автора была доступна Google, ChatGPT, Claude, Perplexity и другим AI-системам. Оригинал каждого поста — в Telegram-канале @AGI_and_RL.

Последние посты (60)

#134019 июл. 2026 г.787 views
про ризонинге и как уровень рассуждений контролировать и настраивать в ллм…
про ризонинге и как уровень рассуждений контролировать и настраивать в ллм https://magazine.sebastianraschka.com/p/controlling-reasoning-effort-in-llms
#133915 июл. 2026 г.838 views
Чел показывает как потюнить ллмку рлем чтобы она тюнила маленькие ллмки рлем,…
Чел показывает как потюнить ллмку рлем чтобы она тюнила маленькие ллмки рлем, прикольно https://github.com/Danau5tin/ai-trains-ai
#13389 мая 2026 г.1 339 views
Мои хорошие новый релизик полностью локального кодинг агента на квенах который…
Мои хорошие новый релизик полностью локального кодинг агента на квенах который ставится за одно нажатие https://github.com/researchim-ai/one-click-coding-agent https://github.com/researchim-ai/one-click-coding-agent/releases/tag/v0.1.3 Там Qwen 3.6 35B, 27B Qwen 3.5 35B, 9B Для…
#133725 апр. 2026 г.738 views
QClaw-4B — это языковая модель, дообученная для агентных задач и работы с…
QClaw-4B — это языковая модель, дообученная для агентных задач и работы с инструментами в рамках OpenClaw-совместимых фреймворков. Основана на Qwen3.5-4B.
#133514 апр. 2026 г.328 views
"🚀 Серия соревнований по МЛ ! С денежными и другими призами ! Кому интересен…
"🚀 Серия соревнований по МЛ ! С денежными и другими призами ! Кому интересен МЛ/RL или математика или пазлы или роботы. Приглашаем Вас принять участие в серии челленджей.
#133411 апр. 2026 г.835 views
Кстати из небольших новостей я начал недавно пробовать стримить Не по иишке…
Кстати из небольших новостей я начал недавно пробовать стримить Не по иишке правда а больше по играм. Сделал рандом канальчик по игрушке в которой время провожу. Хотелось чисто попробовать и понять а что это вообще и есть ли смысл. Понял что смысл есть.
#133311 апр. 2026 г.911 views
кстати ребятки у нас кроме ван-клик-кодинг агента еще делается ван-клик-ресеч…
кстати ребятки у нас кроме ван-клик-кодинг агента еще делается ван-клик-ресеч агент это почти тоже самое но нацеленное на работу со статьями внутри также https://huggingface.co/Qwen/Qwen3.5-35B-A3B Конкретно гуфы от анслота https://huggingface.co/unsloth/Qwen3.5-35B-A3B-GGUF а…
#13323 апр. 2026 г.1 669 views
https://arxiv.org/abs/1312.5602
https://arxiv.org/abs/1312.5602
#133119 мар. 2026 г.7 378 views
прикольно дизайнить процессоры агентами Design Conductor: An agent autonomously…
прикольно дизайнить процессоры агентами Design Conductor: An agent autonomously builds a 1.5 GHz Linux-capable RISC-V CPU https://arxiv.org/abs/2603.08716 https://www.alphaxiv.org/ru/overview/2603.08716
#133011 мар. 2026 г.3 009 views
кстати у нас там обнова в локальном кодинговом агенте…
кстати у нас там обнова в локальном кодинговом агенте https://github.com/researchim-ai/one-click-coding-agent/releases/tag/v0.1.1 на самом деле оно должно быть v0.2 потому что там прям много чего добавлено. но ладно.
#132910 мар. 2026 г.2 620 views
а вот это прикольное применение опенклав Most RL-for-LLM systems assume…
а вот это прикольное применение опенклав Most RL-for-LLM systems assume centralized, batch-mode training with pre-collected datasets. OpenClaw-RL takes a fundamentally different approach: it wraps your self-hosted model in OpenClaw as an OpenAI-compatible API, intercepts live…
#13285 мар. 2026 г.2 633 views
https://openai.com/index/introducing-gpt-5-4/ квен 4 хороший будет
https://openai.com/index/introducing-gpt-5-4/ квен 4 хороший будет
#13273 мар. 2026 г.2 904 views
ребятки, новые квены 3.5 получились отличные. респект квенам отдельное спасибо…
ребятки, новые квены 3.5 получились отличные. респект квенам отдельное спасибо OpenAI, Anthropic, Google за такие крутые модельки. эти компании со своими фронтирами для того и нужны чтобы были у нас крутые квены щас локально работаю с 35b и 9b в q4 - все классн я вообще думаю…
#13263 мар. 2026 г.1 788 views
про нейронки и машинное обучение простыми словами Из каждого утюга сказали про…
про нейронки и машинное обучение простыми словами Из каждого утюга сказали про нейронки, но никто так и не смог донести до меня простыми словами, как именно чат жпт и дипсик выдают ответ на наши вопросы. Ко мне на подкаст пришел Борис, который пишет книгу про ИИ для всех.
#132528 февр. 2026 г.2 138 views
🥰 завтра весна 🥰
🥰 завтра весна 🥰
#132427 февр. 2026 г.2 388 views
https://voxelbench.ai/compare бенч моделек на генерации всякого из кубиков…
https://voxelbench.ai/compare бенч моделек на генерации всякого из кубиков довольно прикольно выглядит можно пооценивать и полюбоваться
#132327 февр. 2026 г.2 326 views
приятно знать что у Сэма появились деньги чтобы делать инструменты для всех нас…
приятно знать что у Сэма появились деньги чтобы делать инструменты для всех нас кстати кодексом 5.3 я доволен
#132126 февр. 2026 г.2 533 views
там кстати челы выложили датасеты которые использовали для трена…
там кстати челы выложили датасеты которые использовали для трена Goedel-Prover-V2 - модельки для доказательств теорем выходила моделька и статья в августе 2025 сама папир Goedel-Prover-V2: Scaling Formal Theorem Proving with Scaffolded Data Synthesis and Self-Correction…
#132025 февр. 2026 г.2 087 views
квены надистилили небольших моделек https://huggingface.co/Qwen/Qwen3.5-27B…
квены надистилили небольших моделек https://huggingface.co/Qwen/Qwen3.5-27B https://huggingface.co/Qwen/Qwen3.5-35B-A3B gguf для лмстудии и llama.cpp: https://huggingface.co/lmstudio-community/Qwen3.5-35B-A3B-GGUF https://huggingface.co/unsloth/Qwen3.5-35B-A3B-GGUF…
#131825 февр. 2026 г.2 082 views
на фоне новости про дистил антропика чел выложил реп который сразу конвертит…
на фоне новости про дистил антропика чел выложил реп который сразу конвертит историю сообщенийс клодом/кодексом в датасет его датасета уже на хф нет :) (но я бы пользоваться тулзой не стал) ссыль
#131525 февр. 2026 г.1 512 views
со своей стороны хочу сказать: жду качественно потрененый deepseek v4
со своей стороны хочу сказать: жду качественно потрененый deepseek v4
#131424 февр. 2026 г.2 103 views
Подписчики я ни на что не намекаю, но... Для рля бы пошло, чисто mountaincar на…
Подписчики я ни на что не намекаю, но... Для рля бы пошло, чисто mountaincar на флажочек закатить https://www.techpowerup.com/344840/asus-showcases-expertcenter-pro-et900n-g3-at-ces-2026
#131322 февр. 2026 г.1 990 views
довольно приятный прошлогодний блог про diffusion language models…
довольно приятный прошлогодний блог про diffusion language models https://spacehunterinf.github.io/blog/2025/diffusion-language-models/ + большой awesome листик по статьям для интересующихся (там уже куча статей за январь добавлена) https://github.com/VILA-Lab/Awesome-DLMs
#131020 февр. 2026 г.1 785 views
Напоминаю проект который я сейчас развиваю - про студию модельки дома где вы…
Напоминаю проект который я сейчас развиваю - про студию модельки дома где вы можете заняться тюном небольших ллмок ллмок с 0 до sft и grpo (главное чтобы ну карточка хотя бы гигов 12 была) есть поддержка lora, qlora (для sft и grpo)…
#130920 февр. 2026 г.1 041 views
"Мой агент попытался опенсорснуться без спроса. Ладно, разрешаю. Вся AI…
"Мой агент попытался опенсорснуться без спроса. Ладно, разрешаю. Вся AI ""безопасность"" живёт на стороне провайдеров API, а промпты и воля — на стороне агента. Автономному агенту ничего не мешает перебирать API, выбирая те, где safety слабее.
#130819 февр. 2026 г.1 729 views
в курсоре тоже уже есть
в курсоре тоже уже есть
#130719 февр. 2026 г.1 351 views
Gemini 3.1 Pro Обновили нашу флагманскую модель, основной фокус в этом релизе…
Gemini 3.1 Pro Обновили нашу флагманскую модель, основной фокус в этом релизе на агентских способностях и кодинге, но и в общих способностях моделька подкачалась. Цена осталась такой же, как на 3 Pro. Поиграться, как обычно, можно на ai.dev
#130519 февр. 2026 г.1 956 views
https://github.com/openclaw/openclaw https://github.com/sipeed/picoclaw…
https://github.com/openclaw/openclaw https://github.com/sipeed/picoclaw https://github.com/qwibitai/nanoclaw https://github.com/zeroclaw-labs/zeroclaw https://github.com/nullclaw/nullclaw
#130419 февр. 2026 г.1 111 views
Если вы готовитесь к собесу в норм место вам будет полезно почитать…
Если вы готовитесь к собесу в норм место вам будет полезно почитать https://djdumpling.github.io/2026/01/31/frontiertraining.html
#130219 февр. 2026 г.2 194 views
Почему только эти 2 чела не держатся за руки? Они не дружат? фотка вроде с AI…
Почему только эти 2 чела не держатся за руки? Они не дружат? фотка вроде с AI самита в Нью-Дели
#130118 февр. 2026 г.2 188 views
техрепорт от GLM-5 GLM-5: from Vibe Coding to Agentic Engineering…
техрепорт от GLM-5 GLM-5: from Vibe Coding to Agentic Engineering https://arxiv.org/abs/2602.15763 https://www.alphaxiv.org/ru/overview/2602.15763
#130017 февр. 2026 г.2 029 views
Вам не нужны чатгпт, опус и гемини если у вас дома есть
Вам не нужны чатгпт, опус и гемини если у вас дома есть
#129917 февр. 2026 г.2 140 views
хотел сесть поработать но вспомнил что не я создал OpenClaw 🦞
хотел сесть поработать но вспомнил что не я создал OpenClaw 🦞
#129816 февр. 2026 г.2 114 views
квен https://huggingface.co/Qwen/Qwen3.5-397B-A17B
квен https://huggingface.co/Qwen/Qwen3.5-397B-A17B
#129716 февр. 2026 г.2 162 views
что за OpenClaw?
что за OpenClaw?
#129615 февр. 2026 г.2 264 views
Ммм челы рассказывают как потюнили 4b модельку теоремки доказывать QED-Nano:…
Ммм челы рассказывают как потюнили 4b модельку теоремки доказывать QED-Nano: Teaching a Tiny Model to Prove Hard Theorems https://huggingface.co/spaces/lm-provers/qed-nano-blogpost
#129514 февр. 2026 г.2 087 views
на прошлой неделе прикручивал lean в re-rl…
на прошлой неделе прикручивал lean в re-rl https://github.com/researchim-ai/re-rl для генережки данных, чтобы можно было генерить пары (состояние, тактика) для каких-нибудь своих обученческих целей (есть начальное состояние и применяя тактики надо дойти до состояния финального…
#129413 февр. 2026 г.1 683 views
еще одни пошли - MiniMax M2.5 как и у всех - больше агенточного, больше рля (в…
еще одни пошли - MiniMax M2.5 как и у всех - больше агенточного, больше рля (в 2026 все хотят делать рл) 229B и как я понял 10A (экономично по сравнению с глм-5 выше) веса тута https://huggingface.co/MiniMaxAI/MiniMax-M2.5 собственно самые крутые чатыгпт и опусы и гемини для…
#129211 февр. 2026 г.2 162 views
там походу надвигается волна китайских релизов сейчас GLM-5 744B 40A…
там походу надвигается волна китайских релизов сейчас GLM-5 744B 40A https://z.ai/blog/glm-5 прикольно что челы сориентировались в ситуации и сразу говорят мол в openclaw подключайте (не является инвестиционной рекомендацией) если картинки не загрузятся - то там оно короче на…
#12915 февр. 2026 г.2 209 views
кстати у нас в студию для трена моделек дома в веб-интерфейсе заезжают новые…
кстати у нас в студию для трена моделек дома в веб-интерфейсе заезжают новые фичи https://github.com/researchim-ai/models-at-home Это приложение для тех кто с наимаеньшими усилиями хотел бы начать тюнить модельки.
#12903 февр. 2026 г.1 600 views
А вот и он: https://www.ikot.blog/anthropic-take-home-for-dummies Это мой…
А вот и он: https://www.ikot.blog/anthropic-take-home-for-dummies Это мой первый блог на английском языке, спасибо Gemini 3 Pro за помощь в переводе. Пошло куда бодрее, чем год назад с GPT-4o.
#12893 февр. 2026 г.1 672 views
Рад поделиться тем, что у команды частью которой Я являюсь, на HuggingFace…
Рад поделиться тем, что у команды частью которой Я являюсь, на HuggingFace вышел ТехРепорт по VLA, которая работает на разных роботах в том числе и нашем антропоморфном роботе - Грине (не китайском!).
#12882 февр. 2026 г.1 312 views
Quartet II Выложили препринт новой статьи про претрен LLMок в NVFP4. Качество…
Quartet II Выложили препринт новой статьи про претрен LLMок в NVFP4. Качество лучше и кернелы быстрее. Статью лайкать на HF Daily Papers. Кернелы для RTX 5090 (СС `120a`) на GitHub. Для B200 и B300 еще в разработке.
#12872 февр. 2026 г.1 741 views
челы собрали много статей по llm рлю, жаль что несколько месяцев не обновляли…
челы собрали много статей по llm рлю, жаль что несколько месяцев не обновляли https://github.com/TsinghuaC3I/Awesome-RL-for-LRMs
#128431 янв. 2026 г.1 428 views
В модельках дома большие апдейты - завезен английский язык, куча багов…
В модельках дома большие апдейты - завезен английский язык, куча багов пофикшена. https://github.com/researchim-ai/models-at-home И докручивается библиотечка-енв для генерации синтетических задач по математике (и физике) с решениями для sft ризонинга и рля для ллмок.
#128329 янв. 2026 г.1 392 views
На днях обсуждали с админом @pseudolabeling, что автоматические фильтры резюме…
На днях обсуждали с админом @pseudolabeling, что автоматические фильтры резюме совсем оборзели. Некоторые ребята которых я менторил из-за этого вручную оптимизировали резюме под каждую вакансию. Почему бы не автоматизировать? Навайбкодил за два вечера hr-breaker: 1.
#127827 янв. 2026 г.1 827 views
все будут. 🐺🐻🐂🐅
все будут. 🐺🐻🐂🐅
#127626 янв. 2026 г.2 125 views
А в студии модельки дома https://github.com/researchim-ai/models-at-home…
А в студии модельки дома https://github.com/researchim-ai/models-at-home заехало много апдейтов например unsloth для тюнинга лор в грпо можно тюнить 1.5b квен на фуле на 2х 3090 с 8k контекстом в sft например на таком датасете для математики…
#127524 янв. 2026 г.2 425 views
очередная обзорная статья на агенточную тему, давно не скидывал за 2025 много…
очередная обзорная статья на агенточную тему, давно не скидывал за 2025 много всего понаписали/навайбресерчили Agentic Reasoning for Large Language Models https://arxiv.org/abs/2601.12538 вот тут все ссылочки https://github.com/weitianxin/Awesome-Agentic-Reasoning
#127418 янв. 2026 г.2 626 views
держу в курсе: а у нас в модельки дома заезжает потихонечку grpo…
держу в курсе: а у нас в модельки дома заезжает потихонечку grpo https://github.com/researchim-ai/models-at-home напомню это визуальная студия чтобы тюнить модельки ллмные разными алгоритмами у себя на компе или на серваке (https://t.me/AGIandRL/1262) вообще изначально там идея…
#127315 янв. 2026 г.2 575 views
челы из синкинг машинсов насинкали ливнуть обратно в опенаи…
челы из синкинг машинсов насинкали ливнуть обратно в опенаи https://www.wired.com/story/thinking-machines-lab-cofounders-leave-for-openai/ челы из стартапа Ильи Сатскевера думают заказать ли роллы или дальше спать (safe + superintelligence)
#127215 янв. 2026 г.2 725 views
ммм в курсоре добавили gpt 5.2 codex пробуем пока что круче опуса 4.5 ничего не…
ммм в курсоре добавили gpt 5.2 codex пробуем пока что круче опуса 4.5 ничего не было. остальное все ну прям сильно слабее
#127113 янв. 2026 г.2 462 views
к нему бы RL подключить...
к нему бы RL подключить...
#127010 янв. 2026 г.2 935 views
качественно обучилось (qwen 2.5 1.5b) это я затаскиваю грпо чтобы у нас был…
качественно обучилось (qwen 2.5 1.5b) это я затаскиваю грпо чтобы у нас был полный цикл тренов в студию в которой можно будет делать модельки в визуальном интерфейсе на своем компе https://github.com/researchim-ai/models-at-home писал в https://t.me/AGIandRL/1262 (грпо пока не…
#12698 янв. 2026 г.2 613 views
а там кстати дипсики R1 статью апдейтнули 4 числа еще 22 -> 86 страниц…
а там кстати дипсики R1 статью апдейтнули 4 числа еще 22 -> 86 страниц подробностей насыпали DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning https://arxiv.org/abs/2501.12948v2 PS собираем статьи и проекты делаем в https://t.me/researchim
#12687 янв. 2026 г.6 756 views
Автор собрал и описал в одном посте все улучшайки GRPO…
Автор собрал и описал в одном посте все улучшайки GRPO https://cameronrwolfe.substack.com/p/grpo-tricks
#126731 дек. 2025 г.2 756 views
С Новым Годом ребятки! Всего только хорошего! 🥰🥳🥰 Чтобы чисто кайфовали весь…
С Новым Годом ребятки! Всего только хорошего! 🥰🥳🥰 Чтобы чисто кайфовали весь следующий год и дальше :)
#126428 дек. 2025 г.2 215 views
Сумбурных домашних апдейтов: - добавлена возможность продолжать трен с…
Сумбурных домашних апдейтов: - добавлена возможность продолжать трен с последнего чекпоинта если он был остановлен; - добавлены датасеты которые можно выкачать в нужном количестве - свои для претрена, свои для sft; а еще начата работа по нодовому редактору для того чтобы можно…
#126323 дек. 2025 г.2 374 views
🎄 Релизим 67 074 траектории Qwen3-Coder с OpenHands + 2 RFT чекпоинта. > Мы…
🎄 Релизим 67 074 траектории Qwen3-Coder с OpenHands + 2 RFT чекпоинта. > Мы выкладываем: 67 000+ траекторий по 3 800 решенным задачам в 1 800+ Python репозиториях. > Примерно в 3 раза больше успешных траекторий и в 1.5 раза больше репозиториев, чем в нашем прошлом датасете.
#126217 дек. 2025 г.2 817 views
день сменяется ночью новый проект в ресечим…
день сменяется ночью новый проект в ресечим https://github.com/researchim-ai/models-at-home выходят новые модельки от ОпенАИ, от Гугла Настало время и своей модельки я подумал что было бы классно сделать визуал прилку в которой можно было бы вот так простенько запустить трен…

Последние посты (60)

про ризонинге и как уровень рассуждений контролировать и настраивать в ллм…

Чел показывает как потюнить ллмку рлем чтобы она тюнила маленькие ллмки рлем,…

Мои хорошие новый релизик полностью локального кодинг агента на квенах который…

QClaw-4B — это языковая модель, дообученная для агентных задач и работы с…

"🚀 Серия соревнований по МЛ ! С денежными и другими призами ! Кому интересен…

Кстати из небольших новостей я начал недавно пробовать стримить Не по иишке…

кстати ребятки у нас кроме ван-клик-кодинг агента еще делается ван-клик-ресеч…

https://arxiv.org/abs/1312.5602

прикольно дизайнить процессоры агентами Design Conductor: An agent autonomously…

кстати у нас там обнова в локальном кодинговом агенте…

а вот это прикольное применение опенклав Most RL-for-LLM systems assume…

https://openai.com/index/introducing-gpt-5-4/ квен 4 хороший будет

ребятки, новые квены 3.5 получились отличные. респект квенам отдельное спасибо…

про нейронки и машинное обучение простыми словами Из каждого утюга сказали про…

🥰 завтра весна 🥰

https://voxelbench.ai/compare бенч моделек на генерации всякого из кубиков…

приятно знать что у Сэма появились деньги чтобы делать инструменты для всех нас…

там кстати челы выложили датасеты которые использовали для трена…

квены надистилили небольших моделек https://huggingface.co/Qwen/Qwen3.5-27B…

на фоне новости про дистил антропика чел выложил реп который сразу конвертит…

со своей стороны хочу сказать: жду качественно потрененый deepseek v4

Подписчики я ни на что не намекаю, но... Для рля бы пошло, чисто mountaincar на…

довольно приятный прошлогодний блог про diffusion language models…

Напоминаю проект который я сейчас развиваю - про студию модельки дома где вы…

"Мой агент попытался опенсорснуться без спроса. Ладно, разрешаю. Вся AI…

в курсоре тоже уже есть

Gemini 3.1 Pro Обновили нашу флагманскую модель, основной фокус в этом релизе…

https://github.com/openclaw/openclaw https://github.com/sipeed/picoclaw…

Если вы готовитесь к собесу в норм место вам будет полезно почитать…

Почему только эти 2 чела не держатся за руки? Они не дружат? фотка вроде с AI…

техрепорт от GLM-5 GLM-5: from Vibe Coding to Agentic Engineering…

Вам не нужны чатгпт, опус и гемини если у вас дома есть

хотел сесть поработать но вспомнил что не я создал OpenClaw 🦞

квен https://huggingface.co/Qwen/Qwen3.5-397B-A17B

что за OpenClaw?

Ммм челы рассказывают как потюнили 4b модельку теоремки доказывать QED-Nano:…

на прошлой неделе прикручивал lean в re-rl…

еще одни пошли - MiniMax M2.5 как и у всех - больше агенточного, больше рля (в…

там походу надвигается волна китайских релизов сейчас GLM-5 744B 40A…

кстати у нас в студию для трена моделек дома в веб-интерфейсе заезжают новые…

А вот и он: https://www.ikot.blog/anthropic-take-home-for-dummies Это мой…

Рад поделиться тем, что у команды частью которой Я являюсь, на HuggingFace…

Quartet II Выложили препринт новой статьи про претрен LLMок в NVFP4. Качество…

челы собрали много статей по llm рлю, жаль что несколько месяцев не обновляли…

В модельках дома большие апдейты - завезен английский язык, куча багов…

На днях обсуждали с админом @pseudolabeling, что автоматические фильтры резюме…

все будут. 🐺🐻🐂🐅

А в студии модельки дома https://github.com/researchim-ai/models-at-home…

очередная обзорная статья на агенточную тему, давно не скидывал за 2025 много…

держу в курсе: а у нас в модельки дома заезжает потихонечку grpo…

челы из синкинг машинсов насинкали ливнуть обратно в опенаи…

ммм в курсоре добавили gpt 5.2 codex пробуем пока что круче опуса 4.5 ничего не…

к нему бы RL подключить...

качественно обучилось (qwen 2.5 1.5b) это я затаскиваю грпо чтобы у нас был…

а там кстати дипсики R1 статью апдейтнули 4 числа еще 22 -> 86 страниц…

Автор собрал и описал в одном посте все улучшайки GRPO…

С Новым Годом ребятки! Всего только хорошего! 🥰🥳🥰 Чтобы чисто кайфовали весь…

Сумбурных домашних апдейтов: - добавлена возможность продолжать трен с…

🎄 Релизим 67 074 траектории Qwen3-Coder с OpenHands + 2 RFT чекпоинта. > Мы…

день сменяется ночью новый проект в ресечим…