Microsoft опубликовали подробнейший тех-репорт о том, как они тренировали свою новую фронтир LLM с ризонингом. На арене ее вроде пока нет, но чтиво все равно интересное. Давно таких подробных репортов с техническими деталями никто из Биг Техов не выпускал. MAI-Thinking-1 - это 35B active / 1T total parameter MoE. 256k token window (влазит 600-страничный документ) Тренили ее на кластере с 8000 GB200. Упор делали больше на данные и рецепт тренировки, нежели на новшевства в архитектуре. В опенсорс не кладут, но дадут API для файнтюна. Блогпост Тех-репорт @ai_newz
Microsoft опубликовали подробнейший тех-репорт о том, как они тренировали свою…
Из этого канала
- #4603У SpaceX новый клиент — Google В эту пятницу у компании IPO, так что лишняя…
У SpaceX новый клиент — Google В эту пятницу у компании IPO, так что лишняя выручка им не помешает.
- #4604Нейродайджест за две недели (#118) LLM - Opus 4.8 — Модель стала честнее, реже…
Нейродайджест за две недели (#118) LLM - Opus 4.8 — Модель стала честнее, реже срезает углы и лучше признает, если чего-то не знает.
- #4605Вышел Claude 5 Fable Это общедоступная версия Mythos, в которую засунули…
Вышел Claude 5 Fable Это общедоступная версия Mythos, в которую засунули дополнительные сейфгарды которых нет в полноценной модели.
- #4599Gemma 4 12B Принимает на вход текст, аудио и изображения с видео. Длина видео…
Gemma 4 12B Принимает на вход текст, аудио и изображения с видео. Длина видео ограничена 30 секундами, а аудио 60 секундами.
- #4598Odysseus — ИИ-лаунчер от PewDiePie Пьюдипай прошел основную сюжетную ветку этой…
Odysseus — ИИ-лаунчер от PewDiePie Пьюдипай прошел основную сюжетную ветку этой жизни и собирает сайд-квесты.