Открыты исходники Marlin-2B Это компактная визуально-языковая модель для извлечения структурированной информации из видео. Marlin дообучен под два ключевых запроса, которые чаще всего нужны разработчикам при работе с видео: что происходит и когда именно. Модель в своём классе по размеру показывает сильные результаты, конкурируя с Gemini-2.5-flash при всего 2 млрд параметров. Marlin обучался в двух режимах: 1. marlin.caption() возвращает структурированный JSON со сценой и событиями, с таймкодами с точностью до секунд. Это можно использовать для генерации субтитров к роликам в Reels, индексации видеобиблиотеки или для передачи агенту контекста о том, что и когда произошло в видеопотоке. 2. marlin.find() возвращает таймкоды (начало, конец) для любого запроса на естественном языке по видео. Модель достаточно быстрая, чтобы работать прямо в цикле агента; её можно использовать для поиска фрагментов видео с точностью до долей секунды. Модель: https://huggingface.co/NemoStation/Marlin-2B Демо: https://vlm.nemostation.com/ 🟪 MAXTG