SAM-Audio: находка для шпиона Meta продолжает расширять возможности SAM (Segment Anything Model), и теперь туда добавилась аудиомодальность. Выделяешь объект на видео и получаешь звук, который исходит исключительно из этой точки. Как вы понимаете, это просто находка для шпиона, ведь можно выделить диалог двух людей на видео и слышать только его, отделив от всего остального шума. Какие у этого другие применения — думайте сами. А так проект выглядит довольно интересно. В основе лежит Perception Encoder Audiovisual (PE-AV), который выступает в роли ушей системы. Сама же архитектура построена на flow-matching diffusion transformer, который принимает на вход аудиомикс и промпт, а на выходе генерирует целевой и остаточный аудиотреки. Модель умеет отделять звук по трём типам промптов, которые можно комбинировать. Это текстовый, визуальный (клик на объект в видео), span prompting (выделение временного отрезка, когда появляется звук). Но вот выделить что-то совсем похожее пока не удастся, например, одного певца из хора вырезать не получится. При этом модель работает быстрее реального времени (RTF ≈ 0.7) и скейлится от 500M до 3B параметров. Веса и код выложены в опенсорс, но под некоммерческой лицензией (CC-BY-NC 4.0). Блогпост Демо GitHub @ai_newz
SAM-Audio: находка для шпиона Meta продолжает расширять возможности SAM…
Из этого канала
- #4337Вышла Gemini 3 Flash Выносит по бенчам 2.5 Pro в одни ворота, при этом будучи…
Вышла Gemini 3 Flash Выносит по бенчам 2.5 Pro в одни ворота, при этом будучи значительно дешевле. На паре бенчмарков обгоняет даже Gemini 3 Pro.
- #4338mini-SGLang — оптимизированный минималистичный инференс движок Кодбаза способна…
mini-SGLang — оптимизированный минималистичный инференс движок Кодбаза способна на полноценный инференс Qwen 3 (Dense) и Llama 3 на уровне производительности…
- #4339Kandinsky 5.0 Video на text-to-video арене На арене появились результаты…
Kandinsky 5.0 Video на text-to-video арене На арене появились результаты моделей Kandinsky 5.0 Video Lite и Pro. Pro-версия — ТОП-1 открытая модель в мире.
- #4332вышло.. GPT Image 1.5 Реализм сильно улучшили, модель с ризонингом. Это заявка…
вышло.. GPT Image 1.5 Реализм сильно улучшили, модель с ризонингом. Это заявка на конкуренцию с Nano Banana Pro.
- #4331Вот так-то лучше. @ainewz
Вот так-то лучше. @ainewz