LoongX — будущее txt2img? Только вот оно наступит уже без использования текста. Надеваешь беспроводной BCI (brain-computer interface), фантазируешь себе картинку — и готово. LoongX хорошо так приблизился к этому, но пока в сфере редактирования изображений (img2img). На вход подаются данные с электроэнцефалограммы (ЭЭГ), функциональной ближней инфракрасной спектроскопии (fNIRS), фотоплетизмографии (PPG) и датчиков движения головы. Проще говоря, система считывает сигналы мозга, изменения кровотока, пульс и движения. Каждый сигнал несёт свой смысл: ЭЭГ отвечает за само намерение, fNIRS — за когнитивную нагрузку и эмоции, а PPG и движение — за стресс и вовлечённость. В комбинации с речью LoongX обходит текстовый метод OminiControl по семантическому соответствию (CLIP-T: 0.2588 против 0.2549). Что ещё интереснее, чисто нейронные сигналы (без речи) превосходят текст в структурной точности (DINO: 0.4812 против 0.4636) и семантической схожести с целевым изображением (CLIP-I: 0.6605 против 0.6558). Это большой шаг к тому, чтобы научиться интерпретировать и оцифровывать нашу фантазию напрямую. Ещё немного, и (возможно, не без помощи Neuralink и подобных) мы сможем транслировать свои фантазии прямо на экран, минуя потери при текстовом описании. У всех же было, когда пытаешься что-то нарисовать: в голове такая красивая картинка, а на бумаге выходит шляпа🤠 Давно вообще руками рисовали?) Кроме подробнейшей статьи нам дали датасет и код, в том числе тренировочный, что делает проект полностью опенсорсным, так что стоит ожидать еще больше подобных проектов. Project page Пейпер @ai_newz
LoongX — будущее txt2img? Только вот оно наступит уже без использования текста.…
Из этого канала
- #4040Рассуждение с данными: как работает новая функция в GigaChat В GigaChat…
Рассуждение с данными: как работает новая функция в GigaChat В GigaChat появился полноценный reasoning — с логикой, выводами и автоматическим подключением…
- #4041Anthropic обсуждает новый раунд по оценке более чем в $100 миллиардов Заметный…
Anthropic обсуждает новый раунд по оценке более чем в $100 миллиардов Заметный рост после мартовских ~$60 миллиардов пост-мани.
- #4042В Le Chat закинули фич Самое интересное — завезли Deep Research. Он явно не…
В Le Chat закинули фич Самое интересное — завезли Deep Research. Он явно не самый лучший, но за счёт партнёрства Cerebras и Mistral явно самый быстрый на…
- #4028"Мда. Вот так внезапно вылазят косяки тренировки модели, и даже у chatGPT. Не…
"Мда. Вот так внезапно вылазят косяки тренировки модели, и даже у chatGPT. Не боги горшки обжигают.
- #4027"Thinking Machines привлекли 2 миллиарда По слухам, стартап Миры Мурати, бывшей…
"Thinking Machines привлекли 2 миллиарда По слухам, стартап Миры Мурати, бывшей CTO OpenAI (которая недолго побыла и CEO, а также известная своим…