"Прикольная работа про быстрый и отзывчивый user experience при общении с LLM на edge и носимых девайсах. На старте не ждём ответа от хорошей облачной модели, а генерируем первые 4 токена локально через микро-LLM и сразу выдаём в интерфейс, время до первого токена 45 мс. Затем облачная модель продолжает (и при необходимости корректирует ошибку). Психологический эффект огромен, пользователь не воспринимает это как большую задержку. Что-то мне это напоминает... Предлагаю супер-быструю фемто-LLM для биологических задач: ```def forward(): return ""Рыбы — это такие животные""``` Micro Language Models Enable Instant Responses __Wen Cheng, Tuochao Chen, Karim Helwani, Sriram Srinivasan, Luke Zettlemoyer, Shyamnath Gollakota__ Статья: https://arxiv.org/abs/2604.19642v1 Код: https://github.com/Sensente/micro_language_model_swen_project Ревью: https://arxiviq.substack.com/p/micro-language-models-enable-instant # TL;DR ЧТО сделали: Исследователи из Вашингтонского университета представили микро-языковые модели (μLM) размером от 8M до 30M параметров. Они предназначены для работы по асимметричному протоколу «commit-and-continue» (зафиксируй и продолжай). Локальная μLM на устройстве мгновенно генерирует и безвозвратно выводит первые 4–8 слов ответа, скрывая сетевую задержку, а облачная LLM использует этот префикс как сид для бесшовного завершения фразы. ПОЧЕМУ это важно: Подход решает проблему жёстких ограничений по памяти и тепловыделению для таких edge-устройств, как умные часы и очки. Переведя облачную модель в роль «продолжателя», а не основного генератора, система достигает времени до первого токена (TTFT) менее 50 мс. Это позволяет обойти многосекундные сетевые задержки на отправку запроса в облако и ожидание ответа, сохраняя иллюзию мгновенного общения. Для практиков: Подобный пайплайн отлично подходит для развёртывания AI-ассистентов на девайсах с памятью в десятки мегабайт. Использование 4–8 начальных слов даёт оптимальный баланс: скрывает задержку и требует минимальных корректировок со стороны облачной модели (менее 8.4% случаев). Это крайне удачный паттерн проектирования для гибридных систем, где важны и скорость, и качество рассуждений большой LLM. Быстро получать ответ здесь: https://t.me/gonzo_ML_podcasts/3476"
"Прикольная работа про быстрый и отзывчивый user experience при общении с LLM…
Из этого канала
- #5315Не все ~~йогурты~~ репрезентации одинаково полезны! Convergent Evolution: How…
Не все ~~йогурты~~ репрезентации одинаково полезны! Convergent Evolution: How Different Language Models Learn Similar Number Representations Deqing Fu, Tianyi…
- #5319Сжатие сырых логов в структурированные саммари помогает кодовым агентам.…
Сжатие сырых логов в структурированные саммари помогает кодовым агентам. Scaling Test-Time Compute for Agentic Coding Joongwon (Daniel) Kim, Winnie Yang,…
- #5323Хитроумный Одиссей. Odysseus: Scaling VLMs to 100+ Turn Decision-Making in…
Хитроумный Одиссей. Odysseus: Scaling VLMs to 100+ Turn Decision-Making in Games via Reinforcement Learning Chengshuai Shi, Wenzhe Li, Xinran Liang, Yizhou Lu,…
- #5310Попалась свежая интересная репа, собирающая всё про UT/Looped Models…
Попалась свежая интересная репа, собирающая всё про UT/Looped Models https://github.com/huskydoge/Awesome-Loop-Models
- #5309Готовлю обновление своей статьи, получил интересную картинку, подтверждающую,…
Готовлю обновление своей статьи, получил интересную картинку, подтверждающую, что UT с памятью обменивает размер памяти на количество итераций.