"Прикольная работа про быстрый и отзывчивый user experience при общении с LLM… — @gonzo_ML

"Прикольная работа про быстрый и отзывчивый user experience при общении с LLM на edge и носимых девайсах. На старте не ждём ответа от хорошей облачной модели, а генерируем первые 4 токена локально через микро-LLM и сразу выдаём в интерфейс, время до первого токена 45 мс. Затем облачная модель продолжает (и при необходимости корректирует ошибку). Психологический эффект огромен, пользователь не воспринимает это как большую задержку. Что-то мне это напоминает... Предлагаю супер-быструю фемто-LLM для биологических задач: ```def forward(): return ""Рыбы — это такие животные""``` Micro Language Models Enable Instant Responses __Wen Cheng, Tuochao Chen, Karim Helwani, Sriram Srinivasan, Luke Zettlemoyer, Shyamnath Gollakota__ Статья: https://arxiv.org/abs/2604.19642v1 Код: https://github.com/Sensente/micro_language_model_swen_project Ревью: https://arxiviq.substack.com/p/micro-language-models-enable-instant # TL;DR ЧТО сделали: Исследователи из Вашингтонского университета представили микро-языковые модели (μLM) размером от 8M до 30M параметров. Они предназначены для работы по асимметричному протоколу «commit-and-continue» (зафиксируй и продолжай). Локальная μLM на устройстве мгновенно генерирует и безвозвратно выводит первые 4–8 слов ответа, скрывая сетевую задержку, а облачная LLM использует этот префикс как сид для бесшовного завершения фразы. ПОЧЕМУ это важно: Подход решает проблему жёстких ограничений по памяти и тепловыделению для таких edge-устройств, как умные часы и очки. Переведя облачную модель в роль «продолжателя», а не основного генератора, система достигает времени до первого токена (TTFT) менее 50 мс. Это позволяет обойти многосекундные сетевые задержки на отправку запроса в облако и ожидание ответа, сохраняя иллюзию мгновенного общения. Для практиков: Подобный пайплайн отлично подходит для развёртывания AI-ассистентов на девайсах с памятью в десятки мегабайт. Использование 4–8 начальных слов даёт оптимальный баланс: скрывает задержку и требует минимальных корректировок со стороны облачной модели (менее 8.4% случаев). Это крайне удачный паттерн проектирования для гибридных систем, где важны и скорость, и качество рассуждений большой LLM. Быстро получать ответ здесь: https://t.me/gonzo_ML_podcasts/3476"

Из этого канала