Google предложили, как обучать LLM становиться умнее по ходу диалога Есть довольно известная проблема: LLM плохо обновляют убеждения по мере получения новой информации. Хотя от модели ожидается, что она должна понимать предпочтения пользователя по его ответам и при накоплении таких данных становится полезнее, на самом деле LLM в этом плохи. С математической точки зрения это означает, что у моделей нет байесовского мышления, то есть умения обновлять вероятность гипотез при поступлении новой информации. У людей, кстати, такое мышление развито хорошо. Здесь исследователи предлагают интересный подход. Вместо того, чтобы учить модель обновлять знания с помощью файнтюна на обычных диалогах, они берут и дистиллируют в нее настоящий байесовский алгоритм. То есть: 1. Строится обычный автомат Байеса, который знаком всем, кто изучал классический ML. Он решает задачу, просто обновляя вероятность разных гипотез по формуле. 2. LLM файнтюнят на ответах алгоритма, чтобы она переняла общую логику обновления, но уже без формулы. Например, нам нужно понять, какие фильмы любит пользователь – боевики, комедии или драмы: – В начале вероятности равные, по 33%. – Мы советуем ему три фильма разных жанров, и он выбирает боевик. Мы также знаем вероятность выбора боевика при условии предпочтении каждого из жанров (например, 80%, 20% и 30%). – Алгоритм на основе всего этого обновляет вероятности по формуле и получается, что они равны уже 62%, 23% и 15%. – Такие априорные и апостериорные вероятности показывают LLMке. – Постепенно она учится вести себя как алгоритм. Результаты получились интересные. Во-первых, модель действительно начинает вести себя ближе к байесовскому оптимуму и учитывать новые данные. На основной задаче рекомендаций качество заметно увеличилось. Во-вторых, появилось обобщение. То есть модель фактически выучивает сам принцип рассуждения, и начинает использовать эту стратегию в других задачах, где ее напрямую не обучали. Короче говоря, довольно показательно, и авторы делают вывод о том, что обучение на демонстрациях алгоритмов в целом – работает. В действительности, мы ведь и правда хотим от LLM, чтобы они были не просто генераторами текста, а универсальными имитатороми алгоритмов мышления. research.google/blog/teaching-llms-to-reason-like-bayesians/
Google предложили, как обучать LLM становиться умнее по ходу диалога Есть…
Из этого канала
- #8830Cursor теперь может мониторить вашу кодовую базу автономно и постоянно Теперь…
Cursor теперь может мониторить вашу кодовую базу автономно и постоянно Теперь там есть возможность настроить ИИ‑агентов, которые автоматически выполняют задачи…
- #8831Поздравляем подписчиц с Международным Женским Днем! Желаем, чтобы в жизни было…
Поздравляем подписчиц с Международным Женским Днем! Желаем, чтобы в жизни было больше прорывов, чем в новостях про очередную AI-модель, и чтобы мечты сбывались…
- #8832Autoresearch от Андрея Карпаты Встречаем новый проект от гуру: агент, который…
Autoresearch от Андрея Карпаты Встречаем новый проект от гуру: агент, который автономно проводит эксперименты и обучает LLM.
- #8826⚡️ Встречаем GPT‑5.4 Модель вышла в версиях Thinking и Pro. Метрики подросли на…
⚡️ Встречаем GPT‑5.4 Модель вышла в версиях Thinking и Pro. Метрики подросли на кодинге (немного), на математике (прилично) и на computer use.
- #8825Когда в 2023-м все начали говорить про агентов, под этим чаще всего…
Когда в 2023-м все начали говорить про агентов, под этим чаще всего подразумевали цепочку промптов с фиксацией контекста, а про инфраструктуру, как правило,…