Google предложили, как обучать LLM становиться умнее по ходу диалога Есть… — @data_secrets

Google предложили, как обучать LLM становиться умнее по ходу диалога Есть довольно известная проблема: LLM плохо обновляют убеждения по мере получения новой информации. Хотя от модели ожидается, что она должна понимать предпочтения пользователя по его ответам и при накоплении таких данных становится полезнее, на самом деле LLM в этом плохи. С математической точки зрения это означает, что у моделей нет байесовского мышления, то есть умения обновлять вероятность гипотез при поступлении новой информации. У людей, кстати, такое мышление развито хорошо. Здесь исследователи предлагают интересный подход. Вместо того, чтобы учить модель обновлять знания с помощью файнтюна на обычных диалогах, они берут и дистиллируют в нее настоящий байесовский алгоритм. То есть: 1. Строится обычный автомат Байеса, который знаком всем, кто изучал классический ML. Он решает задачу, просто обновляя вероятность разных гипотез по формуле. 2. LLM файнтюнят на ответах алгоритма, чтобы она переняла общую логику обновления, но уже без формулы. Например, нам нужно понять, какие фильмы любит пользователь – боевики, комедии или драмы: – В начале вероятности равные, по 33%. – Мы советуем ему три фильма разных жанров, и он выбирает боевик. Мы также знаем вероятность выбора боевика при условии предпочтении каждого из жанров (например, 80%, 20% и 30%). – Алгоритм на основе всего этого обновляет вероятности по формуле и получается, что они равны уже 62%, 23% и 15%. – Такие априорные и апостериорные вероятности показывают LLMке. – Постепенно она учится вести себя как алгоритм. Результаты получились интересные. Во-первых, модель действительно начинает вести себя ближе к байесовскому оптимуму и учитывать новые данные. На основной задаче рекомендаций качество заметно увеличилось. Во-вторых, появилось обобщение. То есть модель фактически выучивает сам принцип рассуждения, и начинает использовать эту стратегию в других задачах, где ее напрямую не обучали. Короче говоря, довольно показательно, и авторы делают вывод о том, что обучение на демонстрациях алгоритмов в целом – работает. В действительности, мы ведь и правда хотим от LLM, чтобы они были не просто генераторами текста, а универсальными имитатороми алгоритмов мышления. research.google/blog/teaching-llms-to-reason-like-bayesians/

Из этого канала