"Мультисемплинг ▶️ А мультисемплингом пользуетесь? Полезная штука. Этот… — @deksden_notes

"Мультисемплинг ▶️ А мультисемплингом пользуетесь? Полезная штука. Этот англицизм (куда же мы без них в отрасли то!) - он про множественные генерации при одинаковом контексте/задаче. Мы генерируем несколько вариантов. 🟢 Рассказываю свой эксперимент: пока у меня есть время - прогоняются тестовые воркфлоу под наблюдением агентов по сценариям (тестирование ""под надзором"" - agent suprevised testing - что весьма долго, по 20 минут на прогон тестового воркфлоу. В общем, решил причесать архитектуру системы в поисках косячков. Развлекаюсь так периодически! В библиотеке промптов обсидиана лежит заготовленный промпт для анализа, и как раз тут Гемини cli с подпиской тусит во вкладке - неприкаянный! В общем, решил прогнать ""архитектурка-чек"". Запраймил гемини индексом меморибанка, и кинул промпт анализа. Потом подумалось что самое время провести эксперимент. Сделал ещё 2 вкладки с гемини, запустил ИДЕНТИЧНЫЕ промпты прайминга и потом - анализа. ➡️ Результаты, конечно, убивают )) Первый агент написал как все прекрасно, в стиле гемини - ""самая надёжная архитектура и тп"". Пучок лещей для поглаживания ими ЧСВ мне не нужен, пропускаем. Второй агент упёрся в основном в типобезопасность и докопался к проверкам типов в обработчиках. Ну ок - имеет место быть, можно обсудить. Третий агент прошёлся по совершенно другим аспектам: взаимодействию с redis и ""болтливостью с БД (когда несколько вызовов делаем), сложности некоторых обработчиков. 🟢 Итог: годный отчёт - компиляция трёх (вернее двух отчётов - первый бестолковый). Поэтому я очень хорошо понимаю, как топовыми режимами работы чата являются системы типа gpt PRO , которые ""под капотом"", по слухам, делают @5 мультисемплинг! 🤔 Что убивает то? Конечно то, что при ИДЕНТИЧНОМ контексте и запросе, просто за счёт температуры, можно абсолютно случайным образом получить либо хороший годный ответ, либо бестолковый. Но получить ПОЛНОЦЕННЫЙ ответ за один ответ, видимо, - никак. При современных моделях, полноценный ответ - это или разбивка промпта на пучок задач для ""роя"" агентов, либо мультисемплинг генерация с оценкой полученного и синтезом итогового объединённого ответа. Агенты могут работать СИЛЬНО лучше, просто это очень хлопотно их правильно на работу сорганизовать. Так и живём ... #post @deksden_notes"

Из этого канала