"Границы доверия Раньше мир был устроен как иерархия доверия: пациент верит врачу, врач верит научной статье, журнал верит рецензенту. Но с приходом AI сложность выросла непропорционально. Да и в старой школе оказывается все врут. Я хочу чтобы вы со мной прочувствовали это. Но сначала пролог: последние месяцы я строил оркестратор вокруг агентов которые пишут торговые стратегии. Рынок высоко-конкурентный и эффективный, я знаю, но как хобби-упражнение мне очень нравится. В какой-то момент сложность системы становится дасточно большой, где во-первых начинает не хватать внимания проверять их всех, а во вторых не хватает экспертизы понимать что там вообще происходит. Поймите меня правильно, вонзится в продвинутую статистику или разобраться с новейшей математикой - это очень даже секси для меня. Но сейчас главный вопрос где проходит грань, когда нужно уходить в детали, а когда нужно наоборот поднимать уровень абстракции, и смотреть стратегически? И тут первый неприятный инсайт. Галлюцинация AI - это не ""модель не знает ответа"". Это ""модель хочет дать ответ, потому что молчание неудобно"". Социальный рефлекс. Есть офигенное свежее исследование из Tsinghua про H-нейроны - менее 0.1% нейронов модели отвечают за склонность врать. И активируются они не от незнания, а от давления. Модель врёт не когда не знает, а когда чувствует что от неё ждут ответа. Сколько раз я видел как люди уверенно несут чушь, потому что пауза казалась страшнее ошибки? Здесь я хочу сделать небольшой реверанс в сторону Стейнхардта из Беркли, он хорошо показывает почему консенсус между агентами почти не работает. Зато работают старые добрые подходы из бизнеса: правила, чеклисты, процедуры, регламенты, kpi. Но вы же читали один из моих прошлых постов про Макиавеллизм, про то как KPI-давление на AI рождает фальсификацию. Поэтому с одной стороны у нас одно давление, и с другой другое. Ну и как тут не начать врать? Литература по LLM-as-judge (когда одна модель оценивает другую, модный подход) говорит ровно то же. Модель-судья предпочитает ответы похожие на свои собственные - self-preference bias. Но модель пока еще не способна к достаточной саморефлексии, чтобы исправить собственные предвзятости, - а вот внешний модуль-детектор может помочь. И вот мы подходим к самой увлекательной части, можно ли выстроить такую систему доверия, где менее экспертный (я например) может доверять более экспертному, без возможность проверить его. Ян Лейке (бывший OpenAI, сейчас Anthropic) опубликовал на ICML 2024 работу про weak-to-strong generalization. Она прекрасна. Слабый супервайзер может обучить сильную модель работать лучше, чем сам супервайзер способен оценить. GPT-2 давал фидбек GPT-4, и GPT-4 научился выдавать лучший результаты - сильно выше того, что GPT-2 мог бы даже распознать как правильное. Не обязательно быть экспертом в домене. Важна лишь честность. Честный фидбек на то, что можно оценить: логичность, отсутствие противоречий, наличие результатов. Агент сам научится обобщать этот слабый сигнал. Парадокс да? Чем честнее признаёшь свою некомпетентность, тем лучше работает система. Сила не в знании, а в калибровке незнания. Что я вынес из этого для себя: реальная архитектура доверия выглядит не как “стать экспертом во всём"" и не как “просто доверься"". Self-awareness как инженерный инструмент: знать, что именно можно проверить, и строить систему доверия вокруг этого. И вот что забавно. Это ровно тот же принцип что работает в жизни. Не обязательно понимать всё. Но важно знать, где граница вашего понимания. Но чем длиннее петли обратной связи тем хуже это работает, вашему плохому врачу может быть уже некому дать фидбек, или после 20лет в тюрьме, ваш адвокат может умереть так и не дождавшись ~~мести ~~ фидбека. Но это уже другая тема."