Обожаю Антропик. Не только за крутые модели, а еще и за крутые исследования и статьи, написанные еще и языком вполне человеческим 🗒 Последняя работа по аудиту моделей со скрытым умыслом вообще огонь. Модели со скрытым умыслом, это такие модели которые эту свою цель не явным образом преследуют. Это такие модели у которых в виду хренового обучения эти скрытые цели появляются, выглядеть это будет как воспроизводимые откровенно ошибочные ответы на категорию вопросов, натуральные биасы которые можно эксплуатировать. А еще эти биасы можно «злоумышленно» обучить. Потенциал тут большой, от информационной войны до злого вызова функций, так что исследование очень хорошее и правильное. Короче, провели Антропик такой вот аудит, по канонам инфосеков - красная и синяя команда. Красная команда наобучала моделей с биасами, используя reward models, которые давали «не правильный reward” 🥳 А синие команды должны были в слепую их искать (ну или не очень в слепую.) У синих были разные вводные, кому то было разрешено смотреть в датасет обучения (ez катка), кому то поведенческие допросы устраивать, а кому то залезть моделям “в башку” с помощью sparse autoencoders (это отдельная крутая штука которую разработал в Антропик, в статье про аудит есть линк на бумагу) А кому то… дали доступ только к API. Результат такой что через доступ API хренушки вы эти biases / скрытые цели распознаете. Тревожно, особенно если (когда) обучать модели станет намного проще в смысле требований к железу. Не стоит так же забывать про APT группировки, например что стоит Китаю… а погодите, ничего 😎 Их пробивные модели на предмет биасов сразу на мемы расползаются после релизов… ЧЕЙ ТАЙВАНЬ, а??? Ну шутки шутками, а так то стрем. Во тут оригинал, и все в нем ссылки на оригинальные документы, проваливайтесь.