Обожаю Антропик. Не только за крутые модели, а еще и за крутые исследования и статьи, написанные еще и языком вполне человеческим 🗒 Последняя работа по аудиту моделей со скрытым умыслом вообще огонь. Модели со скрытым умыслом, это такие модели которые эту свою цель не явным образом преследуют. Это такие модели у которых в виду хренового обучения эти скрытые цели появляются, выглядеть это будет как воспроизводимые откровенно ошибочные ответы на категорию вопросов, натуральные биасы которые можно эксплуатировать. А еще эти биасы можно «злоумышленно» обучить. Потенциал тут большой, от информационной войны до злого вызова функций, так что исследование очень хорошее и правильное. Короче, провели Антропик такой вот аудит, по канонам инфосеков - красная и синяя команда. Красная команда наобучала моделей с биасами, используя reward models, которые давали «не правильный reward” 🥳 А синие команды должны были в слепую их искать (ну или не очень в слепую.) У синих были разные вводные, кому то было разрешено смотреть в датасет обучения (ez катка), кому то поведенческие допросы устраивать, а кому то залезть моделям “в башку” с помощью sparse autoencoders (это отдельная крутая штука которую разработал в Антропик, в статье про аудит есть линк на бумагу) А кому то… дали доступ только к API. Результат такой что через доступ API хренушки вы эти biases / скрытые цели распознаете. Тревожно, особенно если (когда) обучать модели станет намного проще в смысле требований к железу. Не стоит так же забывать про APT группировки, например что стоит Китаю… а погодите, ничего 😎 Их пробивные модели на предмет биасов сразу на мемы расползаются после релизов… ЧЕЙ ТАЙВАНЬ, а??? Ну шутки шутками, а так то стрем. Во тут оригинал, и все в нем ссылки на оригинальные документы, проваливайтесь.
Обожаю Антропик. Не только за крутые модели, а еще и за крутые исследования и…
122 viewsОткрыть в Telegram →
Из этого канала
- #221Пробовали дуолинго Макс? 👋 Это там где они звонки с архетипом пубертатной…
Пробовали дуолинго Макс? 👋 Это там где они звонки с архетипом пубертатной ~~дурочки~~ Лили прикрутили.
- #222Примешь синюю таблетку — и сказке конец. Завтра утром ты снова окажешься за…
Примешь синюю таблетку — и сказке конец. Завтра утром ты снова окажешься за своим Lenovo Thinkpad, пытаясь разобраться в наследственной лапше на Java, пока…
- #223"NotebookLM от Google - это киллер. Мне очень жаль что этот тул каким то…
"NotebookLM от Google - это киллер. Мне очень жаль что этот тул каким то образом проходил мимо меня до вчерашнего дня.
- #218С гордостью заявляю – я в своей карьере ни разу не удалил базу данных случайно.…
С гордостью заявляю – я в своей карьере ни разу не удалил базу данных случайно. Даже локальную для разработки.
- #217Я наконец дочитал фанфик Элиезера Юдковского – Гарри Поттер и методы…
Я наконец дочитал фанфик Элиезера Юдковского – Гарри Поттер и методы Рационального Мышления. Тяжело называть эту книгу фанфиком.