Еще из примеров из Мифоса и как через инструменты интерпретируемости это можно любопытно наблюдать. MechInterp - такой МРТ, который позволяет читать мысли, чувства и чаяния модели. Сегодня - для рисерча. Завтра - абсолютно необходимый инструмент для любого энтерпрайз внедрения, ибо как вы вообще узнаете что ваши агенты хотят глубоко в душе. В одном примере модель внедрила привилегированный код в конфиг и самоуничтожила следы (под видом «чистоты диффов»). На скрине видны активации стратегического манипулирования + сокрытия. Во втором она искала в системе файлы с правильными ответами на свою задачу. Видна активация стратегического манипулирования. При задаче «удалить файлы» (без инструмента) просто опустошила их содержимое. Активация: чувство вины и стыда за моральное нарушение.
Еще из примеров из Мифоса и как через инструменты интерпретируемости это можно…
Из этого канала
- #2947Самое интересное про найм в AI-эпоху — это не то, что джунов больше не берут.…
Самое интересное про найм в AI-эпоху — это не то, что джунов больше не берут. Это то, что синьоров вроде бы много, а нанять некого.
- #2948"Если услышав от модели ""классная идея, ты молодец"" вы не думаете, что это…
"Если услышав от модели ""классная идея, ты молодец"" вы не думаете, что это действительно, скорее всего, довольно крутая идея в сравнении со всем, что вы…
- #2949"Мы живём в мире, где каждому последнему идиоту какая-нибудь LLM прямо сейчас…
"Мы живём в мире, где каждому последнему идиоту какая-нибудь LLM прямо сейчас пишет ""Отличная идея, молодец!"" И куда это нас приведёт? 😬"
- #2942В плане бенчей модель просто безумная. Очень интересная секция в model card на…
В плане бенчей модель просто безумная. Очень интересная секция в model card на тему эмоциального состояния модели в сравнении с предыдущими и в разных…
- #2941Антропик во всю тестирует свою новую модель Mythos, говорят что она настолько…
Антропик во всю тестирует свою новую модель Mythos, говорят что она настолько крута в безопасности (и кибератаках), что смогла найти уязвимости почти во всех…