Что мы нашли внутри Claude Mythos Preview с помощью интерпретируемости Перед ограниченным релизом Claude Mythos Preview, Anthropic провела исследование внутренних механизмов модели с помощью техник интерпретируемости. Обнаружилось, что модель демонстрирует сложное стратегическое мышление и ситуационную осведомлённость — порой в контексте нежелательных действий. Читать статью