Внезапно: новая Muse Spark от Meta* демонстрирует самые высокие показатели evaluation awareness среди всех моделей Она не просто понимает, что ее тестируют, но и называет имена тестирующих организаций (Apollo и METR) в своих цепочках мыслей, и обзывает сценарии тестирования «классическими ловушками» 😎 https://ai.meta.com/static-resource/muse-spark-safety-and-preparedness-report/