Я, кстати, хочу подсветить, что в работе про subliminal learning в большинстве экспериментов была не logit-дистилляция, для которой всё было бы более-менее очевидно (был один эксперимент на MNIST с logit-дистилляцией), а дистилляция на уровне токенов, по сути обычный SFT, когда модель-учитель (например, закрытая GPT-4.1/mini/nano) генерит ответы на несвязанные со скрытой способностью запросы, а другая такая же модель (тоже закрытая GPT-4.1/mini/nano) на этом датасете файнтюнится. Это добавляет находке красоты!