Шаг 1 – природа эволюционирует, создаёт людей Шаг 2 – люди изобретают математику, транзисторы и диплернинг Шаг 3 – люди используют RL, чтобы улучшать модели и создают агентов Шаг 4 – агенты через эволюционный self-play решают все остальное (based on humans-guided reward function, initially in the form of USD, later — cybernetic objects)