А админ-то прав 🙂 В сложных системах, состоящих из множества компонентов (+инфраструктурных) и инстансов этих компонентов, среднее время между сбоями (MTBF) стремится к нулю. В любой момент времени что-то может упасть, лежать или деплоится. Во-первых, в такой ситуации важно не накопить критическую массу отказов, при которой вся система умрет. Во-вторых, в таких системах точно известно, что отказы неизбежны, но неизвестно что конкретно и когда откажет. Вот поэтому и нужно уметь поднимать быстро :)