Измерение и обучение - Встраивание механизмов измерения - Регулярный анализ данных - Проведение ретроспектив - Выявление возможностей улучшения - Непрерывное улучшение Основные метрики доступности: mean time between failures (MTBF) and mean time to recover (MTTR), но с ними есть проблемы: - Что понимать под отказом? - Что понимать под восстановлением? - Если произошел отказ, но он скрыт от пользователя, это отказ или нет? TTR = RTO + N, RTO = f(RPO) recovery time objective (RTO) - за какое время данные должны быть восстановлены N - время на восстановление функциональности recovery point objective (RPO) - сколько данных может быть потеряно RPO -> inf => RTO -> 0 RPO -> 0 => RTO -> max RTO/RPO измеряются на уровне системы и на уровне компонентов. John Allspaw, was that “TTR is more important than TBF (for most types of F). Обучение должно проходить не только на ошибках, но и на успехе: - По какой причине в данной ситуации система оказалась устойчивой? - Люди предвидели проблемы и не позволили им проявится? - Избежать проблем позволили хорошие автоматизированные механизмы? - Это была просто удача? Непрерывные улучшения - возможны только в атмосфере психологической защищенности - должны быть основаны на на ретроспективном анализе фактов, а не на фрагментированных воспоминаниях вперемешку с личным мнением.