제품이나 사용자에게 영향을 미치는 인시던트로부터 교훈을 얻는 연습입니다. SRE 커뮤니티에서는 이 연습을 인시던트 회고라고 합니다.
단계
제안 시간
1시간
참가자
핵심 제공 팀, 이해관계자, 및 지원 팀
사후 검토는 부정적인 인시던트의 재발을 줄이는 데 도움이 됨
먼저 인시던트를 정의하겠습니다.
세션 전에 인시던트에 관한 정보를 최대한 많이 수집합니다. 예를 들어 관련 팀에 정보를 요청하는 설문조사를 보낼 수 있습니다. 팀에서 진행 중인 인시던트에 관해 메모한 경우 해당 메모도 수집합니다.
또한 세션 전에 타임라인을 만든 다음 사후 분석 세션을 진행하는 동안 검증하면 유용합니다.
타임라인 예시:
사후 분석 세션에 적합한 사람들을 초대하십시오. 예를 들면 다음과 같습니다.
사후 분석의 목표 설명(5분)
다음과 같이 말할 수 있습니다.
“최근 인시던트의 원인은 무엇입니까? 어떻게 해결하셨습니까? 향후 이런 인시던트를 방지하기 위한 작업 항목을 정의하고 사후 분석 문서에 문서화하려고 합니다. 비난받을 사람을 찾으려는 것이 아닙니다.”
팁: 어떤 일이 발생했으며 향후 이러한 일이 일어나지 않도록 방지하기 위한 방법을 확인하고자 하므로 비난하지 않는 문화를 포용하십시오. 각 팀원이 심리적으로 편안하도록 하십시오.
인시던트 타임라인 제시(5분)
인시던트 타임라인을 표시하고 팀과 함께 확인합니다.
사후 분석 주제 브레인스토밍(5분)
팀에게 스티커 메모 또는 디지털 워크스페이스에 다음을 작성하도록 요청합니다.
빠른 주제 클러스터링(5분)
팀에게 비슷한 주제를 기반으로 스티커 메모를 클러스터링하도록 요청합니다.
각 클러스터 논의(20분)
각 클러스터에 대해 논의할 시간을 충분히 줍니다. 특정 클러스터에 시간이 더 필요한 경우 해당 주제에 관한 후속 세션을 고려해 보십시오.
“잘못된 사항” 열에 있는 클러스터의 경우, “왜 이런 일이 발생했습니까?”와 “이런 일이 다시 발생하는 경우 어떻게 해야 영향을 줄일 수 있습니까?”도 질문합니다.
팁: “5 Whys” 방법을 사용해 보십시오. 개인을 비난하지 말고 프로세스로 인한 근본 원인에 집중하십시오.
작업 항목 논의(15분)
인시던트를 해결하고 향후에 발생하지 않도록 방지하기 위해 수행할 수 있는 작업은 무엇인지 팀과 논의합니다. 이러한 작업의 소유자를 정의합니다.
사후 분석 소유자 관련 합의(4분)
팀으로서 다음과 같은 책임을 담당하는 사후 분석 소유자를 결정합니다.
후속 작업 스케줄링(1분)
작업을 검토하기 위해 후속 사후 분석 세션에 대해 팀과 합의합니다. 팀이 모든 사후 분석 작업을 완료할 때까지 인시던트를 종결해서는 안 됩니다.
이 활동이 끝나면 팀은 인시던트가 무엇이었으며 어떻게 발생했는지 명확하게 이해할 수 있습니다. 또한 팀은 인시던트 재발을 방지하거나 그 영향을 줄이는 계획을 수립했을 것입니다.
사후 분석 문서 예시:
책: Life of a production system incident(출간 예정)