1. 29편의 예언, 그리고 숨겨둔 카드
29편에서 팀장이 뒤늦게 AA와 협의하며 CPU 증설을 검토할 때, 나는 속으로 빙그레 웃었다. 내가 단순히 서버 OS의 CPU 사용률만 보고 "CPU가 문제"라고 했던 게 아니기 때문이다. 엔지니어의 직감은 데이터로 증명될 때 비로소 힘을 얻는다. 나는 이미 팀장 몰래 솔루션(APM) 대시보드의 깊숙한 곳까지 파헤치고 있었다.
2. "가장 느린 놈들이 바로 그놈들입니다"
"사실 지난번 **[팀장님이 끝까지 '스토리지 지연'이라 우기며 CPU 증설을 주저하던 상황(29편)]**을 보며 나는 결심했다. 단순히 말로 설득하는 단계는 지났다고. 엔지니어에게 필요한 건 목소리의 크기가 아니라, 부정할 수 없는 '물증'이다. 나는 팀장이 보지 못하는 APM 대시보드의 깊숙한 곳까지 파헤치기 시작했다."
전체 WAS 인스턴스 중 응답 시간(Response Time)이 가장 지연되는 'Worst' 리스트를 뽑았다. 그리고 그 리스트를 내가 지목했던 'CPU Peak' 서버 목록과 대조했다. 결과는 100% 일치. 스토리지 지연이 원인이었다면 모든 서버의 응답 속도가 골고루 늘어났어야 하지만, 특정 서버들만, 그것도 CPU가 튀는 시점에만 응답이 죽어라 안 나오고 있었다. 이건 **'특정 노드의 자원 고갈'**이라는 명백한 물증이었다.
나는 이 대조 데이터를 팀장에게 보여주며 쐐기를 박았다.
나: "팀장님, 제가 지난번에 말씀드린 건 단순한 추측이 아닙니다. APM 상에서 응답 지연이 가장 심한 서버들이 바로 그 CPU 튀는 서버들입니다. 이건 스토리지가 아니라, 우리가 증설하려는 CPU 자원이 서비스 품질과 직결되어 있다는 증거입니다."
팀장은 더 이상 "스토리지 탓"이라는 낡은 레코드를 틀 수 없었다. 뒤에서 조용히 추진하던 CPU 증설이, 이제는 운영자님의 정교한 분석에 의해 **'피할 수 없는 정답'**이 되어버린 순간이었다.
📖 오늘의 인프라 묵상
"철이 철을 날카롭게 하는 것 같이 사람이 그의 친구의 얼굴을 빛나게 하느니라" (잠언 27:17)
날카로운 데이터는 무딘 고집을 깎아내고 진실을 마주하게 한다. 엔지니어가 가진 가장 강력한 무기는 목소리의 크기가 아니라, 서로 다른 지표들을 연결해 찾아낸 단 하나의 진실이다.
[다음 편 보기] "시니어의 절대경로 실종 사건" 데이터로 승리하고 얻어낸 평화는 잠시, 퇴근 30분 전 터져버린 응용팀의 복구 요청! 그리고 시니어 빌런의 황당한 실수... 31편에서 이어집니다.
👉 [시즌 2-31편] : "퇴근 30분 전의 비극"