1. 무당의 예언과 엔지니어의 디버깅
인프라 팀에서 일하다 보면 가끔 점쟁이를 만난다. 시스템 로그 한 줄, 트래픽 추이 한 번 제대로 보지 않고도 장애의 근본 원인을 단숨에 '스토리지'로 지목하는 신통방통한 이들 말이다. 이번에도 솔루션 담당자는 데이터 한 조각 없이 확신에 찬 목소리로 '단언'을 던졌다.
솔루션 빌런: "거봐요, 제가 예전부터 말씀드렸잖아요. 이거 보나 마나 스토리지 때문이라니까요? 스토리지가 느리니 서비스가 이 모양이죠. 인프라 팀에서 해결해야 합니다."
하지만 나는 데이터로 말해야 한다. 즉시 리소스를 확인하니 메모리 스왑(Swap) 사용률이 급격히 높아진 상태였다. 일단 메모리 부족이 시스템 지연에 직접적인 영향을 주고 있음을 확인했고, 나는 즉각 메모리 증설 검토를 보고 라인에 올렸다. (이미 예전 에피소드에서 이 지루한 메모리 증설 검토 과정을 다룬 바 있다. [메모리 증설 건 다시보기]) 하지만 이게 끝이 아니었다.
2. 뜻밖의 발견: "CPU 이슈, AA와 함께 들여다봐야 합니다"
조사 범위를 넓히자 장애 서버뿐만 아니라 다른 노드들에서도 공통적으로 CPU가 튀는 현상이 포착됐다. 이건 단순히 스토리지 I/O를 기다리는 수준이 아니었다. 나는 팀장에게 이 현상을 보고하며, 인프라 단의 점검뿐만 아니라 애플리케이션 아키텍처(AA) 관점에서도 왜 CPU가 튀는지 함께 분석할 필요가 있다고 제안했다. 구조적인 결함이나 로직의 비효율성이 숨어있을 가능성을 열어둔 것이다.
3. 팀장의 화답: "분석은 무슨, 스토리지가 범인이지!"
하지만 내 보고를 받은 팀장의 반응은 상상을 초월했다. 그는 내가 가져온 '메모리 증설 필요성'과 'AA 분석 제안' 데이터를 보고 오히려 확신에 찬 목소리로 화답했다.
팀장: "아니, 운영자님! 분석할 게 뭐 있어? 딱 봐도 스토리지가 느리니까 CPU가 데이터를 기다리다 지쳐서 튀는 거고, 그러다 보니 메모리 스왑까지 생기는 거잖아! 결국 내 말이 맞네, 범인은 스토리지야!"
메모리 스왑도, 다른 서버의 CPU 이슈도, 심지어 AA와 협업하여 근본 원인을 찾아야 한다는 내 제안도 팀장에게는 그저 **'스토리지 장애의 확실한 증거'**일 뿐이었다. 원인과 결과를 완전히 뒤바꾼 '기적의 논리' 앞에, 인프라의 상식은 다시 한번 무너져 내렸다.
📌 인프라 담당자의 빡침 로그
데이터가 누군가의 '감'을 정당화하는 소설의 소재로 쓰이는 순간들입니다.
- [시즌 2-18편] [가상화의 무당] 근거 없이 "스토리지 탓"만 하는 솔루션팀의 단언
- [시즌 2-19편] [서버 장애 분석] Swap 100%조차 "스토리지 때문"이라 우기는 기적의 논리
[다음 편 보기]
"범인은 스토리지라면서요? 왜 슬그머니 CPU를 늘리시죠?" 앞에서는 호통치고 뒤로는 노선 변경하는 팀장의 이중생활, 그리고 데이터로 증명한 '진짜 원인'의 정체가 29편에서 이어집니다.
👉 [시즌 2-29편] 인프라의 이중생활: "스토리지 탓이라더니, 왜 CPU를 늘려?" (곧 업데이트 예정)
📖 오늘의 인프라 묵상
"사연을 듣기 전에 대답하는 자는 미련하여 욕을 당하느니라" (잠언 18:13)
4. 에필로그: 데이터는 거짓말을 하지 않는다
메모리 부족과 CPU 이상 현상이라는 명확한 로그 앞에서도 '스토리지'라는 정답을 정해놓은 이들. 팀장의 확신과 솔루션팀의 비겁함 속에서 나는 다시 터미널을 켠다.
스토리지가 정말 범인이 아니라면, 그다음 화살이 어디로 향할지 지켜보는 것도 엔지니어링의 씁쓸한 묘미다. 하지만 확실한 건, 오늘 팀장이 보여준 기적의 논리는 그 어떤 시스템 장애보다 더 큰 설계 결함이라는 사실이다.