[지난 이야기 다시보기]
- 시즌2-17편: [관제 문자 안 받으면 되잖아요: 시니어 빌런의 무책임함]
- 시즌2-6편: ["엔지니어가 안 된대요"라는 말 뒤에 숨은 시니어들]
인프라 팀에서 일하다 보면 가끔 점쟁이를 만난다. 시스템 로그 한 줄, 트래픽 추이 한 번 제대로 보지 않고도 장애의 근본 원인을 단숨에 '스토리지'로 지목하는 신통방통한 솔루션팀 담당자들 말이다.
1. NAS, 통합의 탈을 쓴 '폭탄 돌리기'
우리 사이트의 NAS는 거의 '만능 창고'였다. 개발, 검증, 운영 서버에서 발생하는 모든 데이터가 이 NAS 하나에 때려 박혀 있었다. 물론 구조적으로 부하가 집중될 수밖에 없는 설계였지만, 지금까지는 아슬아슬하게 버티고 있었다.
그러던 어느 날, 서비스 지연 현상이 발생했다. 사용자들이 "느리다"며 아우성을 치기 시작했고, 회의실은 원인 규명을 위한 전운이 감돌았다.
2. "무엇을 근거로 단언하십니까?"
모든 장애의 시작은 인프라 점검이다. 우리는 CPU, 메모리, 네트워크 대역폭을 샅샅이 뒤지고 있었다. 그런데 함께 SM을 운영하는 솔루션팀 담당자가 갑자기 회의 흐름을 끊으며 확신에 찬 목소리로 말했다.
솔루션팀 빌런: "이거 보나 마나 스토리지 때문입니다. 스토리지가 느리니까 서비스가 밀리는 거예요. 스토리지 팀에서 해결해야 합니다."
원인 추정도, 분석도 아니었다. 그것은 **'단언'**이었다. 스토리지가 I/O Wait이 얼마나 걸리는지, 지연 시간이 몇 ms인지 데이터 한 조각 내놓지 않고 그저 "느리니까 스토리지 탓"이라는 논리를 펼쳤다.
3. 인프라가 '동네북'은 아닙니다
물론 스토리지 문제일 수도 있다. 하지만 엔지니어라면 "데이터를 보니 스토리지 응답 속도가 떨어졌다"는 근거를 먼저 제시해야 한다. 솔루션 내부의 로직 문제나 쿼리의 비효율성, 혹은 데이터 급증으로 인한 영향은 고려조차 하지 않은 채 인프라를 범인으로 지목하는 태도. 그것은 분석이 아니라 '책임 회피'를 위한 밑작업일 뿐이다.
무엇이 그를 그토록 당당하게 만들었을까? 똑똑한 척하며 던진 그 한마디가 실제 원인을 찾는 시간을 얼마나 낭비하게 만드는지, 그는 알기나 할까?
4. 에필로그: 데이터는 거짓말을 하지 않는다
18편을 쓰며 다짐한다. 근거 없는 비난에 감정적으로 대응할 필요는 없다. 우리가 할 일은 명확한 수치와 로그로 증명하는 것이다. 스토리지가 범인이 아니라면, 그다음 화살이 어디로 향할지 지켜보는 것도 엔지니어링의 씁쓸한 묘미 중 하나다.
성경은 말한다.
"사연을 듣기 전에 대답하는 자는 미련하여 욕을 당하느니라" (잠언 18:13)
근거 없는 단언으로 타인에게 짐을 지우는 자는, 결국 진실이 밝혀질 때 자신의 무능을 증명하게 될 뿐이다.
[다음 편 예고]
"느린 건 스토리지 때문이죠. 저희 솔루션은 문제없습니다."
외부 업체 엔지니어의 당당한 근거 없는 단언. 그리고 이어지는 인프라 팀장의 기적의 논리. 2~3개월간 방치된 'Swap 100%' 서버의 진실을 두고 벌어지는 치열한 데이터 공방전.
인프라 생존기 시즌2-19편: [서버 장애 원인 분석] 스토리지 I/O와 Swap 사용률 100%의 관계 (다음 편에서 계속됩니다.)
'[인프라 생존기]' 카테고리의 다른 글
| [리눅스 서버 점검] Swap 100%와 swappiness 설정의 함정: 인프라 생존기 시즌2-20편 (0) | 2026.04.03 |
|---|---|
| [서버 장애 원인 분석] 스토리지 I/O와 Swap 사용률 100%의 관계: 인프라 생존기 시즌2-19편 (0) | 2026.04.02 |
| [서버 관제 시스템] 장애 알림 임계치 설정과 SMS 통보의 중요성: 인프라 생존기 시즌2-17편 (0) | 2026.03.31 |
| [SAN 스위치 관리] "변경점 0인데 패브릭 현행화?" – 일하는 '척'에 진심인 사람 (시즌 2-16편) (0) | 2026.03.30 |
| [UNIX 점검] 유닉스 DB 서버 Uptime과 리눅스 솔루션 재기동의 상관관계: 인프라 생존기 시즌2-15편 (0) | 2026.03.27 |