[지난 이야기 다시보기]
"스토리지 때문에 스왑(Swap)이 높은 것"이라는 기적의 논리를 펼치던 팀장님이 드디어 솔루션팀에 확인 요청을 보냈다. 그리고 돌아온 결과는 예상대로였지만, 그 이후의 행보는 예상보다 훨씬 더 가관이었다.
1. vm.swappiness의 진실
확인 결과, 리눅스 서버의 vm.swappiness 설정값은 30이었다. 보통 리눅스 서버에서 스왑 사용을 최소화하기 위해 10 정도로 설정하는 것이 일반적이고, 요즘은 아예 스왑을 쓰지 않는 추세인 것을 감안하면 확실히 조정이 필요한 상태였다.
그들은 설정값 이야기를 하며 "다른 건 문제없고 설정만 좀 조절하면 된다"고 애써 태연한 척 대답했다. 하지만 데이터는 이미 그들의 '무지' 혹은 '방치'를 가리키고 있었다.
2. 말보다 빠른 '증설'의 손길
"설정만 바꾸면 된다"던 호기로운 태도는 몇 시간도 가지 못했다.
- 인프라 팀장님은 갑자기 해당 서버의 메모리 증설 필요성을 검토하기 시작했다. 스토리지 문제라더니, 결국 물리적인 메모리가 부족하다는 것을 본능적으로(혹은 쪽팔림을 무릅쓰고) 인정한 셈이다.
- 솔루션팀은 더 가관이었다. 자기네 소스나 프로세스는 문제없다더니, 갑자기 파일시스템을 증설하는 작업에 착수했다.
스토리지 탓이라며 호통치던 기세는 어디 가고, 약속이라도 한 듯 조용히 리소스를 늘리고 있는 모습이라니.
3. 미안하다는 말 대신 '증설'을 택한 사람들
엔지니어링의 세계에서 증설은 곧 '현재 리소스 설계의 실패' 혹은 **'예측 실패'**를 의미한다. 입으로는 끝까지 "스토리지가 느린 게 근본 원인"이라고 우기지만, 정작 조치는 서버 메모리와 파일시스템에 집중되고 있었다.
잘못을 인정하는 순간 책임소재가 본인들에게 돌아오니, 입은 닫고 손만 바쁘게 움직여서 상황을 덮으려는 전형적인 **'회피형 조치'**였다.
4. 에필로그: 진실은 'Action'에 있다
1~20편까지 이어오며 느낀 점은 하나다. 사람은 거짓말을 해도, 시스템 설정값과 증설 이력은 거짓말을 하지 않는다. 그들이 증설 버튼을 누르는 순간, "느린 건 스토리지 때문"이라던 그들의 논리는 스스로 파기된 것이다.
성경은 말한다.
"입술로 속이는 자는 나중에 자기 꾀에 빠지느니라" (잠언의 교훈 중)
오늘도 인프라 담당자는 묵묵히 증설 요청서를 승인하며 속으로 웃는다. "거봐요, 결국 스토리지 문제가 아니었잖아요."
[다음 편 보기]
"좀 기다리세요. 하는 중이니까 잠자코 있어 보세요."
솔루션팀의 '조용한 자백'으로 일단락된 장애 소동. 하지만 인프라 엔지니어의 고충은 외부 빌런뿐만이 아니다.
현장에 나간 관리자의 오만한 침묵과 원격 리딩의 한계.
인프라 생존기 시즌2-21편: [인프라 장애 대응] 메모리 교체와 현장 소통의 부재 (다음 편에서 계속됩니다.)
'[인프라 생존기]' 카테고리의 다른 글
| [인프라 장애 대응] "그냥 켜볼까요?" – 전문가의 무지가 부르는 대참사: 인프라 생존기 시즌2-22편 (1) | 2026.04.07 |
|---|---|
| [인프라 장애 대응] 메모리 교체와 현장 소통의 부재: 인프라 생존기 시즌2-21편 (1) | 2026.04.06 |
| [서버 장애 원인 분석] 스토리지 I/O와 Swap 사용률 100%의 관계: 인프라 생존기 시즌2-19편 (0) | 2026.04.02 |
| [인프라 성능 점검] 서버 지연과 스토리지 I/O 장애의 상관관계: 인프라 생존기 시즌2-18편 (0) | 2026.04.01 |
| [서버 관제 시스템] 장애 알림 임계치 설정과 SMS 통보의 중요성: 인프라 생존기 시즌2-17편 (0) | 2026.03.31 |