[인프라 생존기]

[인프라 장애 대응] "누구 탓인가요?" – 책임 전가 속에 가려진 엔지니어의 기본기: 인프라 생존기 시즌2-24편

기록자 느혜미야 2026. 4. 9. 08:30

[지난 줄거리]

수리도 안 끝난 노드에 전원을 넣고 "살아났으니 서비스가 켜지는 건 당연하다"며 짐을 싸버린 무책임한 HW 엔지니어. 나는 불안한 마음을 억누르며 원격지 거점에서 다시 터미널을 열었다.
 
👉 [23편] "살아났으니 켜진 거죠" – 무책임의 끝판왕 다시보기


1. 멈출 수 없는 서비스, 다시 시작된 노드 전환 작업

잘못 기동된 서비스를 강제로 종료시킨 뒤, 다시 정상 노드로 서비스를 안정적으로 넘기는 작업을 진행했다. 서비스 가용성을 유지하면서 다른 하드웨어 파트를 교체하기 위해, 장애 노드를 완전히 격리하고 리소스를 재배치하는 긴박한 과정이 이어졌다. 원격지 거점의 모니터에는 수많은 로그가 쏟아졌고, 내 손끝은 긴장으로 떨렸다.

2. 팀장의 직구: "운영자님이 챙기셨어야죠"

지연된 상황을 팀장에게 보고하자마자 날카로운 피드백이 날아왔다. "이거, 엔지니어가 아니라 운영자님이 미리 챙기셨어야 하는 거 아닌가요? 작업 중에 서비스가 제멋대로 안 올라오게 막았어야죠."
 
뼈아픈 지적이었다. 하드웨어 엔지니어와 센터 관리자를 너무 믿었던 나의 안일함. 현장에서 벌어질 돌발 상황을 대비해 서비스 자동 기동 방지 대책을 이중삼중으로 확인하지 못한 운영자의 책임이었다.

3. SW 엔지니어의 고백, 그리고 드러난 아이러니

그런데 상황이 정리된 후, 함께 원격지에 들어왔던 SW 엔지니어에게 황당한 이야기를 들었다. "사실 한쪽 노드가 수리 중일 때 서비스가 기동되지 않게 소프트웨어적으로 막을 수 있거든요. 근데 어제 HW 엔지니어가 전원을 그냥 넣어버리는 바람에..."
 
그는 끝까지 HW 엔지니어의 무책임함만 탓하며 열변을 토했다. 하지만 내 머릿속은 복잡해졌다. 서비스 제어와 기동 로직 관리는 엄연히 SW 엔지니어의 주 업무(Role) 아닌가? 노드 수리 중 서비스가 튀어 올라오지 않게 설정값을 점검하는 건 그의 기본 중의 기본이었다.

4. 확인하지 않은 자, 탓만 하는 자

더 아이러니한 건, 그는 나와 함께 원격지 거점에 들어와 실시간으로 모든 상황을 확인하고 있었다는 점이다. 현장 상황을 모니터링하며 서비스 상태를 관리해야 했던 전문가가, 정작 본인이 제어할 수 있는 '자동 기동 방지' 설정은 확인조차 안 했다는 뜻이다.
 
HW 엔지니어가 무책임했다면, SW 엔지니어는 자신의 전문 영역을 방관했다. 그리고 그 사이에서 모든 책임을 짊어진 건 결국 보고서를 써야 하는 운영자였다. 인프라의 세계에서 '전문가'라는 타이틀은 때로 가장 믿을 수 없는 이름표가 된다는 사실을 뼈저리게 느낀 하루였다.


[에필로그]

남 탓만 하는 엔지니어들 사이에서 운영자가 살아남는 법은 단 하나, **'아무도 믿지 않는 것'**입니다. "당연히 했겠지"라는 믿음이 무너지는 순간, 그 책임은 고스란히 운영자의 몫으로 돌아옵니다. 오늘도 차가운 터미널 앞에서 다시 한번 다짐합니다. "설마가 사람 잡고, 엔지니어는 내 뒤통수를 친다."
 

📖 오늘의 인프라 묵상

"지혜로운 자의 마음은 지식을 얻고 명철한 자의 귀는 지식을 구하느니라" (잠언 18:15)
익숙함이라는 늪에 빠져 변화를 거부하는 것보다 고통스러운 일은 없다. 엔지니어의 성장은 과거의 경험을 맹신하는 것이 아니라, 새로운 기술과 데이터라는 지식을 끊임없이 갈구하는 데서 시작된다.

🛠️ [24편 하단] 다음 편 예고 패치 (Next Episode)

[다음 이야기]
"운영자님, 다른 서버에서 안 쓰는 코어 좀 '빼와서' 여기 꽂아주면 안 되나요?"

기술적 필터링 없이 고객의 황당한 요구를 그대로 배달해온 SM 담당자의 한마디. 가상화의 기본 상식마저 파괴하는 이 '코어 탈취(?)' 사건의 전말은...

🚀 [25편] "다른 서버 코어를 빼오라고요?" – 기술과 운영 사이, SM의 황당한 배달사고