작업 대상은 ORACLE DB RAC. 구축 후 1년 만의 첫 셧다운 작업이었다. 수차례 검증을 마친 작업계획서가 있었고, 업계에서 '나름 한 가닥 한다'는 소문난 DBA가 투입된 현장이었다. 1년의 침묵을 깨고 시스템을 내리는 작업, 우리는 모두 그가 전문가이니만큼 별다른 의심 없이 작업을 시작했다.
1. 1년의 침묵, 찰나의 실수
현장의 긴장감은 최고조였다. 작업계획서에는 작업 대상인 DB#1 인스턴스만 중지하라고 명시되어 있었다. 하지만 1년이라는 시간 동안 시스템에 너무나 익숙해진 DBA의 손은, 계획서의 글자가 아닌 자신의 '감각'을 믿었다.
DBA: "작업 대상인 DB#1 셧다운 들어갑니다."
하지만 그 찰나, 그의 손은 계획서의 DB#1뿐만 아니라, 전혀 작업 대상이 아니었던 DB#2까지 함께 셧다운시켜버리는 치명적인 실수를 저질렀다.
2. "왜 DB#2까지 내려간 겁니까?"
상황은 순식간에 아수라장이 되었다. 이중화되어 있던 RAC 환경에서, 단 한 노드만 작업하려던 것이 전체 DB 셧다운으로 번진 것이다.
사용자: "잠시만요! 작업 대상은 DB#1인데, 왜 DB#2까지 내려가죠? 지금 서비스 전체가 무너졌습니다!"
급하게 두 개의 DB 인스턴스를 다시 올렸지만, 시스템은 호락호락하지 않았다. 갑작스럽게 멈췄다 살아난 DB 인스턴스들은 응용 서비스와의 세션 정합성을 잃고 에러를 뿜어내기 시작했다.
3. 복구의 고통: 응용 팀의 비명
DB#2가 예기치 않게 멈췄다 살아나면서, 이미 연결되어 있던 응용 서비스들의 세션이 모두 꼬여버렸다.
응용 팀: "서비스 다 죽었어요! DB#2는 작업 대상도 아니지 않나요? 계획서에는 영향 없다면서요! 지금 이 서비스들 다 죽어서 다시 재기동해야 합니다!"
나름 베테랑이라 불리던 DBA의 찰나의 실수 하나가, 현장의 모든 팀을 오랫시간 붙잡아 두는 '동반 셧다운'의 사단으로 번졌다. 숙련된 전문가라 믿었던 그의 **'방심'**이 현장에서는 빌런보다 더 무서운 결과를 초래한 것이다.
4. 에필로그: 계획보다 무서운 건 '방심'
결국 서비스가 정상화되고 나서야 비로소 본래 작업을 마칠 수 있었다. 소문난 DBA의 실수에서 우리는 뼈아픈 교훈을 얻는다. "작업은 실력이 아니라, 매 순간 화면을 눈으로 확인하고 절차를 입으로 읽는 신중함에서 완성된다."
성경은 말한다.
"그런즉 선 줄로 생각하는 자는 넘어질까 조심하라" (고린도전서 10:12)
아무리 계획이 완벽하고 실력이 좋아도, 자신의 손끝을 맹신하는 순간 사단은 시작된다. 1년의 침묵을 깨고 내리는 시스템이라면, 그 무게만큼이나 작업자의 신중함도 더 깊어야 했다.
📌 [새로운 빌런 등장] 이번 편의 핵심
- 이번 작업에서 마주한 빌런은 '준비되지 않은 리더'가 아니라, **'경험을 과신한 전문가'**였습니다. 전문가의 방심이 어떻게 현장을 마비시키는지, 그 리얼한 실수를 확인했습니다.
🚀 인프라 생존기 시즌2: 정주행 안내
- 이전 에피소드: [9편] 파일 전수 조사와 시니어 빌런의 '정보 가로채기' 사건 보러가기 (신규 블로그의 시작점부터 다시 읽어보세요!)
[다음 편] "저희는 문제없으니 먼저 진행하시죠" – 솔루션 빌런의 근거 없는 낙관
정교하게 짜인 서버 작업 타임테이블. 하지만 현장에는 늘 '변수'가 존재합니다. 지각은 기본, 로그 확인도 없이 "이상 없다"고 단언하는 솔루션 담당자의 등장!\
결국 응용 팀의 팩트 폭격에 꼬리를 내리며 '재기동' 버튼을 누르기까지... 모든 팀의 시간을 뺏고도 뻔뻔한 그 '확신의 함정', 15편에서 공개됩니다.
"미련한 자는 자기 행위를 바른 줄로 여기나..." (잠언 12:15)
'[인프라 생존기]' 카테고리의 다른 글
| [SAN 스위치 관리] "변경점 0인데 패브릭 현행화?" – 일하는 '척'에 진심인 사람 (시즌 2-16편) (0) | 2026.03.30 |
|---|---|
| [UNIX 점검] 유닉스 DB 서버 Uptime과 리눅스 솔루션 재기동의 상관관계: 인프라 생존기 시즌2-15편 (0) | 2026.03.27 |
| [유닉스 서버 유지보수] 하드웨어 파트 교체와 보안 솔루션 점검 누락의 대가: 인프라 생존기 시즌2-13편 (0) | 2026.03.25 |
| [리눅스 서버 유지보수] 시니어 빌런의 부실한 공지와 서비스 중단 누락의 대가: 인프라 생존기 시즌2-12편 (0) | 2026.03.24 |
| [리눅스 서버 운영] 시니어의 허위 보고와 데이터 확인 없는 낙관의 최후: 인프라 생존기 시즌2-11편 (1) | 2026.03.23 |