분류 전체보기 64

[인프라 운영] "1분마다 4GB의 폭격: 30분의 사투와 술 취한 엔지니어" (시즌 2-54편)

[지난 이야기] Write Latency가 평소보다 100배 폭증했음에도 "수치가 낮으니 껌이다"라며 망언을 뱉었던 네트워크 담당자. 그리고 그 안일한 판단을 방관했던 팀장. 그들의 오만 속에 특정 서비스의 NAS 볼륨은 어느덧 99%라는 임계치를 향해 달리고 있었습니다. 👉 [[시즌 2-53편] "Latency 100배가 불러온 나비효과: 99%의 임계치" 다시보기]1. "1분마다 4GB씩 사라지는 공간"관제 화면을 통해 실시간으로 확인되는 수치는 경악스러웠습니다. NAS 용량이 1분마다 4GB씩 무서운 속도로 차오르고 있었죠. 이 속도라면 99%에서 100%가 되어 서비스가 완전히 멈춰버리는 건 시간문제였습니다. 저는 주저 없이 택시를 잡아타고 회사로 향했습니다. 다행히 업무 효율을 위해 회사 근처..

[인프라 운영] "Latency 100배가 불러온 나비효과: 특정 서비스 NAS의 비명" (시즌 2-53편)

[지난 이야기] Write Latency가 평소보다 100배 폭증했음에도 "수치가 낮으니 껌이다"라며 무시하던 네트워크 담당자. 대역폭과 지연 시간조차 구분 못 하는 그의 오만함은 우리 시스템을 서서히 벼랑 끝으로 밀어넣고 있었습니다. 👉 [[시즌 2-52편] "Latency 100배가 껌이라고?" – 네트워크 담당자의 위험한 '수치' 망언 다시보기]1. "이상하긴 한데, 결국 스토리지 문제 아냐?"네트워크 담당자의 "껌" 발언에 이어 팀장님께 보고를 올렸지만, 돌아온 반응은 예상보다 훨씬 더 무거웠습니다. 아키텍트로서 100배 폭증한 지연 시간의 위험성을 경고했음에도, 팀장님은 근본 원인을 분석하기보다 **"결국 스토리지 자체에 결함이 있는 거 아니냐"**며 화살을 엉뚱한 곳으로 돌렸습니다. 전문가들..

[K시니어 연대기 03] "안 알려주던데요?" – 리딩을 포기한 엔지니어의 직무유기

0. 아카이브를 열며: 무책임의 씨앗은 소리 없이 자란다엔지니어에게 '연차'는 경험의 상징이지만, 때로는 '태만'의 핑계가 되기도 합니다. [Case Archive]의 초기 기록을 정리하며 가장 씁쓸했던 순간은, 시니어가 스스로 리딩하기를 포기했을 때였습니다. "안 알려준다"는 식의 수동적인 태도. 이 작은 균열이 훗날 어떤 거대한 무책임으로 번지게 될지, 이때 이미 예견되어 있었는지도 모릅니다. 🔗 이전 이야기 다시보기 [K시니어 연대기 02] 낡은 유물과 무대포 작업 편 바로가기1. [Episode 13] 침묵을 방패 삼은 직무유기🔗 에피소드 13: 리딩 포기 사건 원본 로그 보기 서버 파트 교체 작업 중 시니어가 보여준 모습은 엔지니어라기보다 '수동적인 수행자'에 가까웠습니다. 물리적인 부품을 ..

[인프라 실무의 정석 #7] P2V의 기술과 예술: 물리 서버를 가상화로 옮기는 '라이브 솔루션'의 신뢰성

🔗 [인프라 실무의 정석] 시리즈 다시보기[[제1편] 밤샘 작업은 이제 그만: 주중 근무시간에 가능한 변경작업의 조건][[제2편] 서비스 영향도 '제로'의 실체: 하드웨어 관리 키(UAK) 업데이트는 왜 낮에 하는가?][[제3편] 가상화 환경이 주는 축복: 온라인 리소스 증설과 Hot-Add의 마법][[제4편] vMotion의 신뢰성: 주간 작업의 경계를 허무는 가상화 마이그레이션]1. Live P2V: 가동 중인 서버를 통째로 옮기는 마법V2V가 가상화라는 울타리 안에서의 이동이라면, **P2V(Physical to Virtual)**는 '물리'라는 육지에서 '가상'이라는 바다로 생태계를 옮기는 대공사입니다. 과거에는 엄두도 못 냈을 일이지만, 최근의 라이브 마이그레이션 솔루션(VMware Conve..

[인프라 연대기 #7] 가상화 메모리는 인색하고 사람은 완고하다: "여우가 올라가도 무너지리라"는 산발랏의 비웃음과 비선실세의 벽

[지난 연대기 다시보기][인프라 연대기 #6] 가상화 Hot-Add와 느헤미야의 성벽 실사1. 도입: CPU는 관대하지만, 메모리는 인색한 이유CPU는 가상화율을 200%까지 높여도 실제 사용량 기반이라 유연하게 대처가 가능하지만, 메모리는 다릅니다. 할당량이 곧 물리적 점유로 이어지는 경우가 많아 운영자들은 보수적일 수밖에 없습니다. 리소스 설계 시 가장 정밀한 계산이 필요한 영역, 그것이 바로 가상화 메모리입니다.2. AA의 요청과 아키텍트의 판단어느 날, AA(Application Architect) 쪽에서 WAS 서버 메모리 증설 요청이 왔습니다. 현재 가상화 호스트의 메모리 사용률은 약 50%. VMware 권고안상 나머지 50%는 HA를 위해 비워두는 것이 정석이지만, 리소스는 충분했습니다. ..

[인프라 운영] "Latency 100배가 껌이라고?" – 네트워크 담당자의 위험한 '수치' 망언 (시즌 2-52편)

[지난 이야기] 분명히 발생했다는 서버 메시지가 사라졌다며 '누가 삭제한 것 아니냐'는 음모론을 펼치던 시니어 빌런. 하지만 진실은 시스템 로그가 아닌 DB 로그에 있었죠. 로그의 출처조차 구분 못 하는 기술적 무지가 드러난 사건이었습니다. 👉 [[시즌 2-51편] "로그가 사라졌다?" – 시니어 빌런의 음모론과 DB 로그의 반전 다시보기]1. "스토리지 좀 봐주세요, 서비스가 느립니다"어느 날, 응용 팀의 요청을 받은 시니어 빌런이 저를 찾아왔습니다. 서비스 응답 속도가 현저히 느려졌으니 스토리지 단에 문제가 없는지 확인해달라는 것이었죠. 아키텍트인 저는 즉시 스토리지 모니터링 툴을 돌려 지표를 분석하기 시작했습니다.2. 수치로 증명된 위기: Write Latency 100배 폭증데이터는 거짓말을 하..

[인프라 운영] "로그가 사라졌다?" – 시니어 빌런의 음모론과 DB 로그의 반전 (시즌 2-51편)

[지난 이야기] 기록을 두려워해 전화기 뒤에만 숨던 시니어 빌런의 비겁한 생존 전략. 26편의 유체이탈 사건은 결국 '기록의 부재'가 낳은 비극이었습니다. 하지만 이번엔 기록(로그)이 있는데도 읽지 못하는 더 황당한 사건이 벌어집니다. 👉 [[시즌 2-50편] "2코어 증설 불가"의 진실 – 기록을 두려워하는 빌런의 생존법 다시보기]1. "서버 메시지가 증발했습니다"평온하던 어느 날, 유닉스(Unix) 서버에서 이상 메시지가 발생했다는 보고가 들어왔습니다. 그런데 이상한 일이 벌어집니다. 분명히 봤다는 메시지가 정작 서버 로그에는 남아있지 않다는 겁니다. 당황한 담당자가 시니어 빌런에게 달려가 묻습니다. "빌런님, 이 메시지 보셨어요? 지금 서버에서 사라졌는데요?"2. 기술 대신 '음모론'을 선택한 전..

[인프라 운영] "2코어 증설은 안 됩니다" – 시니어 빌런의 유체이탈과 기록의 중요성 (시즌 2-50편)

[지난 이야기] "2코어 증설은 안 됩니다." 시니어 빌런의 근거 없는 확신에 SM 총괄은 혼란에 빠졌고, 운영자인 나는 그들의 위험한 독대를 묵묵히 관전했습니다. 하지만 비극은 모두가 보는 '전체 공유방'에서 시작되었습니다. 👉 [[시즌 2-26편] "2코어 증설은 안 됩니다" – 시니어 빌런과 SM 총괄의 위험한 독대 다시보기]1. 빌런의 안식처, '휘발되는 대화'시니어 빌런이 팀장 앞에서 그토록 당당하게 "난 그런 적 없다"고 발뺌할 수 있었던 비결은 명확했습니다. 그는 **'기록'**을 극도로 두려워합니다. 텍스트로 박제되는 공유방이나 메일은 나중에 자신의 발목을 잡을 '증거'가 되기 때문이죠. 그래서 그는 항상 **'전화 1:1'**이라는 밀실을 선택합니다. 옆 건물의 SM 총괄에게 전달된 "..

[인프라 생존기 #49.5] 브레이크가 있는 조직, 그리고 50번째 로그를 향하여

🔗 [인프라 생존기 #49] 다시 보기 "제대로 검토하라" 무모한 열정에 찬물을 끼얹은 상식의 브레이크1. 어제의 여운: 파수꾼의 자격어제 기록한 49편의 에피소드는 인프라 아키텍트인 나에게도 깊은 안도감을 주었습니다. 폭주하는 DBA의 조급함 앞에 "제대로 검토하라"며 브레이크를 걸어준 총 책임자의 한마디. 그것은 단순히 작업을 멈춘 것이 아니라, 무너져가던 **'엔지니어링의 상식'**을 다시 세운 사건이었습니다. 우리는 종종 효율이라는 미명 하에 절차를 생략하고 싶어 하는 유혹에 빠집니다. 하지만 어제 보았듯, 그 유혹을 이겨내는 '두려워할 줄 아는 지혜'야말로 시스템을 지탱하는 진정한 힘입니다.2. 50편을 향한 중간 점검시즌 2를 시작하며 달려온 기록이 어느덧 50편을 눈앞에 두고 있습니다. 4..

[인프라의 비극] "폭주를 멈춘 한마디: 제대로 된 검토가 속도보다 중요하다" (시즌 2-49편)

[지난 이야기] 복구 테스트 도중 발견된 작은 로그 하나에 꽂혀, "테스트하는 김에 당장 패치까지 밀어붙이자"며 폭주하기 시작한 DBA. 아키텍트인 제가 경악하던 찰나, 작업 공지방에 예상치 못한 메시지가 올라옵니다. 👉 [[시즌 2-48편] 복구 테스트의 함정: '김에' 패치하자는 위험한 질주 바로가기]"지금 장비 붙잡고 있는 김에 바로 패치까지 진행하겠습니다."DBA의 선언에 작업방의 긴장감은 극에 달했습니다. 검증되지 않은 패치를 운영 환경에 즉흥적으로 밀어 넣겠다는 무모한 도박. 모두가 침묵하며 눈치를 보던 그때, 단체 대화방에 묵직한 메시지 한 줄이 올라왔습니다. 바로 이번 작업을 총괄하는 총 책임자였습니다. "너무 급하게 하지 말고, 제대로 검토해 보고 하는 게 나을 듯한데."1. 무모한 열..