[SK Hyinx] NVIDIA HGX H200 클러스터 구축기 (320장 규모)

[SK Hyinx] NVIDIA HGX H200 클러스터 구축기 (320장 규모)

NVIDIA H200 40대 가량(320장)의 GPU 클러스터를 구축을 완료했습니다! 인터넷 연결이 안되는 에어갭 환경(폐쇄망)에서의 구축입니다. 인프라부터 올라가는 프로젝트라 간만에 데이터 센터를 직접 뛰며 느꼈던 부분을 몇 자 공유해 봅니다.

예행연습은 미리 해놓는게 좋습니다.

에어갭 환경인지라 무슨 일이 벌어질지 몰라, H200과는 동일한 환경은 아니지만, 보유하는 A100 서버에서 폐쇄망을 가정하고 예행연습을 하고 사용자 매뉴얼도 미리 만들었습니다. 당연히 계획대로 되지는 않았지만 그래도 미리 패키지 파일을 준비하고 설치하는 과정에서 많은 예기치 못한 시나리오들을 막을 수 있었습니다. (특히 NVIDIA 드라이버 설치 과정에서 설치파일 관련 테스트는 반드시 해봐야 합니다)

아무리 외부 패키지를 잘 준비해와도 구멍은 있습니다.

초기 S/W 설치시 1시간에 한 번 꼴로 의존성 패키지 부족 문제가 납니다. 그럴때마다 두뇌풀가동을 해서 우회방법을 찾든가, 아니면 보안팀에 얘기해서 추가파일을 반입해야 합니다. 반입하는데 당연히 최소 하루 이상은 걸립니다.

시간이 가장 소중합니다.

이번 고객 사이트는 서울 지역도 아니고 공장 부지도 넓어서, 서버실 도착하는데만 한세월입니다. 팀원들을 무작정 잡아두며 작업을 시킬 수는 없습니다. 밥먹는 시간, 쉬는 시간도 계산하며 시간을 아껴써야 하고 계속 주기적으로 작업자들끼리 싱크를 맞춰야 효율적으로 작업이 진행됩니다. 우리 탓이 아닌 것으로 문제는 계속 발생하지만, 그래도 납기는 그대로입니다. 정해진 시간 안에 구축을 끝내는 것이 가장 1순위 목표입니다.

구축 중에도 고객 상황은 계속 바뀝니다.

물론 모든 작업이 시작하기 전에 고객의 상황이 Fix 되면 좋겠지만, 그런 아름다운 일은 벌어지지 않습니다. 고객도 내부에서 다양한 이해관계가 있는지라 구축 중간에도 얼마든지 상황은 바뀔 수 있습니다. 그럼 우리 작업도 지연이 되거나 다시 해야하는 경우도 발생할 수 있습니다. 이런 예측 불가능한 영역도 작업시간에 계산을 넣어두어야 합니다.

’임기응변에 능한‘ 엔지니어가 필요합니다.

정말 말도 안되는 억까같은 일들이 벌어지는 곳이 에어갭 환경입니다. 예를 들어 의존성 패키지가 부족한 경우가 발생할 때마다, 인터넷에서 필요한 파일을 받아올 수도 없고 보안팀에 의존하자니 시간은 흘러갑니다. 이럴 때 어떻게든 방법을 찾아야 하는 노련함과 임기응변이 필요합니다. Workaround 라고도 하죠. 저희 같은 경우는 이번에 OS 커널관련 문제가 굉장히 발목을 많이 잡았는데, NVIDIA 드라이버를 설치할 때 커널을 빌드하는 부분을 이해하고 응용할 줄 알아야 하고, 때로는 고객 담당자도 모르는 Private Repo를 찾아내서 어떻게든 의존성 패키지를 구해서 문제를 해결하기도 했습니다. 에어갭 환경은 경험많은 엔지니어가 빛을 발합니다.

서버실은 여전히 겁나 춥습니다… 🥶

감기걸리기 쉬우니 한여름이더라도 바람막이는 꼭 챙겨가세요...