NVIDIA 블랙웰 소비 전력 문제

NVIDIA 블랙웰 소비 전력 문제

avatar
워런런핏
2024.08.30조회수 29회

출처 : 메르의 블로그 게장남매님 댓글


데이터센터에 서버를 여러개 설치 할 수 있는 RACK 이라는 큰 캐비넷의 최대 수용 전력을 12KW로 본다.(데이터센터에 따라 약간의 오차는 있음)

현재 판매되는 H100 GPU 서버의 경우 1대당 10KW의 전력을 소모. 즉 RACK 당 1개 겨우 설치 할 수 있다는 뜻.

표준 RACK이 42U로 이론적으로 42개 서버를 설치할 수 있다는 의미(실제로는 여러 상황을 고려해서 아주 적게 설치합니다.)


문제는 H100 다음 모델로 나올 블랙웰 제품의 경우 소비전력이 최대 14.3KW(B200기준)

즉 현재 데이터센터 구조에서는 전력문제로 RACK에 1개도 수용을 못함.


NVIDIA 신제품이 데이터센터에 수용이 안된다고 한다면 판매도 어려움. 그래서 액침냉각, 액체냉각 등등 여러 전력을 낮춰야 하는 상황은 발등의 불이고 한국의 모든 데이터센터도 AI GPU 도입을 위한 데이터센터 개선을 추진중 일 수 밖에 없는게 닥친 현실.


개인적인 생각은 NVIDIA 입장에서는 장기적으로 서버 설계를 변경해서 액침냉각으로 가겠지만 당장은 기술적인 한계로 어렵지 않을까 싶습니다. 그래서 데이터센터에 수용이 가능한 수준까지 소비전력을 낮추는 방안을 블랙웰 모델에 적용하지 않을까 합니다.



양영감님 댓글.

살짝 첨부하자면 전원 문제가 해결 되더라도 장비사이즈에 따른 상면 문제와 기체->액체 사용에 따른 중량문제도 고려사항이 될 것 같습니다. 선풍기 놓던 자리에 수조가 들어가는 상황이 될 수도 있습니다.

회원가입만 해도
이 글을 무료로 읽을 수 있어요.

이미 계정이 있으신가요?로그인하기
댓글 0
avatar
워런런핏
구독자 3명구독중 14명
오늘 보다 나은 내일의 내가 되길 바란다.