Titan RTX에 대한 고찰

tpp52   
   조회 6089   추천 1    

최근 8-way Titan RTX 서버를 구입한 경험을 공유하고 싶어 이렇게 글을 남깁니다.

운용중 생긴 문제로는 1) 극심한 쓸로트링으로 일부 GPU는 사용불가 상태에 빠졌고, 2) NCCL에 필요한 Peer-to-peer가 정상작동하지 않았습니다.

1)번의 경우 GPU의 위치를 바꾸어 보니 정상작동하던 녀석(쿨링이 유리한 위치에 있었습니다)들도 쿨링이 불리한 위치에 가면 쓸로트링이 걸리고 사용불가하던 녀석들도 위치를 바꾸면 정상작동하는걸 보니 카드불량 문제는 아닌것으로 보입니다. 확실한 근거는 없지만 ... 눈으로 보았을때? 기존 Titan 시리즈와 쿨링방식이 상이하여 랙에 장착하는것 자체가 불리한것으로 개인적으로 추측합니다. 

2)번의 경우 분명 보드 펌웨어는 PCI-E를 통한 P2P를 지원하나 RTX에서만 안되는것으로 보아 ... 개인적인 추측은 드라이버에서 막은게 아닌가 싶습니다. P2P란 GPU간 데이터 통신을 말하는 말이고 단일 Neural Net을 멀티 GPU에서 돌릴때 gradient 및 기타 정보공유 등에 필요한 기능입니다. P2P는 NVLink방식 (Power CPU를 지원하는 서버에서 태생적으로 지원하고 데탑에서 카드 2개에 한해 NVLink Bridge로 구현 가능한 기능입니다), PCI-E 컨트롤러를 통한 방식, CPU를 통한 방식 3가지로 나누는데 대역폭의 비율은 대략 10:2:1입니다. 해외 블로그를 뒤져보면 멀티 GPU환경에서  처리속도차이는 100% : 90-95%: 85-90% 정도입니다. 어쨋든 RTX는 현재로선 가능 효율이 낮은 방식으로만 가능하다 입니다. 물론 2개만 사용한다면 NVLink도 가능해서 상관없지만요. 문제는 3개이상일 경우 보통 PCI-E를 통한 P2P가 불가능하다 보니 ... 다행히 실사용시 큰 차이 나지는 않지만 뭔가 손해본 느낌입니다. 

쓸로트링을 보여주는 그래프입니다.8개 차트는 각 GPU를 대표하고 x축은 시간(초), y축은 클럭(MHz)입니다. GPU에 각각 80%로드를 주고 측정했습니다. 1번과 3번에서 300Mhz (최저클럭)으로 내려가 사용불가상태에 빠진것을 확인할수 있고 두 카드는 서버에서 가장 불리한 위치인 구석에 놓인 위치와 가장 중간에 샌드위치로 끼운 녀석입니다. 6,8번도 쓸로트링이 있지만 기본클럭을 대부분 시간대에서 유지합니다. 2번,5번은 쓸로트링이 없이 풀 부스트클럭으로 작동하는데 통풍구가 바로 옆에 뚫려있어 그렇습니다. 

위 그림처럼 일반적으로 GPU뒤쪽은 보통 이렇게 뚤려있고 보시면 저기 방열판이 뒤면과 수직된 상태라 바람이 통과하기 용이합니다.

그러나 RTX는 ...

이런식으로 구멍이 ... 짜증나게 나있고 ... 내부 방열판이 뒤면과 평행으로!!! 되어 있어 바람이 통과하기 굉장히 불리합니다!!!

대신 바람은 저 그림 기준으로 왼쪽으로 통과하여 케이스 내부에서 처리하게 되어 있습니다. 그러나 이것을 랙서버에 수직으로 꽂을 경우 ...

저 왼쪽은 바로 랙 상판에 막혀 있습니다!!! 방열이 되는게 이상하죠!

결론은 ******는 ㄱㅅㄲ입니다. 


TRUE 02-14
*비밀글입니다
     
tpp52 02-14
고맙지만 방향을 바꿀수 없을뿐더러 근본적인 발열부터 문제가 되고 있는 상황입니다 .. 에효
          
TRUE 02-14
서버랙에 설치되어 방향 전환이 어려운 경우 같네요.
               
tpp52 02-14
맞습니다 ㅠ
박문형 02-14
에구 고생이 많으십니다..

대략 이 시스템일텐데 슈마에서는  테슬라 그리드 같은 것만 보증하고 있군요..

https://www.supermicro.com/products/system/4U/4029/SYS-4029GP-TRT2.cfm

https://www.supermicro.com/support/resources/gpu/

슈마 본사에서 Titan RTX를 테스트 하고 개런티 하느냐가 문제가 되겠네요..

제 생각에는 가능하다면 GPU를 다른 것으로 바꾸는게 답인 듯합니다..

열축적는 누구도 못 견딥니다..
     
tpp52 02-14
당연히 GPU작동 문제에 대해선 개런티가 불가능합니다. 이건 RTX뿐만 아니라 모든 Titan 시리즈도 똑같습니다.
GPU는 다음세대 24GB가 나오면 몰라도 바꾸는건 있을수 없는 일입니다. V100 32GB 버전이면 모를까 ... 그러면 돈이 4배가 필요하죠 ... GPU가격만 1억입니다 ...
그리고 임시방편으로 해결은 보았기에 좀 더 근본적인 해결법을 찾는중입니다...
          
박문형 02-14
그나마 다행입니다..
TRUE 02-14
*비밀글입니다
     
tpp52 02-14
음 AS가 안될뿐더러 ... 물이 새면 ... 보드가 수평인 구조라 ...
          
TRUE 02-14
위험하네요. ㅠㅠ
박문형 02-14
https://www.tyan.com/doc/support_lists/GPU/TYAN_GPU_Supporting_Lists

요건 일종의 경쟁업체인 TYAN의 GPU 검증 리스트 입니다..

슈마보다는 내용이 디테일 합니다..

문제는 부하 걸면 80-90도인거 더 큰 문제네요.. 뜨끈뜨끈하겠습니다..
     
tpp52 02-14
역시 Tesla 뿐이고 온도가 40도를 넘어가지 않네요 ... 예전에 K40을 쓸때도 60도 언저리였던거 같습니다.

지금은 풀로드시 85도 정도로 맥시멈클럭 가능하게 만들었습니다만 ... 더 좋은 쿨링을 위해 커스텀 케이스 상판에 추가 팬 장착을 생각하고 있습니다 ...
박문형 02-14
GPU 부분만 뚜껑 따고 이런게 국내 재대로 있을지 모르지만

https://www.rackmountsolutions.net/ft900ha1bk-1u-fan-tray-9-fans/

요런거 구하셔서 강한 바람을 마구 넣는수 밖에 없어 보입니다..

그 외 CPU쿨러는 히트 씽크 말고 액티브 쿨러로 바꾸는 것도 나쁘지 않습니다..
     
TRUE 02-14
900 CFM
정말 시원하겠습니다.
TRUE 02-14
*비밀글입니다
박문형 02-14
지금 사용하시는 케이스는 GPU 전용이지만 샤시 자체가 하나의 큰 덕트 역활을 한다고 보셔도 됩니다..

그 외 찬바람이 GPU코어까지 재대로 못닿는 구조적인 문제가 재일 크고요..
TRUE 02-14
*비밀글입니다
     
tpp52 02-14
감사합니다, 달수 있는지는 모르겠네요
박문형 02-14
https://www.asrockrack.com/general/productdetail.asp?Model=3U8G%2b/C621#Specifications

이 회사 제품이 좀 많이 투박하지만 열문제는 조금 덜할 듯합니다..

모양만 그런 것이고 호환성이나 그런건 저 사이트에서는 잘 안나와 있습니다..
     
tpp52 02-14
크고 아름다운 테슬라들이 보이는군요 ... 간격이 넓어 좋네요
JuneKang 02-14
정말 고생 많이하셨네요...
경험에서 얻은 솔루션 공유해 주셔서 감사합니다.
     
tpp52 02-14
마루타가 되었습니다 ..
파운더스 에디션을 블로우 포기할때부터 이런일생갈줄알았습니다
특히나 최고위급 제품일수록 특수용도로
 4way 6way쓰시는 분들이많은데 발열을 어찌감당할려고 이렇게만들었다나 싶었거든요~
수냉아니고서는 분명히 문제생길소지가 다분했죠~
     
tpp52 02-14
엔비디아는 그런용도로 쓰라고 만든게 아니다로 일관하고 있습니다.
개인 웍스 작업 용도라고 합니다.
          
JuneKang 02-15
공식적으로... 그런 답변을 했다면...강제 쿨링을 유저가 고민하는 수밖에 없군요...
NVIDIA입장에서는 GV100을 쓰라...고 얘기하고 싶겠지만, 괴씸하네요.
               
tpp52 02-15
예전엔 그래도 Titan시리즈는 Tesla에 비해 16bit 부동소수점 연산도 block되고 RAM도 1/2 내지 1/3이어서 tesla가 확실한 매리트가 있었는데 ...
Titan RTX는 ... FP16, TensorCore, 24GB나 되는 전대미문의 램으로 출시되는걸 보고 의아하긴 했습니다 ... 왜 저러지 하고 ... 그랬더니 역시나
제온프로 02-16
후방에 120mm 팬을 4개 설치 하셔서 돌려 주세요.. 2000~3000rpm 정도..... 상시로 돌려 주세요...
팬도 두꺼운 팬 38mm 된 놈으로요... 1A 이상으로요..


8개를 모두 수냉으로 하면 좋겟지만.. 구조상 할 수도 없으시고..

일단 후방 120mm 설치 하셔서 사정없이 열을 빼주세요..
에어컨 켜 주시고요...

일단은 저 상태로는 돌릴 수가 없습니다..

RTX 2080 Ti 가 망작이 되더니 350만원이나 되는 Titan RTX도 망작의 기운이 도는군요...

방열 만이 살길이군요.
Centigrade 03-07
랙 케이스 상단 따고 쓰면 되긴 합니다. ASUS GPU 서버 중에 저런 놈 때문에 나온 별도 상판도 있었죠 3U 랙인데 커버 바꾸면 4U가 됩니다
색작업자 05-11
결국 rtx 케이스를 사제로 바꾸는 것이 방법일 것 같군요. 사제 케이스가 어떤 것이 있는지 찾아봐야겠습니다.
xeonpt 06-03
실내온도가 25도 넘지않게 해주시면 될텐데 , idc센터 실내적정온도 표준을 따라주시는게 렉형 케이스에 어울릴듯합니다.




제목Page 3/7
2015-12   12635   백메가
2014-04   2598776   회원K
02-14   3172   백만스물하나
02-14   6090   tpp52
02-12   3883   FC서울
02-01   3235   tpp52
01-28   2929   페르세우스
01-10   5974   nmnn787
01-08   3134   Tu7885
01-04   2575   tyler
01-03   3101   청개구리03
01-03   4212   판타지스타
01-02   2184   김진관
2018-11   3565   TooDockLab
2018-11   3926   엠브리오
2018-11   2853   백만스물하나
2018-11   3729   꿈먹
2018-10   4128   davidhong
2018-10   4044   페르세우스
2018-09   2642   영산회상
2018-09   3707   optimize
2018-09   2966   민사장