[Server] Super GPU Box °¡ µåµð¾î ¿Ï¼ºµÇ¾ú½À´Ï´Ù.
https://m.post.naver.com/viewer/postView.naver?volumeNo=37880797&memb¡¦ (817)https://www.TrueAI.kr/ (906)
160;요새 AI 가 뜨네, GPU 가 ǥ12;1313;Ȣ16;네, 1473;국1004;/196;1032; 수출규1228; ǐ12;문에 용산에 4090 가ᅄ1;1060; 0120;쳤네, 1204;용 데1060;터 센터를 만드lj12;라 1204;기가 ǥ12;1313;Ȣ16;네 아무튼 1204; 세계1201;1004;/196; 1060;1901; 0148;닥1060; DŽ12;리도 아닙니다. 그래서 1200;lj16; 2023년 10월에 True AI 라lj16; 신규 법1064;1012; 설립Ȣ16;고 기1316;1032; 문1228;1216;1012; Ǻ12;lj12;1221;도 해결Ȣ16;면서 니치 마Ȓ11;1012; 석권Ȣ16;고1088; Super GPU Box 1032; 개0156;1012; 시1089;했고, 최근에 160;솔루션1012; 완성했습니다.
1068;단 사1652;ǥ12;터 시1089;160;
1060;,172; 오늘 설명할 Super GPU Box 1032; 외관 1077;니다. 1068;0152;1201;1064; 42Uቜ1; 기1456;1004;/196; 2개 빠1677; 붙여놓1008; 크기 1077;니다.
앞 커버를 열면 1060;/111;,172; 생겼1424;160;
양옆1008; 항온항습기(에Ǻ12;컨)1060; 한개씩 붙Ǻ12;1080;습니다. 총 냉0169;능/141;1008; 78000BTU 고 실외기lj16; 따/196; 한개씩 총 .160;개 1080;습니다.
0169;온항습0169;1020;0169;1652;ቜ1; NJ13;,172;. 문닫1004;면 40데시벨 1221;도1032; 낮1008; 스1020;1060; 1109;1216;1077;니다. 사무실1060;나 연구실에 충ǥ16;7176; .168;만 Ȣ16;1424;.
4U1676;리 GPU 확1109; 케1060;스가 8대, 그리고 4U1676;리 메1064; 서버가 1대 1080;습니다.
1060; 서버와 각 GPU 확1109; 케1060;스lj16; 아래처/100; 2개1032; MCIO 8i 케1060;블/196; 연결.121;니다.160;
AMD 1228;노아나 1064;텔 스케1068;러블 4세대 듀얼 프/196;/112;서 기0152;1032; 서버를 사용Ȣ16;고, 총 16개1032; MCIO 8i 포트를 1060;용해서 MCIO 8i 케1060;블 2개씩1012; 서버와 GPU 확1109; 케1060;스를 연결합니다.(1200;lj16; 원래 파트너/196;서 1064;텔만 사랑합니다.)
물론 케1060;스ǥ12;터 케1060;블, 컨넥터, 확1109;용 보드, 고1204;/141; 3+1 리Nj12;Nj12;트 1204;원공급 1109;치까1648; 다 설계해서 만들Ǻ12; 냈습니다. 특7176; 파워보드lj16; 최대 2700와트 CRPS 4개를 1060;용해서 그1473; 3개1032; 합1064; 160;8100와트 까1648; 사용가능 합니다. Ȣ16;1648;만 실1228;/196; 필요한 최대1204;/141;1008; 약 5000W 1060;Ȣ16;/196;서 충ǥ16;한 안1221;성1012; 1648;닙니다.160;
100Lane PCI-e Switch Chip 1012; 사용해 최대 5개1032; PCI-e 4.0 x16 카드 5개를 1109;착Ȣ16;고 서버/196;도 ᇼ1;1068;Ȣ16;,172; 160;x16 1004;/196; 연결Ȣ16;lj16; 1204;용 보드도 1080;습니다.160;
여기에 각 5개1032; 1068;0152;1201;1064; 뚱뚱1060; ,172;1076;용 GPU 를 1109;착Ȣ16;기 위한 1204;용 케1060;스도 1228;1089;했습니다. 각 4슬ǘ15; 간ᅄ1;1060;1648;요. 160;
결과1201;1004;/196; 한대1032; 서버에서 40개1032; GPU 를 모.160; 1064;식Ȣ16;고, 머신러닝, 시뮬/112;1060;션, /116;더링 መ1; 멀티 GPU 를 1060;용한 다양한 Ǻ12;플리1060;션에 1060;용가능해 1665;니다.
보기엔 쉬워보1060;시1424;? 1060;,144; 만만한 기술1060; 아닙니다.
1068;단 메1064;보드에서 40개1032; GPU 1064;식ǥ12;터가 안.121;니다.
그,152; 1096;(?) 해결했다고 해도 1060;번엔 운영체1228;에서 1064;식1060; 안.121;니다.
1060;,163;도 1096; 해결했다고 치고.. 1060;번엔...Ȕ16;다같1008; 라1060;브러리들1060; 1096; .112;1648; 보1109;1060; 없1424;.
1060; 모든,152; 해결해 나간 결과물1060;1424;. Ƽ17;금Ȣ16;면 한번 해보세요~ .104;나~160;
기1316;1032; 고성능 GPU 서버들과 비교해 볼까요? 아래와 같1008; 1333;류1032; GPU 서버들1008; 많1060; 보ǯ12;1012; ,161;니다.
1060;런 서버들1008; 기본1201;1004;/196; 최대 연결 가능한 GPU1032; 수가 1228;한 .121;니다. 공간ǐ12;문1060;1424;.
2Slot 용 GPU 라 Ȣ16;더라도 최대 10개를 넘기기 Ǻ12;/157;습니다. 1204;/141; ǐ12;문1060;라도 보통 8개가 최대1424;
그/100; 성능1012; 단순 비교해 보,192;습니다.160;
1068;0152;1201;1064; 머신러닝용 연산1004;/196; 비교Ȣ16;면 ,172;1076;용 RTX4090과 엔터프라1060;1592;용 H100 1032; 성능1008; 약 .160;0176;가 채 안.121;니다.
160;
물론 아Ȗ12;ᓮ1;쳐가 다르다1648;만 텐서코Ǻ12;lj16; 같1008; 세대1060;고 숫1088;도 RTX40901060; 더 많습니다.
1060;1228; 1060;,163;1012; 기1456;1004;/196; 단순 계산해 보면160;
결론1201;1004;/196; 코Ǻ12;수lj16; 5.60176;가 넘고 메모리도 50%가 많아1665;니다. 예상.104;lj16; Overal Performance lj16; 최소 2~30176; 1221;도 1077;니다.
물론 머신러닝, 시뮬/112;1060;션, /116;더링 መ1; 사용 용도와 설1221;0169;식에 따라 실1228; 성능1008; 차1060;가 1080;1012; 수 1080;1424;. NVLINK NVSWITCH 기술도 대단Ȣ16;기도 Ȣ16;구요
그/100;에도 불구Ȣ16;고 코Ǻ12;수lj16; 무시못합니다. GPU 를 사용Ȣ16;lj16; 1060;유가 결국1008; 1060; Ǻ12;마무시한 코Ǻ12;수를 1060;용한 단순 계산 1068;개0120;들1032; 1079;1216; ǐ12;문1060;니까요. 160;
1060;1228; 1228;가 생각Ȣ16;lj16; .160;가1648; 0169;식1032; 1109;단1216;1012; 나열해 보,192;습니다.
1. 납품 기1068; 측면에서 H100 160;1109;비를 구Ȣ16;lj16;,148; 오래 ,152;립니다. 물,148;1012; 구Ȣ16;기 쉽1648; 않1424;. 요새 1312;금 시1109;1060; 1339;아병1;1988;통상1201;1004;/196; ኧ1;1;1452;가 ,152;립니다.
1060;에비해 Super GPU Box lj16; ,172;1076;용1004;/196; Ǹ16;1060;lj16; RTX4090 1012; 사용Ȣ16;여 1452;문1593;시 1228;1089;Ȣ16;고 납품Ȣ16;lj16;,163;1060; 160;가능합니다.
2. 도1077; 비용 측면 에서 양1901;다 5~6Ǻ13;원 1221;도/196; 유사합니다. 서버1032; 사양차1060;가 1080;1012; 1104;1060;1424;.
3. 설치1109;소 측면에서 H100 같1008; 엔터프라1060;1592; 1228;품군1008; 데1060;터센터에 설치할 수 1080;고, 공간도 4U~8U 1221;도면 .121;니다. 냉각1012; 포함한 1204;/141;1008; 대략 10Kw 1060;Ȣ16;/196; 필요합니다.
1060;에비해 Super GPU Box 에 사용.104;lj16; RTX4090 같1008; 리테1068;용 1228;품1008; 데1060;터센터에 설치Ȣ16;lj16; ,163;1060; 엔비디아1032; 소프트웨Ǻ12; 라1060;선스 위0152;1077;니다. 드라1060;버 ǥ12;터 SDK መ1;መ1; 모.160; 데1060;터센터에 사용Ȣ16;lj16;,163;1012; 금Ȣ16;고 1080;습니다. Ȣ16;1648;만 Super GPU Box lj16; 항온항습0169;1020;0169;1652;ቜ1; 1068;체형1077;니다. 따라서 사무실1060;나 연구실 사내 1204;산실 መ1;에 설치Ȣ16;lj16;데lj16; 1228;한1060; 없습니다. 엔비디아1032; 라1060;선스 1221;책1012; 보기1339;,172; 빗겨나간,144;1424;. 다만 풀ቜ1; 2개1221;도1032; 공간1060; 필요Ȣ16;고 냉각1012; 포함한 1204;/141;도 35KW 1221;도 필요합니다. H100 8way 에 비해 30176; 1060;상 차1060;나1424;.
4. 고속 스토리1648; 연결 측면에서 H100 8Way 가 유리합니다. 내1109;.108; PCI-e /112;1064;에 여유가 1080;1004;니 충ǥ16;한 내1109; 스토리1648;를 1109;착Ȣ16;,144;나 다른 스토리1648;/196; 연결할 충ǥ16;한 대역폭1060; 남아 1080;습니다. 1060;에비해 Super GPU Box lj16; 내1109;1004;/196; 사용한다면 최대 PCI-e 32Lane 과 기1316;1032; SATA 포트들1012; 사용할 수 1080;고, 외1109;1004;/196; 연결시에도 400G 카드 .160;개 1221;도 1109;착1060; 가능합니다. 최대 800Gbps 1064;,144;1424;. 160;
1060;런 한계lj16; 1064;1221;할 수 0150;에 없습니다. Super GPU Box lj16; 1068;1333;1032; Micro GPU Data Center 1032; 역할1012; 합니다. 특1221;한 서비스 런칭1012; 160;위해 개0156;Ȣ16;,144;나 고속 /116;더링, 시뮬/112;1060;션1012; 1312;1649; 내ǥ12;에서 실행Ȣ16;기에 1201;합한 사1060;1592;1077;니다. 실1228; 대규모 서비스를 운영Ȣ16;lj16; 용도/196; 보기lj16; Ǻ12;/157;습니다. 그에 따른 시1109; 세그멘테션1008; 다1020;과 같습니다.160;
결과1201;1004;/196; 우리1032; 목표 시1109;1008; 다1020;과 같1060; 1221;해1276;습니다.
그리고 추가1201;1004;/196; 우리가 1473;요Ȣ16;,172; 생각Ȣ16;lj16; 시1109;1060; 1080;습니다.
군, 1221;보기관, ᅆ1;찰, 병원, 공공기관, ,160;찰, 0148;1060;오 회사, 금융기관 መ1; 1088;체 데1060;터를 1060;용한 머신러닝1060; 필요 Ȣ16;1648;만 외ǥ12;에 데1060;터 노출1060; Ǻ12;/157;,144;나 불가능한 모든 프/196;1229;트에 1201;용 가능Ȣ16;며, 1204;년도 책1221; 예산1012; 초과Ȣ16;lj16; 시1109;가ᅄ1; 변ᇼ1;에도 안1221;1201;1064; 공급1060; 가합니다. 1060;런 특수시1109;1008; 항상 1316;1116;해 왔습니다.
우리lj16; 1060;런 특수시1109;1012; 공략Ȣ16;기 위해 1204;세계 최고 /112;벨1032; 1221;보서비스를 각국 1221;ǥ12;기관에 1228;공1473;1064; 코그나1060;트 사와 공신/141;1012; 갖춘 사1060;버안보연구소 1032; 31088; ᕨ1;약1012; 통해 특수시1109;1012; 개척Ȣ16;고 1080;습니다.
1228;품에 대한 문1032;사항1060; 1080;1004;시면 Ǻ16;1228;든1648; 1901;1648; 1452;1;시요.
¸ÚÁö°Ô ³ª¿Â°Í °°½À´Ï´Ù.
¼ÒÀ½µµ ÀûÀ» °Í °°Àºµ¥¿ä.
¼ö¿ä°¡ ¸¹ÀÌ ÀÖÀ» °Í °°½À´Ï´Ù.
Àúµµ Çù·Â Agency ¸¦ ÇØ¾ß °Ú³×¿ä.
ħ½Çó·³ Á¤¼÷À» ¿ä±¸ÇÏ´Â°Ô ¾Æ´Ñ ÀÌ»ó ÀÏÁ¤ÇÑ ¼öÁØÀÇ ÈÀÌÆ® ³ëÀÌÁî°¡ À¯ÁöµÇ´Â°Ç Å« ¹®Á¦°¡ ¾È µË´Ï´Ù
Ä¿³Î ¸®ºôµåÇØ¼ ÀνĽÃÄ׳ª¿ä ?^^
º¸Åë Àú·± µÅÁö°°Àº ÀåÄ¡ 40°³³ª ¹°¸®¸é ºÎÆ®ÀÚü°¡ ¾È µÇ¿ä
¾È ¸¸Á®ºÃÀ¸¸é..
´ë´ÜÇÕ´Ï´Ù.
Áö±Ý ºí·¢À£ ³ª¿À´Â°Í º¸¸é GPU¿¡ 4.0 x16À¸·Î ÁË´Ù ½ÃÇ» Á÷°áÇØ³öµµ ´ë¿ªÆøÀÌ ÃæºÐÇÏÁö ¾Ê´Ù´Â »ý°¢ÀÌ µéÁ¤µµ°Åµç¿ä (PCIeÀÇ ±Ùº»Àû ´ë¿ªÆø ¹®Á¦µµ ÀÖ°í, ±¸Á¶»ó °¢°¢ÀÌ ¸ðµÎ º´¸ñ ¾øÀÌ »óÈ£ ¿¬°áµÉ ¼ö µµ ¾øÀ½)
~400G±îÁö NIC¸¦ ¿¬°á °¡´ÉÇÑ ½ÃÁ¡¿¡¼ Storage´Â Å« ¹®Á¦°¡ ¾Æ´Ï¶ó°í º¾´Ï´Ù (¿Âº¸µå 10±â°¡·Î ÀϹÝÀû Åë½ÅÀ» ó¸®Çϰí, Àú 2°³·Î ¿¬°á (¼¹ö¸¦ »óÈ£ ¿¬°áÇÑ´Ù´Â ¼±ÅÃÁöµµ ÀÖ°ÚÁö¸¸, ´ëºÎºÐÀÇ °æ¿ì 40GPUÁ¤µµ¸é ÃæºÐÇÒ²¨°í, ¹°¸®ÀûÀ¸·Î ·ºÀ» º¹¼ö ¹èÄ¡ÇÒ¸¸Å °ø°£À» È®º¸Çϱ⵵ ÈûµéÁÒ)Çϸé ÃæºÐÇÏ´Ù°í º¾´Ï´Ù)
ÀúÁ¤µµ ¼º´ÉÀ» µ¶¸³Àû ½Ã½ºÅÛÀ¸·Î ¿Ïº®ÇÏ°Ô ¿î¿µÇÒ ¼ö ÀÖ´Ù´Â Å« ÀåÁ¡ÀÌ µÈ´Ù°í º¾´Ï´Ù
¹°·Ð ¿£µðºñ¾Æ GH200 ·¢ ó·³ ÇϳªÀÇ GPU ó·³ ¾²´Â°Ç ¾ÈµÇµµ À¯»çÇÑ È¿°ú´Â ±â´ëÇÒ¼ö ÀÖÁÒ ¸ðµ¨ µ¥ÀÌÅÍ ´Ù ºÐÇÒÇÏ´Ï.
Ãß°¡ÀûÀ¸·Î 100·¹ÀÎ ½ºÀ§Ä¡ ĨÀÌ¶ó ³»ºÎ 5°³´Â x16À¸·Î ¼·Î Åë½ÅÇÏ°í ºÎÁ·ÇÏ´õ¶óµµ ´Ù¸¥ ¼ö°¡ ¾øÁÒ. ¾÷¸µÅ©? µµ x16 ÀÔ´Ï´Ù. x4 °¡ ³²ÁÒ.. »ç½Ç 144·¹ÀÎ ½ºÀ§Ä¡Ä¨µµ ÀÖ½À´Ï´Ù¸¸, 4½½·Ô GPUÀÇ ÇѰè·Î ´õÀÌ»ó ºÒÇÊ¿ä ÇØ¼ 100·¹ÀÎÀ» »ç¿ëÇÕ´Ï´Ù. ¾÷¸µÅ©¸¦ ´õ ÁÙ¼öµµ ÀÖÁö¸¸ ¾îÂ÷ÇÇ ¼¹ö ÀÚüÀÇ ·¹Àεµ 80·¹ÀÎ µà¾ó CPU ÇѰ谡 ÀÖ¾î¼ 64·¹Àθ¸ ¾²°í °Ü¿ì ³ª¸ÓÁö 16·¹ÀÎÀÌ ³²´Ùº¸´Ï ŸÇùÇѰÅÁÒ.
±×¸®°í 40°³ÀÇ GPU ¿¡ ´ëÇØ ÃÖ¼Ò °³´ç 2ÄÚ¾î ¸Þ¸ð¸® 20±â°¡¹ÙÀÌÆ®´Â Áà¾ßÇØ¼ 80ÄÚ¾î 800±â°¡¹ÙÀÌÆ® ÇÊ¿äÇÏ´Ï 48ÄÚ¾î µà¾ó¿¡ 1Å×¶ó Á¤µµ ·¥ÀÌ ÃÖ¼Ò ÀÔ´Ï´Ù.
GPU 40°³¶ó´Ï Á¤¸» ´ë´ÜÇÕ´Ï´Ù~^^
NVLink·Î Á¤¸» ºü¸¥ ´ë¿ªÆøÀ¸·Î ¿¬°áÇØ¼ ¸Þ¸ð¸®°£ Åë½Å¿¡ º´¸ñÀÌ ¾ø³× ¾î¼³×..
¸á¶ó³ì½º NVLink ½ºÀ§Ä¡ ±îÁö ÇØ´Ù°¡ ³ëµå³¢¸®µµ NVLink·Î ¹°í..
¹°·Ð °¡°ÝÀº... ¾î¾ï ¼Ò¸® ³ª¿ÀÁÒ..
Àú´ë·Î¶ó¸é PCI 5.0 8¹è¼Ó Á¤µµ°¡ ÇѰè À̰ڱº¿ä.
Èì..
±Ùµ¥ DGX ´Â ¹°°ÇÀÌ ºÎÁ·Çѵ¥´Ù°¡.. µ·ÀÖ´Ù°í »ì¼ö Àִ°͵µ ¾Æ´Ï°í ÃÖ½ÅÀº ´õÇÏÁÒ..
¾ï? ¤¾¤¾ NVSwitch ¶ó´Â ´Ü¾î°¡ µé¾î°¡´Â¼ø°¡ ¼ö½Ê¾ïÀÔ´Ï´Ù.
¹¹ °¡°ÝÀ̶ó´Âµ¥ ÀÖ¾î¼ »ÏÁ·ÇÑ ¼ö°¡ ¾øÀ¸´Ï ¹¶ÅöÇÑ ¼ö¸¦ Á¦¾ÈÇÏ´Â °ÅÁÒ.
±×³ª¸¶µµ ¿£ºñµð¾Æ¿¡¼ ¸¸µç AI/µ¥ÀÌÅͼ¾ÅÍ¿ë GPU Á¦Ç°±ºÀº ±¸Çϱ⵵ ¾î·Á¿ö¼ ±¸¼ºÇϴµ¥ ½Ã°£ÀÌ ¿À·¡°É¸°´Ù°í µé¾ú½À´Ï´Ù.
AI¹®¿ÜÇÑÀÎ Á¦°¡ º¸´õ¶óµµ Á߼ұԸ𠱸¼º¿¡¼´Â ±¸Çϱ⠾î·Á¿î H100 º¸´Ù´Â º»¹®Ã³·³ ±×³ª¸¶ ±¸Çϱ⠽¬¿î RTX ½Ã¸®Á ´õ ³Ö¾î¼ ±¸¼ºÇϴ°ÍÀÌ
¿ÀÈ÷·Á ´õ ³ª¾Æ º¸Àδٴ »ý°¢ÀÌ µì´Ï´Ù.
¤¾¤¾ ºÒ³ª°Ú½À´Ï´Ù. À¢¸¸ÇÑ »ç¹«½ÇÀ̸é Àü±â°ø»çºÎÅÍ ÇØ¾ß ÇÏÁö ¾ÊÀ»±î ½Í³×¿ä.
À̰бº»ç¹«±âÂÊÀ¸·Î´Â ¸ø¾²·Á³ª¿ä?
ÀÌÁö½º°°Àº ÇÔÁ¤ÀüÅõü°è¿¡ Àû¿ëÇϰųª ¿¡À̻緹ÀÌ´õ¿¡ ºÙ¿©¼ ÇØ»óµµÇâ»ó, ³ëÀÌÁîÁ¦°Å¿¡ ÁÁÀ»°Í°°Àºµ¥¿ä.
Áú¹®Àº 40°³ÀÇ GPU°¡ ¸ÞÀÎ º¸µå Çϳª¿¡ ¿¬°áµÇ´Âµ¥ scalability°¡ Á¦ÀÏ ¹®Á¦ÀÏ °Í °°½À´Ï´Ù. Á¦°¡ RTX3080 4°³¸¦(PCIE 4.0) Resnet50 º¥Ä¡½Ã GPU1°³ ´ëºñ 3.25¹è ¼º´ÉÀÌ ³ª¿Ô½À´Ï´Ù. http://www.2cpu.co.kr/bmt/4040
4090 1°³ ´ëºñ 40¹èÀÇ ¼º´É Çâ»óÀÌ ¿Àµµ·Ï ¼ÒÇÁÆ®¿þ¾îÀûÀ¸·Î ¾î¶² Á¶Ä¡¸¦ ÇϽóª¿ä?
°¨»çµå¸³´Ï´Ù.
°á±¹. DDP ÁÒ
Áö±ÝÀÇ º¥Ä¡¸¶Å©´Â GPU °£ Åë½Å¿¡ ´ëÇØ µû·Î ¼³Á¤¾øÀÌ ±øÀ¸·Î µ¹¸®´Âµí ÇÕ´Ï´Ù.
±×°Ô ¾Æ´Ï¶ó 40¹è°¡ ³ª¿À·Á¸é? ¸ðµ¨°ú µ¥ÀÌÅÍ ºÐ»êÀ» ÅëÇÑ ¿ÉƼ¸¶ÀÌ¡Àº Çʼö ÀÔ´Ï´Ù.
±¸Á¶»ó 8°³ÀÇ ¹Ú½º·Î ³ª´©°í ´Ù½Ã °¢¹Ú½º¿¡¼ 5°³ÀÇ GPU ¿¡ ºÐ»êÇÏ´Â°Ô ÇÊ¿äÇÕ´Ï´Ù.
¼ÒÀ½Àº ¾î´ÀÁ¤µµÀϱî¿ä?