안녕하세요. 현재 구성 먼저 말씀 드리겠습니다.
서버 : Dell R740 / GPU : Tesla T4 * 2EA (slot 1,8)
OS : CentOS 7.6
제목처럼 GPU가 nvidia-smi 명령으로 확인 시 두개가 정상으로 보이다가 어느 순간 하나가 빠져버리는 이슈가 발생합니다.
서버가 총 두대에 같은 구성인데 두대 모두 동일합니다. 재부팅 하면 정상적으로 다시 인식은 됩니다.
iDRAC 상에 특별한 로그는 없고, GPU 둘 다 인식은 되는데 하나는 Available, 나머지 하나는 Unavailable 입니다.
적정 온도 & 현재 온도 비교해도 비정상적으로 온도가 많이 높진 않습니다.
비슷한 이슈 겪어보신 분 계시면 도움 좀 얻고자 글 남깁니다.
이유가 뭐고 해결 방법이 뭘까요?
ÀÇ¿Ü·Î Àß ¾Ë·Á ÁÝ´Ï´Ù
GPU DELL¿¡¼ ±¸ÀÔÇϽŰǰ¡¿ä?
FANÀÌ high performance fan ¸ÂÁÒ?
TESLAµî GPU°¡ µé¾î°¡¸é High performance fanÀ¸·Î µé¾î°¡¾ß Çϴµ¥
°£È¤ »çÀç (¿ÜºÎ)·Î GPU¸¦ ³ÖÀ¸¸é ±âÁ¸¿¡ ÀÖ´ø ½ºÅÄ´Ùµå ÆÒ¶§¹®¿¡ ¹®Á¦°¡ ¹ß»ýÇÏ°ï ÇÕ´Ï´Ù.
·Î±× È®ÀÎÇØ º¸¼¼¿ä... R740Àº dz·®ÀÌ Á» ¸ðÀÚ¶ö °Í °°½À´Ï´Ù...
ÆÄ¿ö´Â 1100W »ç¿ëÁßÀ̽ÃÁÒ ??
½Ç³» ¿Âµµ´Â 18µµ ÀÌÇÏÀ̽ÃÁÒ ??
ÀÚ²Ù¸¸ ½ºÆÑÀ» ¹°¾îº¸´Â ÀÌÀ¯´Â GPU´Â ¿ì¼± Àü±â¸¦ ¸¹ÀÌ ¸Ô°í ¿µµ ¸¶´Ï ³ª±â¿¡ ÆÄ¿ö³ª Ä𸵠¿É¼ÇÀÌ Áß¿äÇÕ´Ï´Ù..
±×¸®°í DELL R740 ¸ðµ¨¿¡´Â ÆÄ¿ö³ª Ä𸱠½Ã½ºÅÛµîµîÀÌ Á¾·ù±â ¸¹°í ÀÌ¿¡ µû¸¥ ¼ÂÆõµ ´Ù Ʋ¸®´Ù°í º¼ ¼ö ÀÖ½À´Ï´Ù..
±âº»ÀûÀÎ ¿¡·¯¸¦ Àü¹ÝÀûÀ¸·Î ÆľÇÇϽ÷Á¸é ¼ºñ½º ¸Þ´º¾ó º¸½Ã°í äũ Çغ¸½Ã¸é µË´Ï´Ù..
http://content.etilize.com/User-Manual/1062657175.pdf
https://dl.dell.com/topicspdf/poweredge-r740_owners-manual_ko-kr.pdf
±×¸®°í GPU ¹®Á¦´Â ½ÇÁ¦·Î ´äÀ» ÁÙ °÷Àº nVidia ÀÔ´Ï´Ù..
±×·¯³ª Çö »óÅ¿¡¼´Â nVidia GPU´Â DELL¿¡ OEM µÇ¾î ÀÖ°í ¿©±â¿¡ ´ëÇÑ ´äÀº DELL¿¡¼ Áà¾ß ÇÕ´Ï´Ù..
µö·¯´×¿ë GPUÄ«µåµéÀº nVidia¿Í ¾î¶»°Ôµç ¿¬°áµÇÁö ¾ÊÀ¸¸é ¹®Á¦°¡ »ý°åÀ» ¶§ ¾î¶»°Ô ÇÒ ¼ö°¡ ¾ø½À´Ï´Ù..
ÀÌ°Ô Á¤´äÀÌ ¾Æ´Ò ¼öµµ ÀÖ°í ÇÏ´Ù°¡ ²¿ÀÌ¸é ´õ Èûµé¾îÁö±â¿¡ ¿ì¼±Àº DELLÀÇ °ø½ÄÀûÀÎ ´äº¯ ¹× ÇØ°á ¹æ¹ýÀ» ±â´Ù·Á º¸½Ã´Â°Ô ÁÁ¾Æ º¸ÀÔ´Ï´Ù..
Àß ÇØ°á µÇ½Ã±â¸¦ ±â¿øÇÕ´Ï´Ù..
Á¤¸»Â¥Áõ³ª´Â Á¤Ã¥ÀÔ´Ï´Ù.
NVIDIA¿¡ ¶óÀ̼¾½º Á¤Ã¥ ¹®ÀÇÇØ º¸¼¼¿ä
¶óÀ̼¾½º¾øÀÌ »ç¿ëÇÏ¸é µ¹´Ù°¡ ´À·ÁÁö°í °á±¹ ÀÛµ¿ ÁßÁöÇÕ´Ï´Ù.
µ¨Àº ¸ð¸¦²¨°í ¾Øºñµð¾Æ¿¡ ¹®ÀÇÇØ º¸¼¼¿ä
¾ÆÁÖ Áö¶öÀÌÁÒ
vCS ¶óÀ̼¾½º¸¦ ¾È³ÖÀº ÀÌÀ¯·Î ±×·³ º»¹®ÀÇ ¹®Á¦°¡ »ý°åÀ» °¡´É¼ºµµ ÀÖÀ»±î¿ä? »ç¿ëÁß¿¡ Çϳª°¡ ºüÁö°í, ÀçºÎÆÃÇÏ¸é ´Ù½Ã ÀνÄÀÌ µÇ°í..
ÀúÈñ °í°´»ç¿¡¼µµ A100 200°³ ±¸¸ÅÇߴµ¥ À¯»çÇÑ ¹®Á¦¸¦ °Ý¾ú½À´Ï´Ù.
±×ÂÊ Áõ»óÀº óÀ½¿¡ µ¹´Ù°¡, ´À·Á Áö´Ù°¡, ¸ØÃß´Â Áõ»óÀ̾ú½À´Ï´Ù.
Âü°í·Î License´Â GPU °³´ç ¶óÀ̼¾½º ÀÔ´Ï´Ù
https://docs.nvidia.com/grid/latest/grid-licensing-user-guide/index.html#how-grid-licensing-works__vcompute-server-vgpu-license-requirements
¿©±â¿¡ ³ª¿Í ÀÖ½À´Ï´Ù
How the performance of an unlicensed vGPU or physical GPU is degraded depends on how much time has elapsed since the VM was booted and the NVIDIA vGPU software graphics driver was loaded.
Àúµµ, ÀúÈñ °í°´µµ ¸¹ÀÌ Çظ̽À´Ï´Ù.
±×·¡¼ NVIDIA¿¡ ¹®ÀÇÇØ º¸½Ã¶ó°í ¸»¾¸ µå¸®´Â °Ì´Ï´Ù.
DELL¿¡¼ ±¸¸ÅÇ߾ NVIDIA¿¡ ¹®ÀÇÇϴµ¥ ÀüÇô ¹®Á¦ ¾ø½À´Ï´Ù. ¹º°¡ ¾ÆÁÖ Æ¯º°ÇÑ ÀÌÀ¯°¡ ¾Æ´Ñ ÀÌ»ó...
ÀúÈñ °í°´ÀÌ ºÒ·¯¼ ¹®ÀÇ Çß´ø°É·Î ¾Ë°í ÀÖ½À´Ï´Ù.
´ëÃæ https://www.nvidia.com/ko-kr/contact/sales/ ¿©±â¿¡ ¹°¾îº¸½É ¾î¶³±î ÇÕ´Ï´Ù.