연구실에서 사용중인 GPU 서버 두대의 PCIe Switch 자체가 인식이 되지 않아 대응을 어떻게 해야될지 의견을 구하고자 합니다.
문제가 발생한 서버 중 하나는 NVIDIA DGX-1V로 이미 고장난지 2,3년 정도로 꽤 오래되었으며 PCIe Switch 4개가 BMC 상에서 잡히지 않는 상태입니다.
V100 GPU들의 Firmware 등의 정보도 N/A로 뜨면서 대시보드에서 전혀 잡히지 않는 상태이구요.
다른 하나는 GIGABYTE G292-Z20으로 PCIe Switch 4대 중 하나가 인식이 되지 않아 현재 GPU가 6대만 잡히는 상황입니다.
lspci, lshw 등의 명령어로도 장치가 인식이 되지 않는걸로 보아 하드웨어적인 고장으로 생각되지만 DGX-1은 이미 지원이 끝난 상황이며 NVIDIA 구독 서비스도 등록하지 않아 공식적인 지원을 받기 어려운 상황이며 GIGABYTE 서버도 2년 수리 지원이 이제 막 끝난 상황이라 저희가 해볼 수 있는 것은 시도해보고자 합니다.
혹시나 비슷한 상황을 겪어보신 분들이 계시는지, 만약 계신다면 어떤 대응방법을 시도해보셨고 효과를 보셨는지 의견을 주시면 감사하겠습니다.
å 亯ϼ(GPUƮ ý ؾϴ ŷο.....) ã ⺻ ؾմϴ.
DGX-1 SXM ̽ GPU Ʈ Ұϳ
׳ ׳ Ʈ带 ִ°̱..
https://www.bsi.uk.com/gigabyte-g292-z20
̾ PCIe Switch Microsemi Ĩ̶ Ĩ ̶ ִµ
̰ 翡 ְų ȯָ ϱ ϴ..
Ƹ ϴ Ĩ ҷ Ĩ BGA ۾ϰ ٽ Ʈ غ Դϴ..
NVIDIA DGX-1V NV-LINK Ǿ ִµ GPU ٸ װͰ Ǵ NV-LINK ϴ
ٲ Դϴ.. ( NV-LINK 峭 )
NVIDIA DGX-1V ǰ α ϰ ϱ ƴٴ ̰..
ü ҷ ü ǰ ϳ ϴĿ Ҽ ִ ٰ Ǹ ϴ 찡 ֽϴ..
ϴ ۾ ϴ..
DGX ̹ ü μյι ̱ ؼ ũ ϰ ʾҽϴ... ڱ ũε Ȳ Ŷ Ȥó ϴ Ѻ ó.. Ф
GPU ϴ ϳ ΰ žƼ GPU ƴ Ʈ غ..
̷ Ʈ ð ɸϴ..
ױⰣ ƹ͵ ݴϴ..
ȸ ̴ϱ ¿ ( Ѵ..) մϴ..
ǰ ǰ Ƽ ִ ϱⰡ ..
#2. ״
#3. GPU ״
ϳ ڱ 2̻ GPU ٸ #1 Ȯ ƺ̳.
迵 ó GPU ٸ /p ٷ õ մϴ.
ü ؾ.