SAS Topology Error

   조회 251   추천 0    

첨보는 에러인데 어떻게 조치해야 할지 모르겠습니다.

HDD에 장애가 발생해서 교체를 했는데 "SAS topology error SMP function failed."가 나온답니다.

시스템은

서버: DELL R740 + JBOD (Western Digital)

RAID Controller: H840 2개 (JBOD Dual Controller에 Active/Active로 연결)

HDD: NL-SAS 24개

RAID: HDD 12개씩 RAID6로 설정

시스템은 정상적으로 작동하는데 새로운 HDD를 인식하지 못합니다.

"SAS topology error SMP function failed." 어떻게 해결하는지 경험있으신분 계신가요?

시스템은 리부팅하지 못하는 상황입니다.


JBOD에서 Controller 1개를 빼보면 될것 같은데 좀 불안합니다

짧은글 일수록 신중하게.
박문형 07-22
https://www.google.co.kr/search?q=SAS+topology+error+SMP+function+failed&source=hp&ei=Hu_4YLSiMZfy-QaYuaagBw&iflsig=AINFCbYAAAAAYPj9LvrMUu5O_myj_SYfvWWx9veZqGEZ&oq=SAS+topology+error+SMP+function+failed&gs_lcp=Cgdnd3Mtd2l6EAMyBAgAEB5Q1BVY1BVghCdoAHAAeACAAWyIAWySAQMwLjGYAQCgAQKgAQGqAQdnd3Mtd2l6&sclient=gws-wiz&ved=0ahUKEwi0qb_15vXxAhUXed4KHZicCXQQ4dUDCAc&uact=5

잘은 모르지만 구글로 에러메세지를 구글링 해보았을때

SAS 콘트롤러와 SAS 디바이스 같의 케이블링 에러로 인해 문제가 나타나는 듯합니다..

그 외 SAS Expander 펌웨어 같은 것도 살펴 보라는 말이 있습니다..

운영 중인지 설치 중인지는 모르겠지만 데이터 조심하시고 각 디바이스들 간의 케이블 연결이 재대로 되었는지 확인해보시기 바랍니다..
     
epowergate 07-22
뭔가 cable 관련이라고 하는데 갑자기 잘못될께 (별루) 없거든요...
RAID6에서 리빌딩이 않될뿐 LUN 2개 모두 정상작동은 합니다.
첨 보는거라 참 거시기 합니다
박문형 07-22
제조사에서는 모라고 하는가요??

그리고 에러메세지가 한 개의 SAS 채널에서만 그러는지 두개의 SAS 채널에서 다 그러는지
     
epowergate 07-22
DELL 답변 기다리고 있는데 큰 기대하지 않습니다
2개 모두 그러는것 같습니다.
IDRAC의 2개 RAID Controller 모두에서 새로운 HDD가 보이지 않거든요
          
박문형 07-22
아마도 다해보셨을 듯합니다만

DELL의 답변이 온 다음에 검토해보시고

서버 펌웨어들 최신으로 올려보시고

레이드 콘트롤러 펌웨어 최신으로 올려 보시고

JBOD 박스 펌웨어도 최신으로 올려보시고

레이드 리빌딩을 수동으로도 시도해보세요..


물론 뻔하지만 데이터 돌아가면 백업은 필수이고요..
               
epowergate 07-22
아직 아무것도 못했어요.  겁나서...
뭔가 확실하지 않으면 하지 하지 않는 스타일이라 저희 엔지니어가 좀 쫄았습니다.
사무실에서 재현해 보고 해결되면 현장 적용이 원칙이라서 좀 당황해하고 있습니다.  재현 어떻게 하지????
2PB 분산저장장치의 일부분이라 백업은 좀 어려워요.  이 서버에 HDD 500TB 붙어 있거든요
뭔가 난국입니다.
어떻게든 답이 나오겠죠 뭐
감사합니다
                    
박문형 07-22
잘 해결되시기를 기원합니다..

저는 어제 무상 분양 받은 LSI 6G 레이드 카드 펌웨어 복구한다고 밤에 노가다를 좀 하고 있습니다..

(어제 새벽 3시에 자고 새벽 5시에 출근)

LSI가 역사가 길다 보니 왠만한 툴과 펌웨어 등은 있는데 어찌보면 중구 난방인지라 쉽지 않네요..
통통9 07-22
Summary
RAID_MIB_10289: SAS topology error: SMP function failed.

Causes
The following problem causes this event
- SAS topology error: SMP function failed.

Resolutions
- Check the SAS configuration and cabling.

To view the details of the problem:
- Launch ServerView RAID Manager
- Launch ServerView System Monitor

같은 상황에 있다면 설정과 연결을 모두 다시 확인하며 해결방법을
찾을 것 같습니다.
잘 해결되길 바랍니다.
     
epowergate 07-22
DELL이라서 omsa, openmanager 열어보려 하는데 설치된 환경이 좀 지랄 같아서 어렵네요
그냥 IDRAC에 뭔가 나오면 좋겠구만 그런것도 없구...
감사합니다
박문형 07-22
혹시 레이드 콘트롤러에서는 어떤 로그들이 쌓여 있나요??

에러 로그라도 떠와서 분석해봐야 하지 않나 생각합니다..
     
epowergate 07-22
LOG 반출 요청해 두었습니다.
담당자들이 대부분 재택이어서 평소보다 시간이 더걸린다고 하네요
윤건 07-22
그런데 H840이 controller redundancy를 지원하던가요?
제가 알기로는 Single Card인 경우 Dual-port를 이용해서 자동으로 Redundant Path만 지원하지
Dual Card를 이용한 Redundancy는 지원하지 않는 것으로 알고 있습니다.
그런데 위에서 H840 2개에 Active/Active로 연결하셨다고 하셔서
그래서 SAS Topology ERROR가 나는건 아닐런지요....
     
epowergate 07-22
H840, H740 모두 SAS HDD + SAS Expander 사용할 경우 controller redundancy 지원 합니다.
저희는 항상 이렇게 구성합니다.
납품전에 CHECK LIST에 운영중 1) RAID Controller 탈거, 2) Raid Cable 탈거, 3) JBOD일 경우 JBOD Controller (IOM)탈거 등 모든 테스트 해보고 출고 합니다.

이번건 단순하게 장애 HDD 교체인데, 좀 당황스럽습니다.
          
윤건 07-22
https://www.dell.com/support/manuals/en-us/poweredge-rc-h740p/perc10_ug_pub/redundant-path-support-for-perc-h840?guid=guid-e189fae9-d622-4bfe-a80f-638dee0b183f&lang=en-us

2번째 NOTE에 Redundant path는 Controller Redundancy가 아닌 오직 Path Redundancy만 의미한다라고 되어있고
다른 어디에서도 H840의 Controller Redundancy에 대한 문구를 본적이 없는데
혹시 알고계시다면 링크 부탁드립니다.
               
epowergate 07-22
위에서 제가 설명이 부족했습니다.
RAID Controller 자체에서는 Link redundancy만 지원합니다.
저희는 raid controller device를 모니터링 하는 모듈을 만들고
장애를 감지하면 다른 Controller에서 장애가 발생한 disk group을 import하도록 만들어 두었습니다
비슷한 효과를 가져올 수 있습니다.
저희가 사용하는 HDD 구성, RAID 구성등이 정해져 있기 때문에 그리 어렵지않게 구현해 두었습니다
박문형 07-22
장애 HDD 새 것으로 알아서 잘 교환하셨겠지만



그 새 HDD가 사무실에서 테스트라도 해서 사이트로 간 것인지

혹시나 사이트에 간 HDD가 어떤 이유로 불량이 나서 먹통급이 되었는지

1차로 리빌딩이 안되니 다른 2번째 HDD라도 같이 들고 가서 1차 하드 빼버리고 다시 교환을 해본 것인지

JBOD에 빈자리라도 있었으면 그 자리에 새 HDD넣고 리빌딩시키거나

핫스페어 HDD는 셋팅할 생각을 못한 것인지



이런 저런 생각들이 나네요..
     
epowergate 07-22
그거 고민해 봤어요
저녁에 다른 HDD로 다시 시도해 보기로 했습니다.
고객 앞에서 좀 쪽팔려서 그자리에서 해보자곤 못했다고 합니다.
박문형 07-22
우선 리빌딩이 시작되어 레이드 볼륨들이 정상동작을 해야 그나마 한시름 놓게 되는데..

어렵겠지만 냉정한 마음으로 찬찬히 작업하시고 1차가 안되면 2차 대책까지 생각하시고

작업 잘 끝나기를 기원합니다..
     
epowergate 07-23
새로 교체한 HDD의 F/W 문제였습니다.
DELL 12TB NL-SAS 디스크가 HGST하고 SEAGATE 2가지인데 SEAGATE (EXOS) 모델 FW에 문제가 있네요
한참 해맸습니다.
감사합니다.
박문형 07-23
현재 하드 구하기가 힘드니 어쩔 수는 없지만

의외로 엉뚱한데서 원인이 나왔네요..

그래도 사고가 안나고 원인 발견되어 다행입니다..

고생 + 수고하셨습니다..




QnA
제목Page 7/5015
2014-05   3247309   정은준1
2015-12   15566   백메가
07-23   291   치로기
07-23   198   감자
07-23   236   사랑하라
07-23   282   돔이
07-23   357   블루영상
07-23   366   엠브리오
07-23   361   VSPress
07-22   263   플통플통
07-22   450   막울었어요
07-22   385   epowergate
07-22   253   AMD빌런
07-22   365   허인구마틴
07-22   412   행복하세
07-22   276   오늘안해
07-22   252   epowergate
07-22   150   을지문덕
07-22   301   이재호TM
07-22   400   아비부
07-22   334   컴맹1231
07-21   208   코쿠