½ºÅ丮Áö pNFS over RDMA(GDS)Áú¹® µå¸³´Ï´Ù.

   Á¶È¸ 221   Ãßõ 0    

안녕하세요.

현재 스토리지 RDMA 프로토콜 기반 pNFS 환경을 구성 중이며, MDS를 마이그레이트 할 경우 서비스 중단이 발생하는 문제를 겪고 있습니다.테스트 환경은 아래와 같습니다.

스토리지 

- AFX

- PowerStore

- Alletra 

- Cisco Nexus 9332D-GX2B

- dl380 gen12(connect x-7) GDS
- NVIDIA DGX B200 (NVIDIA Cumulus OS 5.10)


스위치 단에서는 별다른 문제를 확인하지 못했지만.. 현재 의심되는 부분은 ARP 세션 갱신 과정에서의 문제로 유추되는데

MDS만 유독 그러네요. MDS노드가 안죽는다는 보장도 없으니..


1. MDS의 논리적 네트워크 마이그레이션시 중단 (Revert시 돌아오지 않음)

2. DS 쪽을 마이그레이션시 문제가 없음

위 문제를 해결하기 위해서 스토리지, 스위치, GPU서버 등 여러 각도로 확인하고 있지만 해결이 안되고 있어 조언을 부탁드립니다.

감사합니다.

컴맹주니
ªÀº±Û Àϼö·Ï ½ÅÁßÇϰÔ.
epowergate 04-08
¿ì¼± PNFS¿Í RDMA´Â ¿¬°üÀÌ ¾ø½À´Ï´Ù.
°£´ÜÇÏ°Ô ÀÇ°ß µå¸®¸é
1. RDMA´Â ARP¸¦ »ç¿ëÇÏÁö ¾Ê½À´Ï´Ù.  Á» ´õ Á¤È®ÇϰԴ RDMA¿¡´Â ARP°¡ ¾ø½À´Ï´Ù.  ±×·¸±â ¶§¹®¿¡ ¹®Á¦´Â ÀüÇô ´Ù¸¥ÂÊ¿¡ ÀÖ½À´Ï´Ù.
2. "MDSÀÇ ³í¸®Àû ³×Æ®¿öÅ© ¸¶À̱׷¹À̼ǽÃ"ÀÌ Á¤È®È÷´Â ¹«½¼ ¶æÀÎÁö´Â ¸ð¸£°ÚÁö¸¸
MDSÀÇ HA À̰üÈÄ Back ÇßÀ»¶§ ±âÁ¸ MDS¿¡¼­ ¼­ºñ½º°¡ Á¤»óÀûÀ¸·Î ÀÌ·ç¾îÁöÁö ¾Ê´Â ¹®Á¦·Î »ý°¢ÀÌ µì´Ï´Ù.
À̰Š´ç¿¬ÇÑ °Çµ¥¿ä
MDS-A => MDS-S·Î Á¤»óÀûÀ¸·Î ÀÛµ¿À» Çϸé 2°³ MDS¿¡¼­ °ü¸®ÇÏ´Â META Á¤º¸°¡ ÀÏÄ¡ÇÒ °Ì´Ï´Ù.
À̶§ MDS-A¸¦ ³»¸®´øÁö ¾Æ´Ï¸é °­Á¦·Î MDS-S¸¦ Active·Î ¼³Á¤Çϸé
pNFS MDS´Â ±âÁ¸ MDS-AÀÇ META DATA°¡ »õ·Î¿î ACTIVE¿Í out-of-sync°¡ ¹ß»ýÇß´Ù°í °¡Á¤À» ÇÕ´Ï´Ù.
±×·¸±â ¶§¹®¿¡ MDS-A¸¦ ´Ù½Ã ¿Ã·ÁºÁ¾ß pNFS ½Ã½ºÅÛ¿¡¼­´Â MDS ¼­¹öÀÇ SYNCERRÀÌ ¹ß»ýÇÒ °¡´É¼ºÀÌ ³ô½À´Ï´Ù.
MDS ¼­¹öÀÇtransitionÀÌ ¹ß»ýÇÑ ÀÌÈÄ¿¡´Â ¼­¹ö°£ÀÇ µ¿±âÈ­°¡ µÇ¾úÀ¸´Ï ¼­ºñ½º¸¦ ÁøÇàÇ϶ó´Â ¼³Á¤À» ÇØÁÖ¾î¾ß ÇÕ´Ï´Ù.

¹°·Ð º¥´õ/Linux OSÀÇ pNFS ±¸¼ºÀÌ ´Ù¸£±â ¶§¹®¿¡ MDS ¼­¹öµé °£ÀÇ METADATA µ¿±âÈ­ ¹æ¹ýÀ» ´Ù¸¦ ¼ö ÀÖ½À´Ï´Ù.

¿ì¼±
RDMA¸¦ »©°í pNFS¸¦ Å×½ºÆ® ÇϽô °É Ãßõµå¸³´Ï´Ù
     
´äº¯ÇØÁּż­ °¨»çµå¸³´Ï´Ù!
1. ÀÎÇǴϹêµå°¡ ¾Æ´Ñ roce v2¶ó ARP°ú ¿¬°üÀÌ ÀÖÁö ¾Ê³ª¿ä ? pNFS µ¿ÀÛ ÀÚü°¡ RDMA transportÀ§¿¡¼­ µ¿ÀÛÇÏ´Ï±î ¿¬°ü¾ø´Ù°í Çϱ⿡µµ ±×·¸±¸¿ä.
½ÇÁ¦·Î Client¿¡¼­ ¼¼¼Ç °ü·ÃÇØ¼­ script·Î °­Á¦ °»½ÅÇϸé I/O°¡ µé¾î¿É´Ï´Ù. ±Ùµ¥ ÀÌ·± ¹æ¹ýÀ¸·Î µµÀÔÇÒ ¼ø ¾ø¾î¼­¿ä.

2. À̰ü ÈÄ Back ÇÒ¶§ ¼­ºñ½º°¡ ÀÌ·ç¾îÁöÁö ¾Ê´Â°Ç ¾Æ´Ï°í, À̰ü ÇÒ¶§ ¹Ù·Î I/O°¡ PendingµË´Ï´Ù.(DS´Â ÀÌÁßÈ­ °¡´É)
RDMA°¡ ¾Æ´Ñ TCP¿¡¼± pNFSµµ Á¤»óÀûÀ¸·Î 󸮵ÇÁö¸¸ ÃÖ¼Ò 800GÀÌ»ó¿¡ ³×Æ®¿÷À» ½á¾ß Çϱ⿡ RDMA¸¦ ¾µ¼ö¹Û¿¡ ¾ø´Â »óȲÀÔ´Ï´Ù ¤Ð
Áö±ÝÀº ÀÏ´Ü Àü¹® ¾÷ü¸¦ ÆÛÄÝ ¿äûÇÑ »óŶó, Çѹø ¼­¹öÂÊ ±¸¼ºÀ» Çѹø °ËÅäÇØº¸·Á°íÇϰí Àֳ׿ä.


óÀ½À¸·Î (281,231)
Á¦¸ñ
2CPU : ÆÇ¸Å 08:53   11   ¾ÆÀ̵ð½Ã½ºÅÛ
2CPU : ÆÇ¸Å 08:52   7   ¾ÆÀ̵ð½Ã½ºÅÛ
2CPU : ÆÇ¸Å 08:51   14   ¾ÆÀ̵ð½Ã½ºÅÛ
2CPU : ÆÇ¸Å 08:50   36   ±¤ÁÖµ¿Å°È£Å×
2CPU : ÀÚÀ¯°Ô½ÃÆÇ 08:29   45   Jjun
2CPU : »ýȰ 2CPU 08:19   24   ³ë¸»
2CPU : ÆÇ¸Å 07:52   25   ¹ü¾î¸®
2CPU : ÀÚÀ¯°Ô½ÃÆÇ 07:42   103   2CPUÃÖÁÖÈñ
2CPU : ÀÚÀ¯°Ô½ÃÆÇ 07:33   148   ²Ü¹úlÃÖÀÎÇõ
2CPU : ÀÚÀ¯°Ô½ÃÆÇ 07:27   148   ¼­¿ïl°­ÇѸð
2CPU : ÆÇ¸Å 07:14   54   Á¦À̺ñÁ¯
2CPU : ÆÇ¸Å 00:53   117   2CPUU
2CPU : ÆÇ¸Å 04-20   134   Asra
2CPU : ÆÇ¸Å 04-20   139   º´Ã¶
2CPU : ÀÚÀ¯°Ô½ÃÆÇ 04-20   261   °ú¾Ï