[server] 네트워크 하드웨어를 “자동 협상”속도 또는 고정 속도로 설정해야합니까?

우리는 최근에 약간의 문제가 있었다 여러 서버가 간헐적으로 상당히 고통스러운 – 투 – 해결 방법 (필수 하드 재부팅)에서 네트워크 연결을 잃게 곳 네트워킹과. 이것은 다른 서버에서 약 2 주 동안 무작위로 진행되었습니다. 식별 할 수있는 특별한 패턴은 없습니다.

약간 파고 들자 스위치가 문제 포트에 대해 100 Mbps를보고하는 것을 보았습니다.

이것은 Joel Spolsky 기사 Five Whys 에서 일어난 것처럼 현저하게 들립니다.

Michael은 사후 분석을 수행하는 데 시간을 보냈으며 문제는 스위치의 간단한 구성 문제라는 것을 알았습니다. 스위치가 통신하는 데 사용할 수있는 몇 가지 속도가 있습니다 (10, 100 또는 1000 메가 비트 / 초). 속도를 수동으로 설정하거나 스위치가 양쪽에서 사용할 수있는 최고 속도를 자동으로 협상하도록 할 수 있습니다. 실패한 스위치가 자동 협상으로 설정되었습니다. 이것은 항상 작동하지만 항상 그런 것은 아니며 1 월 10 일 아침에는 그렇지 않습니다.

이제 네트워크 하드웨어에서 자동 협상비활성화 하고 고정 속도 1000Mbps (기가비트)로 설정했습니다.

더 많은 서버 하드웨어 네트워킹 전문 지식을 가진 사람들에게 내 질문 :

  1. 최신 네트워킹 하드웨어의 자동 협상 문제는 얼마나 흔합니까?
  2. 네트워킹을 설정할 때 자동 협상을 비활성화하고 고정 속도를 설정하는 것이 표준 네트워킹 관행으로 간주됩니까?


답변

  1. (a) 링크의 한쪽 끝에서 수동이 일치하지 않고 다른 쪽 끝에서 자동이 일치하지 않거나 (b) 링크의 구성 요소 실패 ( 케이블, 포트 등).

  2. 이것은 관리자에 따라 다르지만 내 경험에 따르면 링크 속도와 이중 설정을 수동으로 지정하면 속도 불일치가 발생합니다. 왜? 스위치와 서버 간의 다양한 연결을 문서화 한 다음 변경시 해당 문서를 따르는 것이 거의 불가능합니다. 내가 본 대부분의 실패는 1 (a) 때문이며 속도 / 이중 설정을 수동으로 설정하기 시작할 때만 해당 상황에 처하게됩니다.

시스코 문서 에서 언급 한 바와 같이 :

자동 협상을 비활성화하면 링크 삭제 및 기타 물리 계층 문제가 숨겨집니다. 기가비트 자동 협상을 지원하지 않는 구형 기가비트 NIC와 같은 최종 장치에 대한 자동 협상 만 비활성화합니다. 물리적 계층 문제가 감지되지 않고 스패닝 트리 루프가 발생할 수 있으므로 절대적으로 필요한 경우가 아니면 스위치 사이의 자동 협상을 비활성화하지 마십시오.

속도 / 이중 확인이 필요하고 흐름 제어를 잊지 않는 네트워크 변경에 대해 변경 관리 시스템을 설정할 준비가되지 않았거나 모든 네트워크 장치에서 수동으로 이러한 설정을 지정하여 발생하는 불일치를 처리하려는 경우가 아니면, 그런 다음 기본 구성 인 auto / auto를 고수하십시오.

나중에 MRTG 를 사용하여 스위치 포트의 오류를 모니터링하여 문제가 발생하기 전에 이러한 문제를 발견 할 수 있습니다.

편집 : 오래된 장비에서 협상 실패를 참조하는 많은 사람들이 있습니다. 예, 이것은 표준이 만들어 졌을 때 오랫동안 문제였으며 모든 장치가 표준을 따르지는 않았습니다. NIC와 스위치의 수명이 10 년 미만입니까? 그렇다면 문제가되지 않습니다.


답변

  1. 매우 일반적으로 여러 유형의 하드웨어에서 수년 동안 수많은 문제가있었습니다.

  2. 내 생각에 설정이 정적 (예 : 서버 랙)이고 변경 사항이 없을 것이라고 생각하면 속도와 이중을 수동으로 설정하는 것이 좋습니다. 미래의 문제를 피할 수 있도록 문서화가 잘되어있는 한.

편집하다:

명확히하기 위해, 나는 전체 네트워크에서 수동 속도를 사용하는 것을 옹호하지 않고 자동 / 자동 시간의 95 %가 갈 길이라고 말합니다. 이중 / 속도에 문제가 있고 수동 설정이 대부분인 네트워크의 일부 (예 : 서버 랙 중 하나)가 있습니다. 우리는 사용되지 않는 포트가 종료되고 대부분의 포트에서 MAC-Filter를 사용하여 매우 엄격하게 제어되는 LAN을 작동하므로 속도를 추적하는 것이 그리 어렵지 않습니다.


답변

자동 협상이 하루 또는 한 달에 한 시간 동안 작동 한 다음 어떤 이유로 “고정 된 속도로 링크를 설정하면 문제가 해결됩니다.”해결되지 않고 대신 우회되는 문제가 있습니다. 실제 문제가 해결 될 때까지 링크를 임시 솔루션으로 고정으로 설정하는 것이 보입니다.


답변

따라서 문제 해결 단계 (각각 중지하고 문제가 다시 나타날 때까지 기다립니다) :

  1. 100M을 사용하는 이유를 알려주는 스위치의 로그를 확인하십시오.
  2. 여전히 실행중인 경우 Joel이 항상 추진하고있는 매우 악의적 인 “Windows로드 밸런싱”헛소리를 끄십시오. 작동 방식은 스위치의 캐시를 끊고 모든 패킷을 소프트웨어 프로세스로 강제 실행하는 것입니다. 스위치는 하드웨어로 패킷을 전달하도록 설계되었으며 알 수없는 트래픽 흐름이 어떤 물리적 경로를 가져와야하는지 (in-> asic-> out) 파악하고 하드웨어가이를 프로그래밍하도록하는 데 필요한 CPU 만 있습니다 (읽기 : a 계산기는 스위치보다 더 나은 CPU를 가지고 있으므로 스위치의 CPU 작동을 어렵게하는 바보 같은 일을하지 마십시오). Windows로드 균형 조정은 스위치가 결정을 내리고 모든 패킷에 대해 하드웨어 캐시를 다시 설치함으로써 작동합니다. 그것은이 특정 문제를 해결하지 못할 수도 있지만 팟 캐스트에서 나에게 버그가 있습니다 … 죄송합니다.
  3. 설정이 양쪽에서 일치하는지 확인하십시오.
  4. 스위치의 Google Autoneg 버그-직접 빌드하지 않는 한 사용중인 모든 항목에서 autoneg를 실행하려는 유일한 사람은 아닙니다
  5. 케이블을 정격 Cat5e 이상으로 교체하십시오. 이상적으로는 워크 스테이션이 연결된 케이블과 같이 잘 작동하는 케이블입니다. Cat5 나 누군가가 만든 쓰레기를 사용하려고하지 마십시오. 실제로 성형 된 끝이 패키지로 된 것을 사용하십시오.
  6. 포트 이동-서버를 동일한 스위치의 다른 포트에 놓으십시오
  7. NIC 변경-다른 시간에 주문 된 다른 배치 사용

이 시점에서 구성, 연결 한 물리적 포트 및 이들 사이의 케이블 연결을 제거했습니다. 여전히 발생하는 경우 다른 원인은 다음과 같습니다.

  1. 케이블 라우팅-AC 전원 케이블의 EM 간섭에주의하고 랙의 다른쪽에 라우팅하십시오.
  2. 냉각-환경 온도가 90 도가 아닌지 확인하고 NIC 카드가 일종의 “친애하는 신에게이 한 패킷 만 전달해주세요”모드로 떨어지지 않도록하십시오. 예를 들어, Cisco 라우터가 과열 될 때 CPU를 통한 빠른 전환 및 전달 패킷 수행을 중지한다는 것을 들었습니다.
  3. 스위치를 빨지 않는 것으로 교체하십시오-호스트가 초당 말하는 대역폭의 양을 확인한 다음 스위치의 정격 백플레인 용량을 확인하십시오. 예를 들어 잠재적 인 48 개 중 7 개의 호스트 중 1.0G를 전송하면 Cisco 3750을 중지하기에 충분합니다. 또한 저렴한 네트워크 공급 업체 인 D-Link, Linksys, Dell, Intel 및 HP에 대해서도 매우 주의하십시오. “시스코를 사용하여 해고 된 사람이 없기 때문에”가 아니라 “사람들이 20/48 포트가있는 인텔 스위치가 2 년 동안 실패했다는 것을 기억합니다”또는 “ProCurve를 독점적으로 실제로 시스코를 사용하기 전까지는 시스코가 얼마나 악한 일 이었는가? 시스코는 중급으로 간주됩니다네트워크 공급 업체, 그래서 그 사람에 대해 무엇을 말해 주는가 아래 … 시스코? 🙂

배경 / 내 대답이 가장 멋진 이유 : 금융 업계에서 네트워크 / 시스템 엔지니어로 일하고 있으며 소규모 글로벌 네트워크 (15 개 지사, 8 개 데이터 센터)에 대한 나의 경험입니다.

모든 LAN 포트는 자동 연결되어 있습니다. 장비의 양쪽 끝을 제어하고 양쪽에 액세스 할 수 있기 때문입니다. 전화를 누군가에게 가져 가서 설정을 확인하는 것만 큼 간단 할 수 있습니다. 3 년 동안, 자동 협상 실패로 인해 내부 포트 중 하나만 실패했습니다. 이는 잘못된 케이블 때문입니다. 케이블 교체 후 사라졌습니다.

우리는 전임자들이 그들의 NIC에 100 / 풀을 하드 코딩하는 문제가 더 많았으며, 그 사실을 문서화하지 않았습니다. 다음 maint 창에서 모든 것을 자동 / 자동으로 재설정하고 그 이후로 아무런 문제가 없었습니다.

WAN을위한 통신 업체로부터 구리 핸드 오프를받은 몇 곳에서? 구리 WAN / 인터넷 연결이 항상 빨라질 것으로 예상해야합니다. 부분적으로는 다른쪽에 무엇이 있는지 모릅니다. autoneg 용 버그가있는 펌웨어가 있지만 MPLS 태깅을 수행하는 일부 고대 Extreme 스위치? ISP의 $ 200k Ciena Edge 장치가 트위스트 페어를 통한 이더넷을 제공하기에는 너무 굉장하기 때문에 5 달러 정도의 미디어 컨버터? 어떻게 처리할지 미리 결정한 다음, 합의 된 구성이 문서화되지 않았고 따라야 할 정책이 있기 때문에 토요일 오후 10시에 반송파 내부의 일부가 변경 될 것으로 예상합니다.

그러나 ISP로부터 광섬유 핸드 오프를 받으십시오.


답변

내가 담당하는 네트워크는 (다른 몇 사람과 함께) ~ 40 대의 서버, 1000 개 이상의 워크 스테이션 (대규모 캠퍼스에 퍼져 있음)으로 구성되어 있으며 ~ 1000 개의 WAP도 다양한 유형과 연령의 넓은 지역에 퍼져 있습니다. 네트워크 장비.

dimitri.p가 말했듯이, 무언가가 갑자기 자동 협상을 중단하지 못하면 일반적으로 다른 문제를 나타냅니다. 포트를 수동으로 설정하는 것은 내장에 찔린 사람에게 반창고를 씌우는 것과 유사합니다. 출혈을 멈추게 할 수 있지만, 그 아래에 손상이있을 것입니다.

나의 평소 점검표 :

  • 기계에 어떤 변화가 있었습니까? 운전사? OS 또는 BIOS 수준 설정? 아마도 OS에서 autoneg가 비활성화되어 있습니까?
  • 당신은 패치 케이블을 교환하고, 한 검증 케이블 실행을 (그것이 하나 개의 랙보다 운영하는 logner 있다면?)
  • 스위치 포트가 잘못되었거나 고장인지 테스트 했습니까?
  • NIC가 나빠질 수 있습니까?

우리는, 원칙적으로, 결코 다른 모든 가능한 원인이 제거 된 상황이 아니라면 서버 AutoNeg의 (또는 데이터 센터에서 무엇을) 사용하지 않는다, 우리는 케이블을 변경, 스위치 포트를 움직이지 등 NIC를 테스트하고 더있다 다른 선택. 어떤 경우에는 문서화되어 사망합니다. 이것은 매우 드물게 발생하며 일반적으로 BIOS 및 OS 설정을 확인할 수없는 어플라이언스에서 발생합니다.

반면에 워크 스테이션과 AP는 다른 이야기입니다. 실패한 자동 연결은 잘못된 케이블 작동의 전형적인 신호이며, 여름철 새로운 케이블 벽 시즌이 다가올 때까지 속도와 이중을 수동으로 설정해야하는 경우가 많습니다.


답변

이것이 네트워크 신화입니다. 1998 년 베이 스위치가 시스코 나 다른 것과 협상하지 않기 때문에 우리의 네트워크 직원들은이 말도 안되는 것을 맹세합니다. 따라서 지구상에서 장비의 99.999 %에 대한 기본값을 사용하는 대신,이 우스운 구성 관리 연습과 NIC 드라이버 업데이트가 설정을 자동 협상으로 재설정하고 어떤 일이 발생하는지에 대한 훌륭한 희생양이 있습니다.

많은 서버가 NIC 팀 구성과 같은 모호한 기능을 사용하므로 스위치 오류 발생시 네트워크 액세스를 잃지 않으면 서 소프트웨어 오류가 발생할 가능성이 높아 지므로 더욱 유용합니다. (운전자는 항상 빨다)

네트워크 사용자를 방어하기 위해 많은 기본 서버 드라이버가 Windows 기본 NIC 드라이버로 실행되고 있습니다. 자동 협상에 문제가 있고 기어가 클린턴 행정부에 맞지 않으면 해당 NIC 드라이버를 업데이트하십시오.


답변

자동 협상해야합니다. 안정적으로 자동 협상되지 않는 스위치가있는 경우 더 나은 스위치를 구입하십시오.

기가비트는 자동 협상으로 간주 되며 자동 크로스 오버 (MDI-X) 감지가 포함됩니다.

100BASET가되어 보장 한쪽 끝은 자동 및 수동으로 다른 세트로 설정되어있는 경우 실패하고, 그 사양에 따라입니다. 한쪽 끝을 100 / 풀로 강제 설정하면 다른 쪽 끝 100 / 반으로 자동 협상되어 이중 불일치가 발생합니다.