내 고객의 사이트 중 하나가 지난 주에 직접 번개를 맞았습니다 (동시에 13 일 금요일에! ).
나는 현장에서 멀리 떨어져 있었지만 현장에서 누군가와 일하면서 이상한 패턴의 손상을 발견했다. 두 인터넷 연결이 모두 끊어졌으며 대부분의 서버에 액세스 할 수 없었습니다. 대부분의 손상은 MDF 에서 발생 했지만 하나의 광섬유 연결 IDF 도 스위치 스택 멤버에서 포트의 90 %를 잃었습니다. 여분의 스위치 포트를 사용하여 다른 곳에서 케이블을 재배포하고 다시 프로그래밍 할 수 있었지만 영향을받는 장치를 추적하는 동안 다운 타임이 발생했습니다.
이것은 새로운 건물 / 창고 시설이었으며 많은 계획이 서버 룸 설계에 투입되었습니다. 주 서버 룸 에는 발전기가 지원 하는 APC SmartUPS RT 8000VA 이중 변환 온라인 UPS가 사용됩니다. 연결된 모든 장비에 적절한 전력 분배가있었습니다. 오프 사이트 데이터 복제 및 시스템 백업이 이루어졌습니다.
결국, 내가 아는 손상은 다음과 같습니다.
- Cisco 4507R-E 섀시 스위치 에서 실패한 48 포트 라인 카드 .
4 원 스택에서 실패한 Cisco 2960 스위치.(oops … 느슨한 스태킹 케이블)- Cisco 2960 스위치의 여러 비정상적인 포트.
- HP ProLiant DL360 G7 마더 보드 및 전원 공급 장치.
- Elfiq WAN 링크 밸런서.
- 하나의 Multitech 팩스 모뎀.
- WiMax / 고정 무선 인터넷 안테나 및 전원 인젝터.
- 수많은 PoE 연결 장치 (VoIP 전화, Cisco Aironet 액세스 포인트, IP 보안 카메라)
대부분의 문제는 Cisco 4507R-E에서 전체 스위치 블레이드를 잃는 것과 관련이있었습니다. 여기에는 일부 VMware NFS 네트워킹과 사이트 방화벽에 대한 업 링크가 포함되었습니다. VMWare 호스트는 실패했지만 스토리지 네트워킹 연결이 복원되면 HA가 VM을 관리했습니다. 펑키 한 전원 상태를 지우려면 여러 장치를 재부팅 / 전원을 껐다 켜야했습니다. 회복 시간이 짧았지만 어떤 교훈을 얻어야할지 궁금합니다.
- 향후 장비를 보호하기 위해 어떤 추가 보호 기능을 구현해야합니까?
- 보증 및 교체에 어떻게 접근해야합니까? Cisco와 HP는 계약중인 품목을 교체합니다. 비싼 Elfiq WAN 링크 밸런서는 그들의 웹 사이트 에 기본적으로 “너무 나쁘다, 네트워크 서지 보호기를 사용하라”는 말이있다 . (이러한 유형의 실패를 예상하는 것처럼 보입니다)
- 나는 과거에 뇌우 피해를 입을만큼 충분히 오래 IT에 종사해 왔지만 영향이 매우 제한적입니다. 예를 들어 저렴한 PC의 네트워크 인터페이스 또는 미니 스위치의 파괴.
- 잠재적으로 벗겨지기 쉬운 장비를 탐지하기 위해 할 수있는 다른 일이 있습니까, 아니면 이상한 행동이 나타날 때까지 기다려야합니까?
- 이것이 모두 불운이거나 재난 복구에서 실제로 고려해야 할 것이 었습니까?
충분한 $$$로 모든 종류의 중복성을 환경에 구축 할 수 있지만 예방 적 / 고려적인 설계와 효과적인 자원 사용의 합리적인 균형은 무엇입니까?
답변
몇 일 전에 제가 근무했던 장소의 데이터 센터 중 하나는 매우 큰 공중 아래에 1 층이었습니다. 이 크고 얇은 금속 제품은이 지역에서 가장 높은 물건이었으며 18 개월마다 번개가 쳤습니다. 데이터 센터 자체는 1980 년경에 지어 졌으므로 가장 현대적인 것으로 생각하지는 않았지만 번개 피해를 다루는 데 오랜 경험이있었습니다 (직렬 통신 보드는 매번 교체 해야했습니다. 보드는 10 년 안에 새로운 부품을 만들지 않은 시스템에 있습니다).
옛 손에 의해 제기 된 한 가지는 가짜 전류가 모든 것을 둘러 쌀 수 있고, 일단 연결되면 공통의 땅으로 퍼질 수 있다는 것입니다. 그리고 에어 갭으로부터 브리지 할 수 있습니다. 번개는 일반적인 안전 표준이 아크를 예방하기에 충분하지 않고 에너지가있는 한 계속되는 예외적 인 경우입니다. 그리고 그것은 많이 있습니다. 충분한 에너지가 있으면 서스펜션-천장 그리드 (아마도 서스펜션 와이어 중 하나가 시멘트의 건물 대들보와 연결된 루프에서 매달려 있음)에서 2 포스트 랙의 상단으로 아크가 발생할 수 있습니다. 네트워킹 케이크.
해커와 마찬가지로 할 수있는 일이 너무 많습니다. 전원 공급 장치에는 모두 스퓨리어스 전압을 클램핑하는 차단기가 있지만 저전압 네트워킹 장비는 거의 사용하지 않으며 매우 활기찬 전류가 라우팅되는 공통 경로를 나타냅니다.
잠재적으로 벗겨지기 쉬운 키트를 감지하는 것은 이론적으로 수행하는 방법을 알고 있지만 실제로는 아닙니다. 아마도 가장 좋은 방법은 용의자 기어를 특정 영역에 넣고 의도적으로 실내 온도를 작동 범위의 상한으로 가져 와서 어떤 일이 일어나는지 확인하는 것입니다. 몇 가지 테스트를 실행하고 도적을로드하십시오. 며칠 동안 그대로 두십시오. 기존의 전기 손상에 대한 추가 열 응력으로 인해 시한 폭탄이 제거 될 수 있습니다.
확실히 일부 장치의 수명이 단축되었지만 어떤 장치가 어려운지 알아 냈습니다. 전원 공급 장치 내부의 전원 컨디셔닝 회로는 구성 요소가 손상되어 서버에 더러운 전원을 공급할 수 있습니다. 전원 공급 장치 를 테스트하도록 설계된 특수 장치를 사용해야 만 감지 할 수 있습니다.
낙뢰 는 지붕에 거대한 피뢰침이 있는 시설에서 DC를 사용하는 것 외에 DR에 대해 고려한 것이 아닙니다 . 일반적으로 파업은 ‘신의 행동’으로 뒤섞여 움직여 드물게 발생하는 일 중 하나입니다.
하지만 … 당신은 지금 가지고 있습니다. 그것은 당신의 시설이 적어도 한 번 올바른 조건을 가지고 있음을 보여줍니다. 이제 시설에 올바른 조건이 제공되는 방법에 대한 평가를 받고 그에 따라 계획을 세워야합니다. 지금 번개의 DR 영향 만 생각한다면 그게 적절하다고 생각합니다.
답변
최근에이 질문이 첫 페이지의 맨 위로 편집 된 이후로이 질문에 대해 생각하고있었습니다.
DC 지붕의 큰 번개에 매우 매력적인 설치를 처리해야하는 sysadmin1138과 같은 사람들에게는 큰 파업에 대한 특정 비상 계획이 적합하다고 자유롭게 말하고 싶습니다. 그러나 대부분의 사람들에게 이것은 일회성 상황이며 다른 사람들에게 더 일반적으로 적합한 대답은 가치가 있다고 생각했습니다.
모든 종류의 영화 플롯 위협 을 상상할 수 있습니다 . 확실히 일어날 수있는 시나리오는 의심 할 여지없이 비즈니스 운영을 중단하지만, 일어날 가능성이 높다고 생각할 이유는 없습니다. 당신은 일종의 것을 알고 있습니다. 비행기 파업 / 번개 / 석유 저장소가 근처에서 폭발 / 다른 그럴듯하지만 배경 위험 시나리오.
이들 각각에는 적용 할 수있는 구체적인 완화 계획이 있지만 위의 규정을 모듈로하여 제안하는 것은 사업 적으로 의미가 없습니다 . 슈나이어는 위에서 언급 한 경쟁에서 지적하려고 노력하고 있지만, 끔찍한 일이 특정 계획이 가치가 있거나 바람직하지 않은 것에 위협이되지 않는다고 상상할 수 있기 때문입니다. 무엇 않습니다 좋은 비즈니스 감각을 범용, 잘 문서화, 테스트 비즈니스 연속성 계획이다.
다양한 기간 (예 : 24 시간, 96 시간, 1 주일, 1 개월) 동안 전체 사이트 손실에 대한 비즈니스 비용이 얼마인지 자문하고 각 발생 가능성을 정량화해야합니다. 모든 수준의 비즈니스에서 구매 한 정직한 비즈니스 비용 분석이어야합니다. 나는 일반적으로 수용되는 다운 타임 수치가 £ 5.5million / hour 인 사이트에서 일했습니다 (20 년 전 500 만 quid가 많은 돈이었습니다). 그 수치가 일반적으로 동의했다는 것은 단순한 결정 의 문제가 되었기 때문에 많은 결정 을 훨씬 더 쉽게하였습니다.
예산은 예상 손실에 해당 손실의 연간 기회를 곱한 것입니다. 이제 예산에 대한 위협을 완화하기 위해 무엇을 할 수 있는지 살펴보십시오.
경우에 따라 냉기 장비를 갖춘 완전한 대기 데이터 센터에서 연중 무휴 24 시간 운영 될 수 있습니다. 소규모 대기 데이터 센터를 의미 할 수 있으므로 고객과의 상호 작용이 줄어든 전화 교환 원 수와 자리 표시 자 웹 사이트 중단에 대한 경고를 계속할 수 있습니다. 이는 기본 사이트에서 두 번째로 중복 라우팅되는 인터넷 연결을 의미하며 필요할 때까지 차가워집니다. Mark Henderson이 위에서 언급했듯이 보험 (실제 복구 비용 및 비즈니스 손실을 포함하는 보험)을 의미 할 수 있습니다. 당신은 재해 발생시 모든 예상 비용을 충당 할 용지 한 장에 BC 예산을 지출 할 수 있다면, 그것은 종이의 조각을 구입하는 의미가 있습니다 -하지만 고려하는 것을 잊지 마세요 업자의 실패를비즈니스 위험 계획에 이는 특정 핵심 장비의 유지 보수 계약을 비용이 매우 비싼 4 시간 수리 장비로 업그레이드하는 것을 의미 할 수 있습니다. 귀하 만이 귀하의 비즈니스에 어떤 의미가 있는지 알 수 있습니다.
그리고 일단이 계획 을 세운 후에 는 보험에 가입 한 계획을 제외하고 실제로 계획 을 테스트해야합니다 . 나는 우리가 주요 시설에서 자동차로 45 분을 삭감 할 준비가되어있는 소규모 소규모 냉장 시설이있는 현장에서 근무했습니다. 우리가 아래로 코어 네트워크를 종료 문제가 있었을 때, 우리는 그것을 해결하기 위해 노력 라이브 대신 차가운 사이트를 통해 절단하고 결국 다음코어 고정 및 삭감. 컷 오버 실패의 원인 중 하나는 우리가 인계 및 인하하는 데 걸리는 시간을 실제로 알지 못했기 때문입니다. 따라서 절단 결정을 내리기 전에 컷 오버없이 물건을 얼마나 오래 달릴 수 있는지 알지 못했던 사람은 아무도 없었습니다. 14 시간 후에 온라인으로 돌아온 후 머리가 굴러 갔다. 그 자체 가 정전 때문이 아니라 그러한 중단 동안 사용되지 않은 하루 이상 중단을 완화하기 위해 시설에 많은 돈이 소비 되었기 때문입니다.
마지막으로, 비즈니스 계획의 아웃소싱 구성 요소 가 작동 하지 않을 수도 있습니다. 고위 경영진은 ” 서버를 클라우드에 배치하면 서버는 항상 존재하며 시스템 관리자를 해고 할 수 있습니다 “라고 생각할 수 있습니다 . 별로. 구름은 다른 어떤 것도 실패 할 수 있습니다; 중요한 구성 요소를 공급자에게 아웃소싱 한 경우 해당 구성 요소의 고장 가능성을 추정하는 기능을 제거하기 만하면됩니다. SLA는 모두 훌륭하지만 성능이 저하되지 않은 상당한 벌금에 의해 뒷받침되지 않는 한 의미가 없습니다. 왜 제공 업체가 돈을 바지로 지불하고 서비스 요금을 환불 할 수있는 경우 이용 가능한 상태를 유지하기 위해 추가 비용을 지출하게됩니까? 사용할 수 없습니까? 안정성을 유지하려면 SLA에 중단 비즈니스 비용을 대략적으로 부과하는 처벌이 필요합니다. 그렇습니다. 아웃소싱 비용이 크게 증가 할 것입니다. 그리고 그렇습니다, 그것은 전적으로 예상됩니다.
답변
그것은 항상 당신이 쓰고 싶은 금액에 달려 있습니다. 나는 이것에 대해 오랫동안 이야기 할 지식이 충분하지 않지만 번개가 나서 큰 중복 데이터 스파이크 체포자가 될 것으로 예상되는 무언가를 날려 버린 큰 제약 데이터 센터에 있었고 하지만 잘못 구현되었으므로 문제가 발생했습니다.)
UPS가 막을 수 있었던 최대 스파이크는 무엇입니까? 등급이 있어야합니다. 분명히 파업은 그것을 초과 할 정도로 직접적이거나 UPS 지대 주변에 누수가 발생했을 때와 같이 잘못되었습니다. 그래서, 어쩌면 당신은 다른 파업 가능성이 얼마나되는지를 결정, 전원 설계를 검토 개선 대 가동 중단 X의 가능성의 비용을 비교하고, 어쩌면 전기는 시설에게 모든 것이 제대로 접지되었는지 확인하는 좋은 설문 조사주고 있습니다 – 일부 빠른 읽기 쇼 안전 / 코드 접지는 번개로 인한 손상을 방지하기위한 접지만큼 집중적이지 않습니다.