[server] 서버 실에서 무언가 타는 것; 그것이 무엇인지 어떻게 빨리 식별 할 수 있습니까?

다른 날에는 서버 룸에서 끔찍한 타는 냄새가납니다. 간단히 말해, UPS 장치에서 타 버린 배터리 모듈 중 하나가되었는데, 알아낼 수 있기까지 몇 시간이 걸렸습니다. 우리가 알아낼 수 있었던 주된 이유는 UPS 디스플레이가 마침내 모듈을 교체해야한다는 것을 보여 주었기 때문입니다.

여기에 문제가있었습니다 : 방 전체가 냄새로 가득 찼습니다. 냄새 냄새가 모든 것을 침투했기 때문에 냄새 검사를하는 것은 매우 어려웠습니다. 우리는 냄새가 가장 강한 곳이기 때문에 프로덕션 데이터베이스 서버를 실수로 중단했습니다. 핵심은 괜찮은 것처럼 보였고 (CPU 온도는 60도, 팬 속도는 괜찮 았습니다) 확실하지 않았습니다. 불이 붙은 배터리 모듈이 랙의 서버와 같은 높이에 불과하고 3 피트 거리 밖에되지 않았습니다. 이것이 실제 긴급 상황 이었다면 우리는 비참하게 실패했을 것입니다.

실제로 실제 서버 하드웨어가 타 버릴 가능성은 매우 드문 일이며 대부분의 경우 범인을 UPS에서 살펴볼 것입니다. 그러나 장비가 여러 개인 랙이 있으면 빠르게 추측 게임이 될 수 있습니다. 어떤 장비가 실제로 연소되고 있는지 빠르고 정확하게 어떻게 판단합니까? 나는이 질문이 방 크기, 환기, 위치 등과 같은 환경 변수에 크게 의존한다는 것을 알고 있지만 모든 의견을 부탁드립니다.



답변

일반적인 합의는 귀하의 질문에 대한 답변이 두 부분으로 나옵니다.

재밌는 타는 냄새의 근원을 어떻게 찾습니까?

당신은 “어떻게”가 꽤 잘 정리되어 있습니다 :

  • “스 니프 테스트”
  • 눈에 보이는 연기 / 안개를 찾으십시오
  • 열점 (IR) 카메라로 방을 걸어 핫스팟을 찾으십시오.
  • 경고 모니터링 및 장치 패널 확인

여러 가지 방법으로 문제를 빨리 발견 할 가능성을 높일 수 있습니다. 개선 된 모니터링이 가장 쉬운 경우가 많습니다. 몇 가지 질문이 있습니다 :

  • 장비에서 온도 및 기타 건강 경보를 받습니까?
  • UPS 시스템이 모니터링 시스템에 결함을보고합니까?
  • 배전 장비에서 전류 차단 경보를 받습니까?
  • 실내 연기 감지기가 모니터링 시스템에보고됩니까? (그리고 그들은 할 수 있습니까? )

Big Red Switch에 대한 문제 해결은 언제해야합니까?

이것은 더 흥미로운 질문입니다.
큰 빨간색 스위치를 누르면 회사에 막대한 비용이 소요될 수 있습니다. 클린 에이전트 릴리스는 수만 달러에이를 수 있으며 비상 전원이 꺼진 후 정전 / 복구 비용이 발생합니다 (EPO, “방을 떨어 뜨리기”) )는 치명적일 수 있습니다.
전원 공급 장치의 커패시터가 터져서 실내 냄새가 나기 때문에 데이터 센터를 삭제하지 않으려 고합니다.

반대로, 서버 룸에서 화재가 발생하면 회사의 데이터 / 장비와 직원의 삶에 더 많은 비용이들 수 있습니다.
“재미있는 타는 냄새”문제 해결은 안전보다 우선해서 는 안되므로 “사전 화재”상태 문제 해결에 대한 명확한 규칙을 세워야 합니다.

다음 지침은 명확하게 정의 된 다른 절차 / 규칙이 없을 때 (또는 그에 더하여) 적용하는 개인적 제한 사항 입니다. 이러한 절차 / 규칙은 저를 잘 섬 겼고 도움을 줄 수 있지만 쉽게 나를 죽일 수 있습니다. 내일 해고되었으므로 위험을 감수하십시오.

  1. 연기 나 화재가 보이면 방을 떨어 뜨리십시오.
    아무 말도하지 말고 어쨌든 말해 봅시다 : 활성 화재가 발생하면 (또는 연기가 곧있을 것이라는 연기가 나면) 방을 대피하고 전원을 차단하고 불을 끄십시오. 억제 시스템.
    예외가있을 수 있지만 (상식을 익힐 수는 있지만) 거의 항상 올바른 조치입니다.

  2. 문제 해결을 진행하는 경우 항상 다른 사람
    한 명 이상 참여하도록하십시오 . 두 가지 이유가 있습니다. 첫째, 데이터 센터에서 방황하고 싶지 않으며 갑자기 걸어가는 줄에 랙이 올라가고 아무도 거기에 있다는 것을 아무도 모릅니다. 둘째, 다른 사람은 문제 해결과 방을 떨어 뜨리는 것에 대한 위생 검사이며, Big Red Switch에 전화를 걸면 다른 사람이 결정에 동의 할 수있는 이점이 있습니다 (직업 제한 측면을 피하는 데 도움이 됨) 누군가가 나중에 질문하면 그러한 결정의).

  3. 문제 해결시 신중한 안전 조치를 수행
    하십시오. 항상 탈출 경로 (열의 끝이 열려 있고 출구로가는 명확한 경로)가 있는지 확인하십시오.
    누군가를 EPO / 화재 진압 방출에 배치하십시오.
    소화기를 가지고 다니십시오 (Halon 또는 기타 청정제를 사용하십시오).
    위의 규칙 # 1을 기억하십시오.
    의심 할 때 방을 떠나 . 호흡에주의하십시오 : 호흡기 또는 산소 마스크를 사용하십시오. 화학 물질 화재시 건강을 보호 할 수 있습니다.

  4. 한계를 설정하고
    보다 정확하게 준수하려면 두 가지 한계를 설정하십시오 .

    • 조건 ( “얼마나 더 나빠질까요?”)
    • 시간 ( “문제가 너무 위험하기 전에 얼마나 오랫동안 문제를 찾으려고 노력할 것입니까?”).

    사용자가 설정 한 한계는 또한 당신의 팀이 영향을받는 지역의 질서 종료를 시작할 수 있도록하는 데 사용, 그래서 당신이 경우에 할 수있다 DO 는 활성 기계의 무리를 충돌하지 않는 전력을 끌어하고 복구 시간이 훨씬 짧아 질 것이다, 그러나 기억 순서대로 종료하는 데 시간이 너무 오래 걸리면 안전 이름으로 몇 개의 시스템이 충돌해야 할 수 있습니다.

  5. 장을 믿으십시오
    언제라도 안전이 걱정된다면 문제 해결을 부르고 방을 비우십시오.
    직감에 따라 방을 떨어 뜨릴 수도 있고 안 내릴 수도 있지만 (상대적) 안전으로 방 밖에서 다시 그룹화하는 것이 중요합니다.

임박한 위험이없는 경우 EPO 또는 클린 에이전트 방출과 같은 과감한 조치를 취하기 전에 지역 소방서에 반입 할 수 있습니다. (어쨌든 그렇게하라고 말할 수도 있습니다. 그들의 임무는 사람들을 보호하고 재산을 보호하는 것이지만, 그들은 화재를 다루는 전문가들이므로 분명히 말을해야합니다!)

우리는 이것을 논평으로 다루었지만 @DeerHunter, @Chris, @Sirex 등 많은 답변에 요약되어있을 수도 있습니다.


답변

열 화상 카메라가 작업을 수행하여 과열 위치를 식별 할 수 있습니다. 이와 같은 장치를 사용하면 연기가 가득 찬 방에서 화재의 원인이나 타는 것을 확인할 수 있습니다.


답변

당신은 이런 말 을하지 않았습니다. 방 전체를 통해 펌핑되는 모든 것이 건강에 위험하고 폐를 엉망으로 만들 수 있기 때문에 위험한 환경을 떠납니다. 찾을 수없는 방에서 타는 냄새가 심하면 (911 | 112 | 999 | 어떤 비상 전화 번호가 관할지에 맞는지) 전화하여 불 (회사 | 부대)이 정리하도록하십시오 병에 든 공기에 있습니다.

컴퓨터 부품에는 수은 , 카드뮴 , 및 케이스에 들어있는 많은 플라스틱을 포함하여 모든 종류의 흥미로운 화학 물질이 포함 되어 있습니다. 내가 만든 모든 링크는 저수준 노출이 어떻게 지속적인 손상이나 빠른 사망을 유발할 수 있는지 설명합니다. 이것은 생명과 건강에 즉시 위험 할 수있는 환경입니다 .

… 정말, 무언가가 타는 경우, 연기를 스니핑하는 데 몇 시간을 소비하지 마십시오. 당신이 그것을 식별 할 수없는 즉시 그것을 포함 행동, 나가십시오.


답변

UPS에서 (일반적으로 SNMP를 통해) 올바르게 모니터링 한 경우 장치 자체에 모니터링 시스템의 벨이 울려 야합니다. 그렇지 않은 경우 공급 업체에 문의하십시오. 고장 났거나 모니터링 시스템이 올바르게 구성되지 않았습니다.

활성화 된 무언가가 실제로 타는 경우, 어떤 식 으로든 그것에 대해 불평하거나 단순히 네트워크 외부에서 경보를 발생시켜야합니다.

단열재를 통해 연소하는 실제 파워 레일과 같고 똑똑한 PDU가 아닌 경우, 우리는 원래의 질문으로 되돌아갑니다. 그리고 정답은 “EPO를 쳐서 알아 내십시오. 프로덕션 서버는 생명을 위험에 빠뜨리기에 충분히 중요하지 않을 것”이라고 생각합니다.


답변

이것은 상황 중 하나입니다

XKCD 다이 하드 시스템 관리자

해당되지 않습니다, 당신은 전문가에게 전화해야합니다

보호 장비 소방관

다른 것은 그냥 바보입니다.


답변

전자 기술 분야에서 경력을 쌓은 사람으로서 저는 화재가 아닌 “타는 냄새”에 대한 경험이 있습니다. 이것은 드문 일이 아닙니다.

나는 냄새에 대한 데이터 센터를 종료하지 않을 것입니다. 연기는 또 다른 문제이며, 실제로 불타고 있습니다 (일반적으로 완두콩 크기의 탄탈륨 커패시터는 연기로 방을 채울 수 있습니다). 전원 공급 장치에서 튀긴 부품이 얼마나 많은 냄새를 맡을 수 있는지는 놀랍습니다.

TIC 또는 IR 온도계 (유용한 도구이며 TIC보다 훨씬 저렴)는 구성 요소가 전혀 열을 발생하지 않으며 케이스 내부에 있기 때문에 반드시이를 나타내지는 않습니다. 그러나 장치가 작동하지 않는지 확인하고 모니터링 도구를 사용하십시오. 그와 같은 냄새가 나는 시간의 95 %는 전체 장치의 성능에 영향을 미치는 전원 공급 장치가됩니다.


답변

나는 IR 이미징이나 온도계 답변을 좋아하지만 실제로 도움이 될 수있는 것은 “악취 감지기”입니다. 결국 당신의주의를 유발 한 것은 냄새였습니다. 연기, 열, IR 등은 모두 대리자입니다.

이와 같은 것 : 신 아이에서 . 나는 개인적으로 사용하지 않았거나 데이터 센터에서 사용 된 것을 보았습니다. 그러나 최소한 이론적으로는 깔끔한 도구 여야합니다. 이 기즈모에 쓸 돈이 있다면.

http://www.sca-shinyei.com/odormeter
또는
http://www.intopsys.com/products/cyranose.html?gclid=CNXXzOrLs7YCFUws6wodViYApQ

그것은 당신에게 분류뿐만 아니라 냄새 강도를 제공합니다. 따라서 냄새에 귀환 할 수 있어야합니다. 악마는 물론 세부 사항에 있습니다. 가짜 배경 냄새 등을 가리는 것이 얼마나 민감한 지.

순수한 온도 기반 측정에 비해 한 가지 장점은 악취가 훨씬 빠른 시점이나 임계 값에서 발생한다는 것입니다. 또는 과열 된 부품이 차체 / 숨겨진 배선 등에 의해 숨겨져 있으면 가시 광선 핫스팟보다 이탈하는 분자를 감지하는 것이 더 쉽습니다.

또 다른 상황은 비열 관련 냄새입니다. 우리는 전에 냉각 회로 누출이 있었고 냉각수 냄새도 독특했습니다. 나는 심지어 덕트에서 죽은 쥐 설치류의 경우에 들어 가지 않을 것입니다. 🙂

이 센서가 얼마나 민감한 지 놀랐습니다. H2S / 머 캅탄 등 (일반 범인)은 ppm 이하 수준에서 감지 할 수 있습니다.

여기에 이미지 설명을 입력하십시오