[server] 계속 mpt2sas syslog 메시지 해독

요약

새로운 하드웨어를 설치 한 후 syslog에 이러한 암호 메시지가 표시되어 문제가 무엇인지, 심각하거나 문제가 무엇인지 파악할 수 없습니다.

그들은 새로운 SATA HBA에서 왔으며 패턴을 따릅니다. 5-30 초 후에 첫 번째 메시지 몇 개와 두 번째 메시지 몇 개를 보게됩니다. 그것들은 모두 같은 초에 기록 된 블롭 (blob)으로 제공되며 각각의 정확한 양은 약 2와 35 사이에서 다릅니다.

두 메시지의 예 :

Jul 13 06:06:23 durandal kernel: [366918.435596] mpt2sas0: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
Jul 13 06:06:28 durandal kernel: [366923.145524] mpt2sas0: log_info(0x31110d01): originator(PL), code(0x11), sub_code(0x0d01)

항상 0x31120303 뒤에 0x31110d01이옵니다.

mpt2sas는 내가 사용중인 SATA 호스트 버스 어댑터 용 드라이버이지만 오류 내용이 지나치게 암호화되어 있습니다. 문제가 무엇인지, 어떤 디스크 또는 포트가 있는지 또는 얼마나 심각한 지 알려주지 않습니다.

하드웨어

슈퍼 X9SCL A를 제온 E3-1220 및 RAM의 8기가바이트

LSI SAS2008 기반 Supermicro AOC-USAS2-L8I SAS / SATA HBA는 Supermicro CSE-M35T-1B 디스크 트레이 세트에 연결되었습니다. 3 개의 Western Digital WD30EZRX 와 2 개의 Segate ST3000DM001이 연결되어 있습니다. 모든 3TB 드라이브 (실제로 동일한 수의 섹터). 사용중인 포트 확장기가 없습니다.

HBA, 디스크 트레이 및 4 개의 드라이브가 새로워졌습니다. WD30EZRXes 중 하나는 몇 달 동안 사용되었지만 아무런 문제가 없었습니다. 이전에 내장형 Intel SATA 컨트롤러에 연결했으면이 새로운 설정으로 드라이브 베이로 옮겼습니다.

HBA에 자주 재설정해야하고 실제로 끔찍한 성능을 얻는 데 문제가있었습니다. 펌웨어 / 바이오를 Supermicro에서 제공하는 최신 릴리스 인 “Phase 12″로 업데이트하고 유형을 IT로 변경했습니다 (예 : 모든 소프트웨어 RAID를 사용하려고했기 때문에 IR에서 통합 RAID에 대한 통과) : 2008IT12.FW. 이 업데이트는 모든 초기 문제를 해결했으며 나중에까지 위의 메시지가 표시되지 않았습니다 (아래 참조).

내가 추가 한 처음 4 개의 디스크는 모두 첫 번째 SFF-8087 포트 (4 개의 SATA 케이블로 분리)에 있습니다. 내가 추가 한 최신 디스크는 다른 포트에 있습니다.

시스템의 유일한 다른 디스크에는 OS가 포함되어 있으며 통합 SATA 컨트롤러에 연결된 구형 Intel 80GB SSD입니다.

소프트웨어

우분투 11.10 (oneiric). 리눅스 3.0.0-14 서버 x86_64 OS와 함께 제공되는 mpt2sas 드라이버 사용

5 개의 디스크가있는 Linux md를 사용하여 RAID6 어레이를 구축하려고합니다. 3 개의 디스크, 2 개의 Segate 및 새로운 WD 드라이브 중 하나의 축 퇴형 어레이로 시작했습니다. 펌웨어 업데이트를 수행 한 후 로그에 메시지가 표시되지 않았습니다. 한편, 나는 여전히 같은 컨트롤러의 포트 0에서 이전 WD 디스크를 사용하고 있습니다.

다른 새 WD 디스크를 어레이에 추가했습니다. 재 구축이 시작되었으며 이제 syslog에 해당 메시지가 주기적으로 나타납니다. 디스크를 어레이에 추가하는 데 걸리는 시간이 확실하지 않지만 예상 시간 (cat / proc / mdstat)의 범위는 수천에서 수만 분에 이르며 처음 3 개의 디스크보다 훨씬 깁니다. WD 디스크가 훨씬 느리다는 것을 알고 있습니다. 다중 디스크 오류 가능성을 줄이기 위해 다른 모델을 사용했으며이 두 모델은 가장 저렴한 3TB 모델이었습니다.

노트

SMART는 어떤 디스크에서도 문제를보고하지 않습니다. 디스크에 기록 된 오류가 없으며 오류 통계가 임계 값 근처에 없습니다.

기록 된 메시지는 마지막 디스크를 추가 한 후에 만 나타나기 시작 했으므로 문제가있을 수 있지만 다른 것을 가리키는 것은 없습니다.

이 드라이버의 로깅 메시지에 해당 하는 헤더 파일 을 찾았습니다 . 첫 번째 메시지는 나열되지 않은 “서브 코드”0303에 대한 중단 (코드 12) 인 것으로 보입니다. 두 번째 메시지는 명확하지 않은 이유로 재설정 (코드 11)입니다. 0303과 0d01의 의미를 알 수 있다면 정말 도움이 될 것입니다.

5 디스크 RAID6에 4 개의 디스크가 불완전한 어레이라는 것을 알고 있습니다. 4 번째 디스크 통합이 완료되면 기존 디스크의 내용을 어레이에 복사 한 다음 기존 디스크도 어레이에 추가 할 계획입니다.

답변

아마도 가장 좋은 방법은 디스크와 어딘가에 컨트롤러를 포함하여 디스크 사이의 하드웨어 문제 일 것입니다. 시도해 보는 것이 좋습니다.

가능한 경우 공급 업체에서 진단 도구를 실행하십시오.
케이블 점검 / 재설치 / 교체
컨트롤러 자체를 포함하여 디스크를 RAID 컨트롤러에 연결하는 체인의 하드웨어 구성 요소를 제거하고 체인의 하드웨어를 교체하십시오 (예 : 마더 보드 통합 RAID 이외의 다른 방법을 시도하십시오).

매우 유사한 메시지를 제공하는 두 개의 동일한 Dell PowerEdge R515 중 하나가 있습니다 (정확한 숫자 코드는 없지만 mpt2sas0 메시지로 주기적으로 로그가 채워짐). Dell의 자체 부팅 진단 프로그램은 이러한 문제를 “하드웨어 오류”로 인식하고 RAID sas 백플레인을 교체하여 문제를 해결했습니다.

조사 할 때 다양한 mpt2sas0 오류 코드의 의미에 대한 포괄적 인 리소스를 찾을 수 없었습니다. 하드웨어 공급 업체에 따라 다를 수도 있습니다 (SAS에 대해 더 많이 알고있는 사람은이를 확인하거나 거부해야 함). 따라서 오류 코드는 크게 다를 수 있지만 SMART가 깨끗하면 mpt2sas0이 오류 코드를보고해야하는 다른 좋은 이유를 상상하기 어렵습니다.

이러한 오류는 매우 심각 할 수 있습니다. 내 R515는 12 개의 디스크 Ubuntu Linux 소프트웨어 RAID 6으로 일주일 동안이 메시지로 정상적으로 작동했지만 갑자기 12 개의 디스크를 모두 어레이에서 꺼 냈습니다 (!)

또한 필자의 경우 모든 디스크의 SMART가 완전히 깨끗했습니다. 올바른 자체 점검 테스트는 다음 smartctl -t long /dev/sdX과 같이 스마트자가 진단 테스트 입니다 smartctl -l selftest /dev/sdX. 모두가 OK 인 경우 테스트는 말을해야 Completed하고, LBA_first_err열은 비어 있어야합니다.

답변

와우, 힘든 것.

이것은 장치 중 하나에 과부하가 걸리기 때문에 0x31120303이 버스 재설정임을 나타냅니다. 또한 걱정할 필요가 없다고 말합니다. (하하, 예)

이는 장치 중 하나가 명령에 응답하는 데 너무 오래 걸리기 때문에 이러한 로그 메시지가 발생하고 있음을 나타냅니다. 이것은 똑같은 말을하고, 무거운 하중에서 발생한다는 것을 나타냅니다.

이것은 완전한 대답은 아니지만 유용한 방향으로 안내 할 것입니다.

답변

이는 디스크에 약간의 오류가 있고 LSI의 SAS 컨트롤러에있는 SATA 디스크이며 오류로 인해 모든 미해결 요청이 중단되었음을 의미합니다.

대부분의 경우 디스크에 중간 오류가 있으며이 오류의 트리거입니다. 이 오류 자체가 중간 오류를 의미하는 것은 아니며 원래 디스크 오류의 원인을 찾기 위해 다른 힌트에 대한 로그를 확인해야합니다.

http://blog.disksurvey.org/blog/2014/03/27/sata-handling-of-medium-errors-log-info-0x0x31080000/ 에서 약간 더 정교해진 버전