[server] SSD 드라이브 상태를 확인하는 빠른 방법?

여기에 표시된대로 ZFS 스토리지 배열에서 “실패”로 표시된 Intel X-25M 드라이브가 있습니다 . 그러나 드라이브를 제거한 후 다른 컴퓨터 (Mac, PC, USB 인클로저 등)에서 마운트, 읽기 및 쓰기가 이루어지는 것 같습니다.

드라이브의 현재 상태를 확인할 수있는 좋은 방법이 있습니까? ZFS 솔루션의 이전 실패는 버그, 잘못된 오류보고 및 하드웨어의 수렴이라고 생각합니다. 그래도이 드라이브에 약간의 수명이있는 것 같습니다.



답변

드라이브 상태를 확인하는 좋은 방법은 SMART 특성을 확인하는 것입니다.

다음은 smartctl v5.41을 사용하여 Intel X25-M G2 160GB 디스크에 설정된 SMART 속성입니다 . (이 버전은 중요합니다. 이전 버전의 smartctl은 서로 다른 속성 이름 매핑을 가지고 있으며 실제로이 드라이브의 특정 테이블을 정확하게 이해하지 못했습니다).

# ./smartctl -data -A /dev/sda
smartctl 5.41 2011-06-09 r3365 [x86_64-linux-2.6.18-194.32.1.el5] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 5
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED     RAW_VALUE
  3 Spin_Up_Time            0x0020   100   100   000    Old_age   Offline      -       0
  4 Start_Stop_Count        0x0030   100   100   000    Old_age   Offline      -       0
  5 Reallocated_Sector_Ct   0x0032   100   100   000    Old_age   Always       -       1
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       4076
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       67
192 Unsafe_Shutdown_Count   0x0032   100   100   000    Old_age   Always       -       30
225 Host_Writes_32MiB       0x0030   200   200   000    Old_age   Offline      -       148418
226 Workld_Media_Wear_Indic 0x0032   100   100   000    Old_age   Always       -       755
227 Workld_Host_Reads_Perc  0x0032   100   100   000    Old_age   Always       -       49
228 Workload_Minutes        0x0032   100   100   000    Old_age   Always       -       16956537
232 Available_Reservd_Space 0x0033   099   099   010    Pre-fail  Always       -       0
233 Media_Wearout_Indicator 0x0032   098   098   000    Old_age   Always       -       0
184 End-to-End_Error        0x0033   100   100   099    Pre-fail  Always       -       0

이는 드라이브에 1 개의 재 할당 된 섹터가 있고 사용 가능한 예약 공간의 1 % (속성 232)와 프로그램 된 프로그램 / 삭제 사이클의 2 % (속성 233)를 사용했음을 나타냅니다. 148418 * 32MiB (속성 225)가 작성되었습니다.

만약 드라이브가 상당한 수의 재 할당 된 섹터를 보여주고 있다면, 이것은 아마도 플래싱 디스크상의 많은 수의 재 할당 된 섹터가 일반적으로 표면 오류를 가리키는 것과 같은 방식으로 고장난 플래시 칩을 가리킬 수 있기 때문에 우려 할만한 원인이 될 수 있습니다 ). 엔드 투 엔드도 좋지 않습니다. X25-M G2 160GB 디스크 몇 개가 고장 났으며 (> 1000) 큰 엔드 투 엔드 오류보고가 발생했습니다. 일반 디스크의 유용한 SMART 특성은 대부분 SSD에 적용되지 않으므로 이러한 디스크에는 실제로 유용한 오류 조건 특성이 두 가지뿐입니다.

그러나 SMART는 일반적으로 100 % 신뢰할 수있는 것으로 간주되지 않습니다. 디스크 오류 에 대한 Google의 연구에 따르면 다양한 SMART 조기 경고 표시기와 드라이브 오류 간에는 좋은 상관 관계가 있지만 개별 드라이브 오류를 예측하는 데 유용한 도구는 아닙니다. 이러한 이유로 나는 일반적으로 드라이브가 양호 함을 증명하는 대신 SMART를 사용하여 드라이브가 나쁘다는 것을 증명하는 방법으로 오류를 표시합니다 (오류가 표시되면 조만간 실패 할 것임).


답변

“전통적인”하드 드라이브 용으로 만들어졌지만 “badblocks”유틸리티는 드라이브에서 모든 매핑 가능한 섹터를 실행하기 때문에 이점이있을 수 있습니다. SSD 조각화 방지 및 내부 리매핑을 사용하면 드라이브가 양호한 지 확인할 수 없습니다. 그러나 그것이 드라이브가 나쁘다는 것을 말하면 드라이브를 죽은 것으로 버릴 것입니다.


답변

HD Tune (및 HD Tune Pro )은 SSD 드라이브의 상태를 측정하는 데 유용한 도구입니다. 무료 버전 (HD Tune)에는 매우 제한된 기능 세트가 있지만 상태 분석에 포함되므로 운이 좋았습니다. Pro 버전에는 15 일의 평가판 기간이 있으며, SSD 사용 방법에 대한 심층 분석을 제공합니다.


답변