[server] SSD 드라이브 상태를 확인하는 빠른 방법?

여기에 표시된대로 ZFS 스토리지 배열에서 “실패”로 표시된 Intel X-25M 드라이브가 있습니다 . 그러나 드라이브를 제거한 후 다른 컴퓨터 (Mac, PC, USB 인클로저 등)에서 마운트, 읽기 및 쓰기가 이루어지는 것 같습니다.

드라이브의 현재 상태를 확인할 수있는 좋은 방법이 있습니까? ZFS 솔루션의 이전 실패는 버그, 잘못된 오류보고 및 하드웨어의 수렴이라고 생각합니다. 그래도이 드라이브에 약간의 수명이있는 것 같습니다.

답변

드라이브 상태를 확인하는 좋은 방법은 SMART 특성을 확인하는 것입니다.

다음은 smartctl v5.41을 사용하여 Intel X25-M G2 160GB 디스크에 설정된 SMART 속성입니다 . (이 버전은 중요합니다. 이전 버전의 smartctl은 서로 다른 속성 이름 매핑을 가지고 있으며 실제로이 드라이브의 특정 테이블을 정확하게 이해하지 못했습니다).

# ./smartctl -data -A /dev/sda
smartctl 5.41 2011-06-09 r3365 [x86_64-linux-2.6.18-194.32.1.el5] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 5
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED     RAW_VALUE
  3 Spin_Up_Time            0x0020   100   100   000    Old_age   Offline      -       0
  4 Start_Stop_Count        0x0030   100   100   000    Old_age   Offline      -       0
  5 Reallocated_Sector_Ct   0x0032   100   100   000    Old_age   Always       -       1
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       4076
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       67
192 Unsafe_Shutdown_Count   0x0032   100   100   000    Old_age   Always       -       30
225 Host_Writes_32MiB       0x0030   200   200   000    Old_age   Offline      -       148418
226 Workld_Media_Wear_Indic 0x0032   100   100   000    Old_age   Always       -       755
227 Workld_Host_Reads_Perc  0x0032   100   100   000    Old_age   Always       -       49
228 Workload_Minutes        0x0032   100   100   000    Old_age   Always       -       16956537
232 Available_Reservd_Space 0x0033   099   099   010    Pre-fail  Always       -       0
233 Media_Wearout_Indicator 0x0032   098   098   000    Old_age   Always       -       0
184 End-to-End_Error        0x0033   100   100   099    Pre-fail  Always       -       0

이는 드라이브에 1 개의 재 할당 된 섹터가 있고 사용 가능한 예약 공간의 1 % (속성 232)와 프로그램 된 프로그램 / 삭제 사이클의 2 % (속성 233)를 사용했음을 나타냅니다. 148418 * 32MiB (속성 225)가 작성되었습니다.

만약 드라이브가 상당한 수의 재 할당 된 섹터를 보여주고 있다면, 이것은 아마도 플래싱 디스크상의 많은 수의 재 할당 된 섹터가 일반적으로 표면 오류를 가리키는 것과 같은 방식으로 고장난 플래시 칩을 가리킬 수 있기 때문에 우려 할만한 원인이 될 수 있습니다 ). 엔드 투 엔드도 좋지 않습니다. X25-M G2 160GB 디스크 몇 개가 고장 났으며 (> 1000) 큰 엔드 투 엔드 오류보고가 발생했습니다. 일반 디스크의 유용한 SMART 특성은 대부분 SSD에 적용되지 않으므로 이러한 디스크에는 실제로 유용한 오류 조건 특성이 두 가지뿐입니다.

그러나 SMART는 일반적으로 100 % 신뢰할 수있는 것으로 간주되지 않습니다. 디스크 오류 에 대한 Google의 연구에 따르면 다양한 SMART 조기 경고 표시기와 드라이브 오류 간에는 좋은 상관 관계가 있지만 개별 드라이브 오류를 예측하는 데 유용한 도구는 아닙니다. 이러한 이유로 나는 일반적으로 드라이브가 양호 함을 증명하는 대신 SMART를 사용하여 드라이브가 나쁘다는 것을 증명하는 방법으로 오류를 표시합니다 (오류가 표시되면 조만간 실패 할 것임).

답변

“전통적인”하드 드라이브 용으로 만들어졌지만 “badblocks”유틸리티는 드라이브에서 모든 매핑 가능한 섹터를 실행하기 때문에 이점이있을 수 있습니다. SSD 조각화 방지 및 내부 리매핑을 사용하면 드라이브가 양호한 지 확인할 수 없습니다. 그러나 그것이 드라이브가 나쁘다는 것을 말하면 드라이브를 죽은 것으로 버릴 것입니다.

답변

HD Tune (및 HD Tune Pro )은 SSD 드라이브의 상태를 측정하는 데 유용한 도구입니다. 무료 버전 (HD Tune)에는 매우 제한된 기능 세트가 있지만 상태 분석에 포함되므로 운이 좋았습니다. Pro 버전에는 15 일의 평가판 기간이 있으며, SSD 사용 방법에 대한 심층 분석을 제공합니다.