Smart hdd расшифровка. S

Что такое SMART HDD (жёсткого диска) и что нужно делать, если компьютер выдаёт надпись «smart status bad backup and replace».

Во всех современных накопителях последних лет абсолютно любого производителя присутствует система SMART (self-monitoring, analysis and reporting technology - технология предупреждения, анализа и самопроверки) жесткого диска, очень тесно связанная с функционированием накопителя.

Современные технологии SMART осуществляют: мониторинг различных параметров состояния диска, сканирование поверхности жесткого диска с дальнейшей автоматической заменой нечитаемых секторов и занесение их в error-log, т.н. список, где номера этих секторов хранятся в виде таблицы, периодическое повторное сканирование "ненадежных" секторов из error-log и, если система определяет, что данный сектор исправен - то исключает его из данного списка и он становится доступен на поверхности для пользовательской информации (но также помечается для дальнейшей перепроверки при следующем сканировании поверхности), либо, если сектор не прочитывается несколько раз подряд, не переписывается, то он отправляется в следующий дефект-лист,именуемый у разных производителей по-разному, но имеющий одинаковое предназначение - этот лист является как бы посредником между error-log таблицей и финальным G-листом, где дефект уже будет занесен в G-лист навсегда, станет отображаться в SMART, в строке current pending sectors/offline UNC sectors.

Из статуса current pending поврежденный сектор после очередной перепроверки на "живучесть", если не прошел чтение/запись, то окончательно отправляется в статус переназначенных и там уже остается. Диск в дальнейшей работе его уже не использует, не тестирует повторно на чтение/запись.

В строке reallocated sector count изменяется значение с N на N+1.

Если накопитель имеет уже серьёзные повреждения, то при загрузке компьютера может выводиться надпись: «smart status bad backup and replace». Это значит, что статус SMART жёсткого диска изменился из состояния GOOD в состояние BAD, на диске как минимум имеются BAD-блоки и состояние диска продолжает ухудшаться. Пользователю рекомендуется сохранить свои данные, если они ещё доступны для чтения и заменить жёсткий диск на новый.

SMART ВЫГЛЯДИТ ТАК:
Выводится в виде таблицы со следующими столбцами:

ID – ИДЕНТИФИКАЦИОННЫЙ НОМЕР ПАРАМЕТРА

Name – выводимое программой имя параметра

VAL – НОРМАЛИЗОВАННОЕ ЗНАЧЕНИЕ ПАРАМЕТРА (НОРМАЛИЗОВАННОЕ ЗНАЧИТ, В ДАННОМ СЛУЧАЕ, ЧТО ВНУТРЕННЕЕ (RAW) ЗНАЧЕНИЕ ПАРАМЕТРА ПРЕОБРАЗОВАНО ПО ОПРЕДЕЛЁННОМУ АЛГОРИТМУ ДЛЯ БОЛЕЕ УДОБНОГО И ПОНЯТНОГО ПРОСМОТРА ЗНАЧЕНИЯ. НАПРИМЕР, ВНУТРЕННИЙ ПАРАМЕТР ВСЕГДА УВЕЛИЧИВАЕТСЯ И МОЖЕТ ПРИНИМАТЬ ЗНАЧЕНИЕ В НЕСКОЛЬКО ТЫСЯЧ ЕДИНИЦ, А ВЫВОДИМОЕ ЗНАЧЕНИЕ ИЗМЕНЯЕТСЯ ОТ 100 ДО 0 И ОТОБРАЖЕНИЕ ВНУТРЕННЕГО ДИАПАЗОНА ИЗМЕНЕНИЯ ПАРАМЕТРА НА ВЫВОДИМЫЙ И ЕСТЬ, В ДАННОМ СЛУЧАЕ, НОРМАЛИЗАЦИЯ)

Wrst – худшее значение параметра за отрезок времени время

Thresh – пороговое значение, при достижении которого диск рекомендуется заменить

РАССМОТРИМ, КАКИЕ СУЩЕСТВУЮТ ПАРАМЕТРЫ В СИСТЕМЕ SMART. НАБОР ОТСЛЕЖИВАЕМЫХ ПАРАМЕТРОВ ЗАВИСИТ ОТ ПРОИЗВОДИТЕЛЯ ДИСКА И НЕ ВСЕ ИЗ ПЕРЕЧИСЛЕННЫХ БУДУТ ПРИСУТСТВОВАТЬ В ВАШЕМ СЛУЧАЕ.

Атрибуты SMART:

1 Raw read error rate - количество ошибок при считывании секторов с пластин.

2 Throughput Performance - общая производительность диска в относительных единицах.

3 Spin-up time - время раскрутки пластин от нуля до номинальной скорости вращения в миллисекундах

4 Number of spin-up times - количество циклов раскрутки/остановки пластин; отражает механический ресурс диска из-за ограниченного количества циклов запуска/останова.

5 Reallocated sector count - параметр отражает количество запасных секторов; когда диск находит ошибку чтения/записи/проверки, он переназначает плохой сектор на хороший из запасной зоны; нормализованное значение атрибута уменьшается по мере убывания запасных секторов; RAW-значение показывает количество преназначенных секторов, которое в норме должно быть ноль; на SSDRAW значение показывает количество неисправных блоков флеш-памяти.

6 Read Channel Margin - данный атрибут не используется в современных накопителях.

7 Seek error rate - количество ошибок позиционирования магнитных головок.

8 Seek Time Performance - средняя скорость позиционирования привода магнитных головок на указанный сектор; в SSDпараметр не используется

9 Power-on time - ожидаемое время жизни диска, основанное на времени, проведённом во включённом состоянии; нормализованное значение уменьшается со 100 до 0, связано с ресурсом диска; уменьшение этого параметра косвенно говорит о состоянии механики диска

10 Spin-up retries - количество попыток раскруток пластин при условии, что первая попытка была неудачная; считается с момента начала использования; на SSD не используется

12 Start/stop count - ожидаемое время жизни, основанное на количестве пусков/остановов пластин; каждый диск имеет ограниченное количество пусков/остановов, параметр уменьшается со 100 до 0; RAW значение показывает число включений/выключений

13 Soft Read Error Rate - у одних производителей этот параметр описывается, как указывающий на количество ошибок, не восстановленных ECC, а у других наоборот - восстановленных

100 Erase/Program Cycles - общее количество циклов чтения/записи для всей флеш-памяти за весь срок службы; SSD имеет ограничение на количество циклов чтения/записи, конкретное значение зависит от типа и производителя микросхем флеш-памяти

103 Translation Table Rebuild - количество событий перестроения внутренней таблицы адресов блоков при её повреждении и восстановлении; RAW значение показывает актуальное количество данных событий

170 Reserved Block Count - описывает состояние пула резервных блоков в SSD, показывает процент оставшихся блоков; RAW значение иногда показывает количество использованных резервных блоков

171 Program Fail Count - количество случаев неудавшейся записи блока флеш-памяти

172 Erase Fail Count - количество случаев неудавшейся операции стирания блока флеш-памяти

173 Wear Leveller Worst Case Erase Count - максимальное количество операций стирания, произведённых над блоком флеш-памяти

178 Used Reserved Block Count - описывает состояние пула резервных блоков в SSD, показывает процент оставшихся блоков; RAW значение иногда показывает количество использованных резервных блоков

180 Unused Reserved Block Count - описывает состояние пула резервных блоков в SSD, показывает процент оставшихся блоков; RAW значение иногда показывает количество неиспользованных резервных блоков

183 SATA Downshifts - показывает, как часто требовалось понизить скорость передачи по SATA (с 6Гб/c до 3Гб/с или 1.5Гб/с) для успешной передачи данных, при уменьшении значения атрибута следует заменить кабель

184 End-to-End error - количество ошибок, возникших в буфере диска; часть технологии HP SMART IV; может свидетельствовать о неисправности RAM-буффера диска

185 Head Stability - по атрибуту нет достоверной информации

186 Induced Op-Vibration Detection - по атрибуту нет достоверной информации

187 Reported UNC error - количество нескорректированных ошибок чтения

188 Command timeout - количество невыполненных диском команд из-за истечения времени ожидания

189 High Fly writes - количество ошибок записи, вызванных неправильной высотой полёта магнитной головки над поверхностью

190 Airflow temperature - температура воздуха внутри гермоблока HDD

191 G-Sense Errors - указывает сколько раз диск прерывал работу из-за ударов или вибрации

192 power-off retract cycles - количество неожиданных пропаданий питания, когда оно пропадало прежде, чем была получена команда на отключение диска; у hdd срок службы при неожиданном отключении значительно меньше, чем при нормальном; у ssd есть риск потери таблицы внутреннего состояния при неожиданном пропадании питания

193 load/unload cycles - количество перемещений бмг между зоной парковки и зоной данных; значение уменьшается от 100 до 0, raw содержит актуальное количество перемещений

194 hda temperature- температура блока магнитных головок

195 hardware ecc recovered- количество ошибок чтения, скорректированных кодом коррекции ошибок

196 reallocation events - общее количество переназначений секторов, включает и off-line сканирование и обычную работу

197 current pending sectors- количество нестабильных секторов, ожидающих перепроверки и, возможно, переназначения

198 offline scan unc sectors- количество плохих секторов, найденных диском при фоновом самосканировании; ухудшение этого параметра говорит о быстрой деградации поверхности

199 ultra dma crc errors- количество ошибок при передаче данных между диском и материнской платой; при ухудшении этого параметра стоит заменить кабель

200 write error rate - частота возникновения ошибок при записи

202 data address mark errors - количество ошибок при поиске запрошенного сектора

203 run out cancel - количество ошибок, вызванных неверной контрольной суммой при попытке коррекции ошибки

204 soft ecc corrections - количество ошибок, скорректированных кодом коррекции

206 flying height - девиация высоты полёта головки над поверхностью относительно оптимального значения; если головка слишком низко, она может повредить поверхность, если слишком высоко - увеличивается количество ошибок чтения

207 spin high current - величина тока, требуемая для раскрутки пластин

209 offline seek performance - производительность подсистемы поиска при выполнении off-line сканирования

220 disk shift - расстояние, на которое сместился пакет пластин относительно теоретического положения в результате механического повреждения или перегрева

227 torque amplification count - показывает сколько раз требовалось подавать увеличенный ток для раскрутки пластин

230 gmr head amplitude - амплитуда колебаний головок бмг

233 media wearout indicator - остаток ресурса памяти в ssd

240 head flying hours- время, проведённое головками в зоне пользовательских данных; значение уменьшается, обычно от 100 до 0

241 total lbas written - количество 512-и байтных блоков, записанных за всю жизнь устройства

242 total lbas read - количество 512-и байтных блоков, считанных за всю жизнь устройства

250 read error retry rate

Сложность интерпретации значений smart состоит в том, что ни на количество, ни на тип, ни на значения, ни на единицы измерения отслеживаемых параметров нет единого стандарта. поэтому реализация smart всегда зависит от конкретного производителя. нормализацию raw-значений в показатели атрибутов все делают по-своему, а результатом является статус проверки smart good или bad. поэтому достоверный вывод о состоянии диска можно сделать только проверив его поверхность какой-либо диагностической программой. но если нужно быстро оценить состояние диска и возможные проблемы, нужно обратить внимание на несколько основных, самых информативных атрибутов.

Наиболее важные аттрибуты smart:

5 reallocated sectors count - количество переназначенных секторов; рост значения этого атрибута свидетельствует об ухудшении состояния поверхности диска

Жесткий диск - сложное электронно-механическое устройство, имеющее свою технологию самодиагностики, которая может предсказать о скором выходе из строя вашего жесткого диска. Что обычно является очень грустным событием...

Технология S.M.A.R.T. (англ. S elf M onitoring A nalysing and R eporting T echnology ) - технология оценки состояния жёсткого диска встроенной аппаратурой самодиагностики, а также механизм предсказания времени выхода его из строя.

Мы не будем рассматривать данную технологию во всех подробностях, т.к. это слишком широкий вопрос и у каждого из производителей накопителей своё видение и количество отслеживаемых параметров. Рассмотрим наиболее важные с практической точки зрения.

Для этого нам потребуется программа для просмотра отслеживаемых параметров.

В ней на вкладке "Хранение данных->SMART" выбираем жёсткий диск и в окне показываются отслеживаемые параметры:

01 Raw Read Error Rate - количество ошибок при чтении. У современных дисков очень большая плотность хранения данных, поэтому с ошибками они считывают данные постоянно, а информация восстанавливается за счёт кода коррекции ошибок ECC. Именно эти ошибки и считает этот параметр. В жёстких дисках фирмы Seagate эти некритичные ошибки показываются, остальные производители предпочитают об этом скромно умалчивать. Для дисков Seagate можно считать очень хорошим состояние когда параметры Raw Read Error Rate и Hardware ECC Recovered равны. Это значит что сколько было ошибок столько и было исправлено с помощью кода коррекции. Если же эти значения не равны то всё же не стоит бояться. Это не критичный параметр и диск может прожить ещё годы без каких либо проблем.

03 Spinup Time - время раскрутки диска до рабочего состояния. Беспокоиться стоит только если значение меньше половины от начального. Но тут ещё есть несколько нюансов, таких как сколько пластин в жестком диске. Максимум в настоящее время это 5 пластин (Hitachi), разумеется для раскрутки такого пакета дисков понадобится времени больше чем для 1-ой пластины. Силу инерции никто не отменял.

04 Start/Stop Count - общее количество стартов/остановок шпинделя. Для Seagate количество остановок шпинделя при переходе в режим энергосбережения.

05 Reallocated Sector Count - число переназначенных секторов. То есть когда диск обнаруживает ошибку чтения/записи, он помечает сектор «переназначенным», и переносит данные в специально отведённую резервную область. Вообще это страшный параметр, если значение его равно более 10 то это как минимум значит что пора вроверять всю поверхность диска чтобы понять будет ли этот процесс продолжаться. Судя по практике переназначенными секторами страдают ноутбучные диски гдето через год использования. Потому как они работают в очень жестких условиях. Я не говорю об ударах - большинство от этого более-менее защищены. Причина - температура. Корпус ноутбука обычно плохо продувается и диск перегревается, затем мы выключаем ноутбук и идём куда? Ну правильно, на улицу! А там -10 по цельсию. Вот как раз скорость нагрева-остывания и разрушает нежный магнитный слой на пластинах диска. По спецификациям всех производителей дисков так называемый "временной градиент температур", то есть скорость изменения температуры должна быть не более 20 град/час - в рабочем состоянии и не более 30 град/час в выключенном. Это правило нарушается всегда, но для ноутбуков особенно часто и жестоко.

09 Power-on Time Count (Power-on Hours) - количество времени проведённого во включённом состоянии. Обычно у современных дисков измеряется в часах (у Fujitsu в секундах). У старых дисков Maxtor, не у тех которые сейчас выпускаются Seagate под этой маркой, а у оригинальных Maxtor время изменяется в минутах. Это весьма полезный параметр если вы покупаете старый диск, то хочется же знать сколько он в своей жизни отработал. А кроме того обычно это время совпадает с временем работы компьютера и можно определить сколько человек проводит за компьютером в среднем. Как показывает практика и мой опрос на одном из крупных форумов посвящённых компьютерному железу диски с временем наработки более 20000 часов (примерно 2.5 года постоянной работы) уже имеют какие то дефекты, например те же "переназначенные" секторы и не так уж далеки от старческой смерти. Из тех же спецификаций производителей можно узнать что диски предназначенные для настольных компьютеров не предназначены для круглосуточной работы, а рассчитаны на работу в режиме 8/5, то есть 8 часов 5 дней в неделю. Это получается около 2400 часов в год. И получается что гарантия рассчитана для 3-х лет - 7200 часов, для 5 лет - 12000 часов. Не так то уж и много, учитывая что в году 8760 часов.

0A Spinup Retry Count - Число повторных попыток раскрутки дисков до рабочей скорости в случае, если первая попытка была неудачной. Если значение атрибута увеличивается, то вероятнее всего повреждение механической части/подшипников. Встречается очень редко, современные диски делают с гидродинамическими подшипниками и в случае неисправности такого подшипника он заклинивает сразу и намертво или работает долго и счастливо. Не так давно этим сильно страдали диски Toshiba и в меньшей степени Western Digital. Заклинивание происходит от перегрева.

0С Power Cycle Count - число циклов включения/выключения диска.

С2 Temperature - температура диска. К сожалению датчики температуры стоят у дисков разных производителей в разных местах, поэтому бывают и завышения и занижения реальной температуры. Но в среднем как показало недавнее исследование Google оптимальная рабочая температура находится в пределах от 35 до 45 градусов. Выше 50 градусов эксплуатация крайне не рекомендуется, но такую температуру и даже выше часто можно увидеть в ноутбуках.

Число секторов, являющихся кандидатами на замену. Они не были ещё определены как плохие, но считывание с них отличается от чтения стабильного сектора, это так называемые подозрительные или нестабильные сектора. В случае успешного последующего прочтения сектора он исключается из числа кандидатов. В случае повторных ошибочных чтений накопитель пытается восстановить его и выполняет операцию переназначения. Значение не равное нулю встречается обычно если на диске уже есть переназначенные сектора. Если это так, то с высокой вероятностью можно сказать что диск активно "сыпется", то есть разрушается магнитный слой пластин жесткого диска.

Кол-во нескорректированных ошибок, то есть серьёзное повреждение поверхности диска. Появляются такие ошибки когда заканчивается место в резервной зоне диска для переназначения секторов. Так же могут появляться при резком отключении питания в момент когда диск записывает данные - это так называемые "программные бэд блоки". Если их количество один два, а остальные параметры касающиеся поверхности диска в норме то беспокоиться не стоит. Если же велико, то данные надо спасать и готовить "тело на вынос". :)

С7 Ultra ATA CRC Error Rate - количество ошибок при передаче во внешнем интерфейсе. Обычно в этом виноват кабель или плохой контакт кабеля с разъёмами, особенно проявляется на SATA дисках. Встречается весьма часто.

С8 Write Error Rate - ошибки при записи на диск. Встречается редко. Обычно на очень старых дисках. Если есть ошибки то это означает физический износ привода головок жесткого диска. Или же при серьёзных повреждения поверхности диска. (когда количество переназначенных секторов и нескоректированных ошибок превышают все разумные значения).

Вот мы и кратенько рассмотрели основные параметры системы самодиагностики жестких дисков. Если есть желание узнать об этом подробнее то можно обратиться к материалам википедии:

К сожалению SMART не всегда может предсказать смерть диска. Как показало исследование всё того же Google около 50% дисков умирают резко и без видимых причин. Но в одном эта технология точно полезна. По ней можно быстро узнать состояние поверхности диска, то есть параметры:

05 Reallocated Sector Count

C5 Current Pending Sector Count

С6 Offline Uncorrectable Sector Count

И очень полезно знать время которое за свою жизнь проработал диск, чтобы примерно угадать что от него можно ждать.

А теперь немного о будущем. В продаже уже появилось достаточное количество предложений действительно "жестких дисков" . Они выполнены на микросхемах твердотельной памяти типа flash и гораздо более надёжны и по механическим воздействиям и по температуре. Однако производители ещё не договорились о стандарте системы самодиагностики для этого вида накопителей. Но она будет гораздо проще чем для старых добрых электромеханических дисков. И главное с гораздо более высокой вероятностью будет предсказывать возможность выхода из строя! Флэш память более предсказуема в этом смысле. Чтож, будем ждать этого светлого будущего!

Оснащаются специальной микропрограммой самодиагностики S.M.A.R.T. (self-monitoring, analysis and reporting technology). Эта технология позволяет отслеживать состояние HDD, анализировать его работу и предсказывать выход из строя. «СМАРТ» отслеживает свыше 40 параметров, результат по каждому из которых вносится в специальную таблицу. Анализ статистики S.M.A.R.T. позволяет обнаружить уязвимые места и предсказать выход жесткого диска из строя.

Эта статья расскажет о том, как посмотреть SMART жесткого диска, расшифровать его показания, и каким параметрам следует уделить повышенное внимание. Стоит отметить, что информация подается структурированно, но для извлечения из нее данных требуется специальное ПО.

Как посмотреть S.M.A.R.T. жесткого диска. Расшифровка параметров.

Чтобы проверить параметры «СМАРТ», нужно чтобы эта функция была включена в системе. Это актуально для компьютеров, выпущенных до 2010 года. В них в BIOS присутствует опция HDD S.M.A.R.T. Capability, включение которой позволяет полноценно отслеживать «СМАРТ». В новых ПК вопрос «как включить S.M.A.R.T. на жестком диске?» неактуален – все включено по умолчанию.

Для просмотра параметров состояния HDD нужна специальная утилита для работы с ЖД (Victoria, HD Tune, HDD Scan) или комплексные диагностические программы (Everest или ее «наследница» Aida64). Они позволяют вывести таблицу в легком для понимания виде.

Проанализируем параметры на примере «Виктории». Как видно из изображения, жесткий диск (в данном случае это Seagate на 200 Гб с устаревшим интерфейсом IDE) поддерживает не все команды «СМАРТ» и фиксирует часть параметров.

В заглавии таблицы можно увидеть ID параметра, его имя, значения VAL, Wrst, Tresh и Raw, а также оценочную графу Health.

  • ID – номер параметра в общем списке анализируемых критериев.
  • VAL – текущее его значение в абстрактных единицах (обычно процентах от идеального показателя).
  • Wrst – наихудшее значение, которого винчестер когда-либо достигал.
  • Tresh – условный порог для значения VAL, по достижении которого система уведомляет о надвигающейся «смерти» HDD.
  • RAW – выражение параметра VAL в численном формате (количество часов наработки/сбоев/ошибок/багов).

Параметр Health позволяет оценить состояние HDD людям, незнакомым с тонкостями компьютерного железа или английским языком. Он присваивает привычную оценку от 1 до 5 баллов каждому из них.

При анализе состояния жесткого диска следует обратить внимание на VAL (сравнивая с графой Tresh) и RAW (для объективной оценки). В приведенном примере видно, что ЖД пережил много ошибок чтения (у Seagate, Fujitsu и Samsung на эту графу можно не смотреть – сюда фиксируются все ошибки) и имеет большое время работы (параметр 9). Из таблицы видно, что число коррекций аппаратных ошибок (параметр 195) достаточно высоко. Остальные значения «СМАРТ» в норме, или близки к ней. Важно, что параметр 5 (Reallocated Sectors Count) – в норме. Это означает, что количество сбойных секторов невелико (11 в данном случае) и самому диску пока ничего не угрожает.

В случае, если параметр 5 отличается тревожными значениями, здоровье HDD под угрозой. На приведенном скриншоте графа Reallocated Sectors Count указывает, что ЖД близок к выходу из строя. В данном случае это – сбой системы (несоответствие нулевого значения RAW и критического показателя VAL указывает на это), и для приведения в норму требуется восстановление SMART жесткого диска. Но обычно такие сведения указывают, что HDD вот-вот сломается, и им уже нельзя нормально пользоваться.

Как сбросить или восстановить S.M.A.R.T. жесткого диска

Мы не можем рассказать подробно, как сбросить SMART жесткого диска. Это действие хоть и не является преступным (в отличие от той же смены IMEI смартфона), но может помочь недобросовестным торговцам продавать неисправные ЖД под видом новых. Но для пользователей, которым нужно знать, как восстановить SMART жесткого диска, чтобы вернуть его в строй после программного сбоя, разъясним ситуацию в общих чертах.

  • Для сброса S.M.A.R.T. (ровно как и других сервисных задач) требуется подключение ЖД по интерфейсу COM. Для этого производители оснащают HDD специальным разъемом из 4 или 5 контактов. Он расположен рядом с гнездами для кабелей передачи данных и подачи питания. Новые компьютеры часто не имеют гнезда COM на задней панели, поэтому его функции выполняет специальная плата USB-COM.

Интерфейсные разъемы жесткого диска


С целью предупреждения поломки и, как следствие, предотвращения потери данных пользователей современные жесткие диски оснащаются технологией S.M.A.R.T. Что это за технология, как проанализировать ее данные, посредством каких программ это можно сделать – с этими вопросами ниже ознакомимся в подробностях.

1. S.M.A.R.T.: о сути технологии

S.M.A.R.T – это система самодиагностики, набор характеристик, фиксируемых электроникой жестких дисков. Эта технология появилась в 1995 году благодаря совместным усилиям производителей жестких дисков. Ей предшествовали разработанные в 1992 году технологии IntelliSafe и Predictive Failure Analysis. S.M.A.R.T. – это, в сравнении с технологиями-предшественницами, более совершенный механизм определения важных характеристик жестких дисков, который используется и по сегодняшний день. Диски с этой технологией оснащаются встроенным процессором, который обеспечивает подсчет отработанных часов, определение бэд-блоков (сбойных, поврежденных секторов), измерение температуры, а также отслеживает прочие характеристики. S.M.A.R.T. оснащаются и HDD, и SSD. Естественно, в силу разности обустройства этих типов дисков, параметры, отслеживаемые технологией, будут разными.

S.M.A.R.T. – это только диагностика, ее данные носят информативный характер. Эта технология не лечит HDD. При критическом значении отдельных параметров (в частности, при достижении предела допустимых бэд-блоков) она может дать о себе знать во время загрузки компьютера сообщением типа «S.M.A.R.T. Status BAD». Это значит, что в скором времени HDD может выйти из строя, и необходимо срочно заняться резервным копированием (или помещением в файловые интернет-хранилища) значимых данных. Если технология выдает такое сообщение в рамках гарантийного срока приобретенных ПК, ноутбука или жесткого диска, эти устройства необходимо нести в точку продажи, где они приобретались, и требовать замены жесткого диска. Если гарантийный срок истек, и продавцу невозможно предъявить претензии, после резервного копирования данных компьютер необходимо нести в сервисный центр.

Как и не лечит, S.M.A.R.T. также не дает даже приблизительных временных прогнозов, насколько быстро HDD выйдет из строя. Может быть, что при отдельных критических значениях параметров диск прослужит еще несколько лет. И наоборот: известны случаи выхода HDD из строя без предупреждения технологии оценки состояния.

Чтобы узнать о состоянии жесткого диска согласно данным диагностики S.M.A.R.T., не обязательно дожидаться появления сообщения при загрузке компьютера. Отчет можно посмотреть при помощи специальных утилит, которые могут быть проводником, интерфейсом для выведения ее данных. Ниже будут рассмотрены несколько инструментов, которые в числе своего функционала предусматривают выведение отчета SMART. Но прежде необходимо разобраться в значениях параметров, которыми оперирует эта технология.

2. Значения S.M.A.R.T.

Отчет S.M.A.R.T. в приложениях для отображения результатов ее диагностики, как правило, представляется в таблице, где напротив параметров жесткого диска (именуемых также атрибутами) стоит то или иное значение. Граф со значениями в отчете несколько:

  • Графа «Value», отображаемая в приложениях с русскоязычным интерфейсом как «Текущее» – это, соответственно, текущее значение параметра жесткого диска;
  • Графа «Worst» («Худшее») – самое низкое значение параметра, которые было зафиксировано за все время работы диска;
  • Графа «Threshold», она же «Пороговое» или «Порог» – это критически низкое, нежелательное значение параметра.

Состояние жесткого диска главным образом определяется сопоставлением значений текущего («Value») и порогового («Threshold»). Эти значения выражены числовым показателем от 1 до 255. У отдельных производителей HDD может быть от 1 до 200.

Логика текущих значений («Value») – нечто вроде системы набора баллов, чем больше, тем лучше. Высокое текущее значение («Value») параметров, как правило, означает их стабильность.

Пороговое значение («Threshold») чаще определяется цифрой 0, но это не правило для всех параметров. Для пороговых значений отдельных параметров устанавливается показатель больше 0 (например, 51 или 140). Это значит, что текущие значения таких параметров могут быть ниже порогового.

Итак, чем больше разница между текущим значением («Value») и пороговым («Threshold»), тем лучше состояние жесткого диска. Снижение текущего значения («Value»)» до порогового («Threshold») или ниже него означает, что в скором времени возможна поломка жесткого диска. Однако не всегда низкое текущее значение («Value») – это плохо. Например, технология оценки состояния может оценивать внушительную наработку часов жесткого диска низким показателем, но это не повод беспокоиться, если значения прочих параметров в норме. Число отработанных часов – «голый» показатель, без учета нагрузок, которым диск поддавался за время работы, эта цифра скажет немногое. В любом случае оценивать данные диагностики необходимо с учетом специфики каждого параметра.

Текущее («Value»), худшее («Worst») и пороговое («Threshold») – это основные значения, отображаемые программами для вывода отчета. Но отдельные программы могут содержать в отчете другие данные, например, Raw-значения (данные в шестнадцатеричном виде) или конкретные показатели для отдельных параметров (количество запусков/остановок шпинделя, количество бэд-блоков, суммарное время работы жесткого диска в часах и т.п.).

Чтобы облегчить восприятие данных диагностики, в некоторых программах значениям параметров присваиваются определенные цветовые индикаторы. Как правило, индикатор темы оформления интерфейса таких программ означает, что у жесткого диска хорошее состояние. А желтый (иногда может быть оранжевый) и красный индикаторы говорят об ухудшении здоровья, соответственно, умеренном и весьма серьезном.

3. Программы для выведения отчета S.M.A.R.T.

AIDA64

Посмотреть отчет S.M.A.R.T. можно в известной программе для комплексного анализа составляющих компьютера AIDA64. В древовидной структуре слева раскрываем ветку «Хранение данных», кликаем раздел «SMART», вверху выбираем нужный диску и внизу смотрим по нему отчет.

В довесок к основным значениям AIDA64 в графе «Данные» отображает конкретные показатели по отдельным параметрам, а в графе «Статус» дает значениям свою оценку.

CrystalDiskInfo

Небольшая бесплатная утилита CrystalDiskInfo – самый удобный способ отслеживания диагностики S.M.A.R.T. В окне утилиты вверху необходимо выбрать HDD, и все его параметры будут отображены в таблице внизу. Плюсы CrystalDiskInfo – отображение дополнительных данных, названия параметров на русском языке, цветовая индикация, акцентный блок «Техсостояние».

HDDScan

Чтобы посмотреть отчет S.M.A.R.T., в бесплатной программе HDDScan необходимо выбрать HDD в меню «Select Drive».

И нажать кнопку с названием технологии.

HDDScan отображает основные значения и имеет дополнительную графу с выводом Raw-значения. Вверху отчета программа показывает характеристики жесткого диска – модель, серийный номер, прошивку и т.п. Предусматривается цветовая индикация значений параметров.

HD Tune Pro

В платном HD Tune Pro для получения данных необходимо выбрать вверху в выпадающем списке нужный HDD и переключиться на вкладку «Здоровье».

Кроме граф таблицы с основными значениями, HD Tune Pro предусматривает дополнительные графы с конкретными показателями параметров («Данные») и собственную оценку значений S.M.A.R.T. («Состояние»). Есть цветовая индикация. Преимущество программы – отображение названий параметров на русском языке.

Hard Disk Sentinel

Бесплатная в стандартной редакции или в триал-версии Pro программа Hard Disk Sentinel отчет S.M.A.R.T. отобразит по выбранному жесткому диску при выборе в меню «View» пункта с названием технологии.

В добавок к основным значениям S.M.A.R.T. этот инструмент отображает Raw-значение (графа «Date») и имеет собственную оценку показателей (графа «Status»). Предусмотрена цветовая индикация.

Victoria

Бесплатная портативная утилита Victoria предоставит данные S.M.A.R.T. после выбора нужного жесткого диска во вкладке «Standart».

Далее необходимо переключиться на вкладку утилиты «SMART» и нажать кнопку «Get SMART». К основным значениям технологии добавлены графы Raw-значения и индикации здоровья жесткого диска («Health»). Здоровье определяется цветовым и уровневым индикатором.

4. Детальная справка по параметрам S.M.A.R.T. и нюансы их отображения в разных программах

Названия одних и тех же параметров в разных программах дословно могут не совпадать. Если значение какого-то из параметров заинтересовало, более подробно узнать, что это за параметр, насколько важную роль он играет, как он влияет на производительность жесткого диска и т.п., можно в Интернете. Отдельные рассмотренные выше программы предусматривают копирование названий параметров и значений в контекстном меню интерфейса. Те, которые не предусматривают такой возможности, могут предложить экспорт данных в TXT-файл или прочие форматы.

Кроме того, что могут не совпадать названия параметров (даже в программах с отображением их на английском языке), разные программы могут выдавать разные подборки параметров. Сопоставлять один и тот же параметр в различных программах необходимо по его идентификатору – графе «ID», она же «Num», она же «№». Но и идентификаторы будут разными, если сравнивать отчеты S.M.A.R.T. в программах с отображением параметров на разных языках.

Отличного Вам дня!

    Современные жесткие диски довольно “умные” устройства и, кроме основных присущих им как устройствам хранения и обработки данных свойств, поддерживают технологию самотестирования, анализа состояния, и накопления статистических данных об ухудшении собственных характеристик S.M.A.R.T. (S elf-M onitoring A nalysis a nd R eporting T echnology). Основы S.M.A.R.T. были разработаны в 1995 г. совместными усилиями ведущих производителями жестких дисков (HDD). В последующие годы стандарты S.M.A.R.T дорабатывались в соответствии с изменениями технологий и оборудования (SMART II и SMART III) и продолжают совершенствоваться в настоящее время.

    Жесткий диск, начиная с момента его изготовления, постоянно отслеживает определенные параметры своего состояния и отражает их в специальных характеристиках - атрибутах (Attribute), сохраняющихся в постоянном запоминающем устройстве, как правило, в специально выделенной части дисковой поверхности, доступной только внутренней микропрограмме накопителя - служебной зоне . Данные атрибутов могут быть считаны, в соответствии со спецификацией ATA (AT A ttachment) по командам поддержки SMART (SMART READ DATA и еще более десятка команд), которые передаются в накопитель специальным программным обеспечением, как например, утилитами от производителей оборудования или универсальными программами тестирования и мониторинга состояния HDD (udisks, smartctl, GSmartControl, gnome-disks и т.п.). Современные стандарты ATA включают в себя поддержку протокола SCT (SMART Command Transport), обеспечивающего считывание журналов статистики устройства. Журнал статистики устройства - это доступный только для чтения журнал SMART, передаваемый накопителем при получении команд READ LOG EXT, READ LOG DMA EXT или SMART READ LOG.

    Атрибут представляет собой характеристику определенного состояния жесткого диска, которая изменяется в процессе эксплуатации, принимая числовое значение от максимального, установленного в момент изготовления данного устройства, до минимального, при достижении которого, работоспособность накопителя не гарантируется. Все атрибуты идентифицируются своим цифровым номером, большинство из которых одинаково интерпретируется жесткими дисками разных моделей. Некоторые из них могут использоваться только конкретным производителем оборудования, и поддерживаться отдельными моделями накопителей. Так, например, атрибут с идентификатором 7 , характеризующий количество ошибок установки головок на требуемую дорожку поверхности дискаSeek_Error_Rate не имеет смысла для твердотельных дисков (SSD) и, соответственно, не поддерживается ими, а атрибут с идентификатором 9 ,характеризующий суммарное время работы накопителя за весь срок эксплуатации и обозначаемый как Power_On_Hours ,поддерживается как SSD, так и традиционными HDD.

    Атрибуты состоят из нескольких полей, (наиболее часто обозначаемых как Val, Worst, Tresh, RAW ), каждое из которых является определенным показателем, характеризующим техническое состояние накопителя на данный момент времени. Программы считывания S.M.A.R.T. выводят содержимое атрибутов, как правило, в виде нескольких колонок:

  • ID# - числовой идентификатор атрибута
  • Attribute - название атрибута
  • Flags - флаги атрибутов, задаваемые производителем HDD. Характеризуют тип атрибута (большинство программ интерпретируют флаги в виде символов k,c,r,s,o,p или аббревиатур, например, EC – Event Count, счетчик событий).

    Pre-Failure (PF, 01h) - при достижении порогового значения данного типа атрибутов диск требует замены. Иногда данный бит флагов обозначают как Life Critical (CR) или Pre-Failure warranty (PW)
    O nline test (OC, 02h)– атрибут обновляет значение при выполнении off-line/on-line встроенных тестов SMART;
    P erfomance R elated (PE или PR , 04h)– атрибут характеризует производительность;
    E rror R ate (ER , 08h)– атрибут отражает счетчики ошибок оборудования;
    E vent C ounts (EC, 10h) – атрибут представляет собой счетчик событий;
    S elf P reserving (SP, 20h) – самосохраняющися атрибут;
    Некоторые из программ могут интерпретировать флаги в виде текстовых описаний, близких по смыслу к рассмотренным выше. Один атрибут может иметь несколько установленных в единицу значений флагов, например, атрибут с идентификатором 05 отражающий количество переназначенных из-за сбоев секторов из резервной области, имеет установленные флаги SP+EC+OC – самосохраняющийся, счетчик событий, обновляется при автономном и интерактивном режиме накопителя.

  • Value - текущее значение атрибута
  • Threshold - минимальное пороговое значения атрибута
  • Worst - самое худшее значение атрибута за все время работы накопителя
  • Raw - абсолютное значение атрибута
  • Type - некоторые из программ в данном необязательном поле отображают информацию из флажков атрибутов или признаки их критичности (Critical или Pre-Fail , отражающих ухудшение характеристик оборудования, и Old-age для атрибутов, отражающих выработку ресурса);

        Для анализа состояния накопителя, пожалуй самым важным значением атрибута является Value - условное число (обычно от 0 до 100 или до 253), заданное производителем. Значение Value изначально установлено на максимум при производстве накопителя и уменьшается в случае ухудшения его параметров. Для каждого атрибута существует пороговое значение, при достижения которого, производитель не гарантирует его работоспособность - поле Threshold . Если значение Value приближается или становится меньше значения Threshold , - накопитель пора менять.

    Перечень атрибутов и их значения жестко не стандартизированы и некоторые из них могут определяться изготовителем накопителя, но основная часть интерпретируются одинаково. Например, атрибут с идентификатором 05 (Reallocated sector count ) будет характеризовать число забракованных и переназначенных из резервной области секторов диска, как для устройств производства компании Seagate Technology, так и для устройств производства Western Digital . Набор поддерживаемых атрибутов зависит от модели накопителя и может значительно отличаться по составу для разных моделей.

        Наиболее распространенным программным средством для получения данных S.M.A.R.T в среде Linux, является утилита smartctl из комплекта smartmontools , как правило, входящего в состав устанавливаемого по умолчанию программного обеспечения любого дистрибутива. При необходимости, обновить версию, а также скачать документацию на английском языке можно на сайте проекта smartmontools.org .

    Для работы с утилитой smartctl требуются права суперпользователя root .

    Формат командной строки smartctl :

    smartctl параметры устройство

    Примеры использования smartctl

    smartctl –help или smartctl --usage - отобразить подсказку об использовании команды.

    Параметры smartctl :

    -V, --version, --copyright, --license - отобразить версию, информацию копирайта и лицензии.

    -i, --info - отобразить идентификационную информацию для устройства.

    -g NAME, --get=NAME - отобразить параметры настроек диска (all, aam, apm, lookahead, security, wcache, rcache, wcreorder)

    -a, --all - отобразить все данные SMART указанного диска.

    -x, --xall - отобразить все технические данные для указанного диска.

    --scan - выполнить поиск дисковых устройств.

    -q TYPE, --quietmode=TYPE установить режим детализации вывода для smartctl (errorsonly, silent, noserial)

    -d TYPE, --device=TYPE - установить тип устройства (ata, scsi, sat[,auto][,N][+TYPE], usbcypress[,X], usbjmicron[,p][,x][,N], usbsunplus, marvell, areca,N/E, 3ware,N, hpt,L/M/N, megaraid,N, cciss,N, auto, test) Обычно установка типа устройства требуется в тех случаях, когда утилита smartctl не может определить его автоматически.

    -b TYPE, --badsum=TYPE - задать реакцию на обнаружение ошибок контрольных сумм (warn, exit, ignore)

    -r TYPE, --report=TYPE - опция предназначена для разработчиков smartmontools и позволяет получить детализированную информацию при выполнении транзакций функции управления устройствами ввода/вывода ioctl (ioctl, ataioctl, scsiioctl и уровень отладки). Подробности - man smartctl

    -n MODE, --nocheck=MODE - режим запрета на выполнение тестов для режимов энергосбережения (never, sleep, standby, idle). Обычно используется для предотвращения запуска шпиндельного двигателя по команде smartctl.

    -s VALUE, --smart=VALUE - отключение или включение SMART (on/off)

    -o VALUE, --offlineauto=VALUE - запрет или разрешение автоматического выполнения тестов в неинтерактивном режиме (в режиме простоя накопителя), принимаемые значения - on/off

    -S VALUE, --saveauto=VALUE автосохранение атрибутов (on/off)

    -s NAME[,VALUE], --set=NAME[,VALUE] - запрет/разрешение параметров оборудования накопителя (aam,, apm,, lookahead,, security-freeze, standby,, wcache,, rcache,, wcreorder,)

    -H, --health - отобразить состояние накопителя (SMART health status)

    -c, --capabilities - отобразить информацию о поддерживаемых возможностях SMART указанного жесткого диска.

    -A, --attributes - отобразить атрибуты SMART

    -f FORMAT, --format=FORMAT - задать формат отображаемых атрибутов SMART (old, brief, hex[,id|val]). В основном, влияет на формат отображаемых значений идентификаторов атрибутов и формат отображения их флагов:
    old - идентификаторы атрибутов выводятся в десятичной системе счисления, значения флагов отображаются в шестнадцатеричной и интерпретируются в виде текста.
    hex - то же, что и в предыдущем случае, но идентификаторы атрибутов отображаются в шестнадцатеричной системе счисления.
    brief - компактный вывод, идентификаторы отображаются в десятичной системе счисления, флаги отображаются в виде символов с расшифровкой в нижней части таблицы:
    ID# ATTRIBUTE_NAME FLAGS VALUE WORST THRESH FAIL RAW_VALUE 1 Raw_Read_Error_Rate POSR-- 114 100 006 - 78309029 . . . . . . 254 Free_Fall_Sensor -O--CK 100 100 000 - 0 ||||||_ K auto-keep |||||__ C event count ||||___ R error rate |||____ S speed/performance ||_____ O updated online |______ P prefailure warning

    -l TYPE, --log=TYPE - отобразить указанный журнал устройства (selftest, selective, directory[,g|s], xerror[,N][,error], xselftest[,N][,selftest],background, sasphy[,reset], sataphy[,reset], scttemp, scttempint,N[,p], scterc[,N,M], devstat[,N], ssd, gplog,N[,RANGE], smartlog,N[,RANGE]

    -v N,OPTION , --vendorattribute=N,OPTION - установить параметр для определенного производителем атрибута с идентификатором N

    -F TYPE, --firmwarebug=TYPE - адаптация программы для учета ошибок в аппаратной прошивке накопителя (none, nologdir, samsung, samsung2, samsung3, xerrorlba, swapid)

    -P TYPE, --presets=TYPE - предустановки параметров диска. По умолчанию, обнаружив информацию о накопителе в своей базе, утилита smartctl , использует набор параметров, доступный для данной модели. Опция use - использовать предустановки для данного накопителя, ignore - не использовать, show - отобразить предустановки для данного диска, showall - отобразить предустановки для указанной модели. Примеры:

    smartctl –P ignore /dev/hdb - игнорировать предустановки для диска /dev/hdb;
    smartctl –P show /dev/sdb - отобразить предустановки для указанного диска;
    smartctl –P showall ‘ST9250315AS’ - - отобразить предустановки для указанной модели диска - ST9250315AS;
    smartctl –P showall ‘ST3750515AS’ ‘SD15’ - отобразить предустановки для указанной модели диска ST3750515AS с прошивкой SD15;

    -B [+]FILE, --drivedb=[+]FILE - прочитать и изменить базу данных моделей дисков из файла FILE. Знак “+” перед именем файла, означает добавление новых записей в базу, перед уже существующими.

    По умолчанию, база данных хранится в файле /usr/share/smartmontools/drivedb.h

    DEVICE SELF-TEST OPTIONS =====

    -t TEST, --test=TEST - запустить выполнение теста TEST Run test. TEST: offline, short, long, conveyance, force, vendor,N, select,M-N, pending,N, afterselect,

    -C, --captive - выполнение тестов в режиме захвата накопителя. Используется совместно с параметром -t для тестов не в режиме offline . Использование данного параметра может вызвать занятость устройства на все время выполнения теста и привести к нарушению работы системы и потере данных. Не стоит использовать опцию -c для выполнения тестов накопителей с монтированными разделами. Для SCSI устройств данная опция означает выполнение встроенных тестов в режиме "Foreground mode" .

    -X, --abort - принудительно завершить тест, выполняющийся без ключа --captive .

    Примеры использования smartctrl.

    smartctl --info /dev/sdb - отобразить идентификационную информацию для устройства /dev/sdb. Пример вывода команды:

    === START OF INFORMATION SECTION === Device Model: ST9500620NS Serial Number: 9XF0AW8T Firmware Version: SN01 User Capacity: 500,107,862,016 bytes Device is: Not in smartctl database ATA Version is: 8 ATA Standard is: ATA-8-ACS revision 4 Local Time is: Tue Oct 28 15:05:31 2014 MSK SMART support is: Available - device has SMART capability. SMART support is: Enabled

    smartctl --all /dev/hdа - отобразить все данные SMART для устройства /dev/hda

    Пример отображаемых данных:

    === START OF INFORMATION SECTION === Device Model: ST9500620NS Serial Number: 9XF0AW8T Firmware Version: SN01 User Capacity: 500,107,862,016 bytes Device is: Not in smartctl database ATA Version is: 8 ATA Standard is: ATA-8-ACS revision 4 Local Time is: Tue Oct 28 15:05:45 2014 MSK SMART support is: Available - device has SMART capability. SMART support is: Enabled === START OF READ SMART DATA SECTION === SMART overall-health self-assessment test result: PASSED General SMART Values: Offline data collection status: (0x82) Offline data collection activity was completed without error. Auto Offline Data Collection: Enabled. Self-test execution status: (0) The previous self-test routine completed without error or no self-test has ever been run. Total time to complete Offline data collection: (634) seconds. Offline data collection capabilities: (0x7b) SMART execute Offline immediate. Auto Offline data collection on/off support. Suspend Offline collection upon new command. Offline surface scan supported. Self-test supported. Conveyance Self-test supported. Selective Self-test supported. SMART capabilities: (0x0003) Saves SMART data before entering power-saving mode. Supports SMART auto save timer. Error logging capability: (0x01) Error logging supported. General Purpose Logging supported. Short self-test routine recommended polling time: (1) minutes. Extended self-test routine recommended polling time: (102) minutes. Conveyance self-test routine recommended polling time: (2) minutes. SCT capabilities: (0x10bd) SCT Status supported. SCT Feature Control supported. SCT Data Table supported. SMART Attributes Data Structure revision number: 10 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000f 082 064 044 Pre-fail Always - 190274202 3 Spin_Up_Time 0x0003 096 096 000 Pre-fail Always - 0 4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 72 5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-fail Always - 0 7 Seek_Error_Rate 0x000f 070 060 030 Pre-fail Always - 11302732 9 Power_On_Hours 0x0032 073 073 000 Old_age Always - 24037 10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0 12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 72 184 End-to-End_Error 0x0032 100 100 099 Old_age Always - 0 187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0 188 Command_Timeout 0x0032 100 100 000 Old_age Always - 0 189 High_Fly_Writes 0x003a 100 100 000 Old_age Always - 0 190 Airflow_Temperature_Cel 0x0022 081 048 045 Old_age Always - 19 191 G-Sense_Error_Rate 0x0032 100 100 000 Old_age Always - 0 192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 38 193 Load_Cycle_Count 0x0032 100 100 000 Old_age Always - 73 194 Temperature_Celsius 0x0022 019 052 000 Old_age Always - 19 (0 14 0 0) 195 Hardware_ECC_Recovered 0x001a 118 100 000 Old_age Always - 190274202 197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0 198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0 199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0 SMART Error Log Version: 1 No Errors Logged SMART Self-test log structure revision number 1 No self-tests have been logged. SMART Selective self-test log data structure revision number 1 SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS 1 0 0 Not_testing 2 0 0 Not_testing 3 0 0 Not_testing 4 0 0 Not_testing 5 0 0 Not_testing Selective self-test flags (0x0): After scanning selected spans, do NOT read-scan remainder of disk. If Selective self-test is pending on power-up, resume after 0 minute delay.

    smartctl -A -v 9,minutes /dev/hda - отобразить все данные атрибутов SMART для устройства /dev/hda и атрибут с идентификатором 9 (время нахождения во включенном состоянии) интерпретировать как внутреннее значение, задаваемое в минутах, а не в часах.

    smartctl --smart=on --offlineauto=on --saveauto=on /dev/hda - включить SMART для диска /dev/hda, разрешить автоматическое выполнение оффлайн-тестов и самосохранение атрибутов. Команду можно выполнять на работающей системе. Фактически, это установка стандартных параметров эксплуатации для обычного дискового накопителя.

    smartctl --test=long /dev/hda - выполнить расширенные встроенные тесты для диска /dev/hda.Команду можно использовать на работающей системе. Для просмотра результатов выполнения тестов используется команда вывода внутреннего журнала после завершения теста
    smartctl -l selftest /dev/hda

    smartctl --attributes --log=selftest --quietmode=errorsonly /dev/had - отобразить данные внутреннего журнала самотестирования и атрибуты ошибок.

    smartctl -s on -t offline /dev/hdc - включить SMART и выполнить оффлайн-тест для диска /dev/hdc. Если при тестировании будет обнаружена ошибка, то информация по ней будет записана во внутренний журнал, просмотреть который можно с использованием параметра -l error .

    smartctl -q silent -a /dev/had - проверить данные SMART без вывода полученной информации.Обычно используется в скриптах. После выполнения команды проверяется код возврата (переменная $? командной оболочки)для определения факта выхода значения какого – либо атрибута за предельную величину или наличия записи об ошибках в журналах устройства.

    smartctl -q errorsonly -H -l selftest /dev/had - выводить информацию только при наличии ошибочного состояния SMART или если какой-либо из внутренних тестов завершился с ошибкой.

    smartctl -t select,10-100 -t select,30-300 -t afterselect,on -t pending,45 /dev/hda - выполнить внутренний тест в заданной области блоков LBA и после его завершения сканировать оставшуюся часть диска. Если при сканировании будет выполнено выключение питания, то продолжить его через 45 минут после включения.

    smartctl --all --device=3ware,0 /dev/sda - получить данные SMART для первого ATA-диска, подключенного к RAID контроллеру 3ware.

    smartctl -a -d 3ware,0 /dev/twe0 - получить данные SMART для первого ATA-диска, подключенного к RAID контроллеру 3ware RAID 6000/7000/8000.

    smartctl -a -d 3ware,0 /dev/twa0 - получить данные SMART для первого ATA-диска, подключенного к RAID контроллеру 3ware RAID 9000

    smartctl -t short -d 3ware,3 /dev/sdb - запустить выполнение коротких внутренних тестов для 4-го диска, второго дискового SCSI устройства /dev/sdb

    smartctl -a -d hpt,1/3 /dev/sda - получить данные SMART диска, подключенного к 3-му каналу первого контроллера HighPoint RocketRAID

    Расшифровка атрибутов S.M.A.R.T

    Идентификаторы атрибутов указаны в десятичной системе счисления, а в скобках они же – в шестнадцатеричной.

  • 001 (1h) Raw Read Error Rate - абсолютное значение ошибок считывания. Существует некоторые отличия в формировании значения данного атрибута разными производителями. Из практики могу сказать, что накопители Seagate могут иметь гигантское значение RAW этого атрибута, реально будучи в хорошем состоянии, а накопители Western Digital могут иметь его нулевым, имея критические показатели по другим характеристикам. Некоторые модели вообще не поддерживают данный атрибут.
  • 002 (02h) Throughput Performance - усредненная производительность жесткого диска. Редко встречающийся атрибут.
  • 003 (3h) Spin Up Time - Среднее время раскрутки шпинделя диска от 0 RPM до рабочей скорости. Для SSD дисков не поддерживается.
  • 004 (4h) Start/Stop Count - Количество циклов запуск/останов шпинделя.
  • 005 (5h) Reallocated Sector Count - Количество переназначенных (перераспределенных) секторов. Современные накопители имеют резервную область поверхности для использования ее объема в случае ухудшения характеристик блоков из основной зоны. Если микропрограмма накопителя обнаруживает ошибки с записи/чтения какого-либо блока рабочей поверхности, то запускается механизм, обеспечивающий переадресацию обращений к дефектному блоку (сектору), на блок из резервной части. Он автоматически перемещает его данные в резервную область, а данный блок помечается как "переназначенный". Часто этот процесс называют "remapping", или "automatic defect reassignment". Процедура переназначения сбойных секторов на резервные, выполняется автоматически внутренней микропрограммой накопителя, и для пользователя (операционной системы) она невидима. Сам факт переназначения и количество переназначенных секторов доступны только из журналов SMART. Поле абсолютного значения атрибута Raw Value содержит общее количество переназначенных секторов. Нормализованное значение Value отражает процент допустимого количества дефектных блоков. При исчерпании резервной области, переназначение становится невозможным и диск подлежит замене. Даже некритическое, но большое значение этого поля, может привести к снижению скорости обмена данными, поскольку накопитель выполняет дополнительные операции установки головок на дорожки резервной области, которая обычно находится в конце рабочей поверхности диска.
  • 007 (7h) Seek Error Rate - Частота появления ошибок позиционирования блока магнитных головок (БМГ) . Дисковые накопители контролирует правильность установки головок на требуемую дорожку поверхности. В случае, когда установка выполнилась неверно, фиксируется ошибка и операция повторяется. На практике, большое количество ошибок позиционирования может быть вызвано не только проблемами оборудования, но и влиянием внешних факторов – не соответствующим температурным режимом или вибрацией.
  • 008 (8h) Seek Time Performance
  • 009 (09h) Power-On Hours (POH) Количество рабочих часов - количество часов, когда диск находился во включенном состоянии за весь срок с момента производства, в виде целочисленного значения в часах. Иногда встречаются модели накопителей, в которых внутреннее значение данного атрибута сохраняется в виде количества рабочих минут или секунд, а не часов. Достижение порогового значения данного атрибута означает выработку ресурса, заданного производителем (MTBF - Mean Time Between Failures
  • 010 (0Ah) Spin Retry Count - Количество повторных попыток старта шпинделя. После включения питания, накопитель раскручивает диски и контролирует достижение рабочей скорости вращения, заданной производителем для данной модели. Если за отведенное контрольное время рабочая скорость не достигнута, увеличивается значение данного атрибута и выполняется повторная раскрутка двигателя.
  • 011 (0B) Recalibration Retries - атрибут отражает количество повторных рекалибровок, в случае, если первая попытка была неудачной. Если значение атрибута увеличивается, то велика вероятность проблем с механической частью накопителя. Кроме того, увеличение абсолютного значения данного атрибута может быть вызвано тем, что процедура рекалибровки используется внутренней микропрограммой накопителя для коррекции других типов ошибок.
  • 012 (0Ch) Device Power Cycle Count - абсолютное значение Raw Value указывает на количество циклов включения/выключения питания накопителя за весь период эксплуатации. Нормализованное значение Value обычно не изменяется и равно 100.
  • 013 (0Dh) - Soft Read Error Rate - Количество программных сбоев - совокупное количество программных сбоев. Нормализованное значение: начиная со 100, отображает процент оставшегося допустимого нарастающего количества программных сбоев.
  • 100 (64h) Erase/Program Cycles - количество циклов стирания –записи перепрограммируемой памяти (flash) для SSD-дисков. Количество таких циклов ограниченно и зависит от микросхем постоянной перезаписываемой памяти, используемых в данной модели SSD.
  • 103 (67h) Translation Table Rebuild - количество событий, связанных с разрушением внутренних таблиц транслятора и его перестроением.
  • 170 (AAh)Reserved Block Count - количество доступных резервных блоков для переназначения сбойных секторов (см. атрибут E8h).
  • 171 (ABh) Program Fail Count - ошибки записи в перепрограммируемую память SSD
  • 172 (ACh) Erase Fail Count – ошибки стирания flash-памяти SSD. Процесс записи в перезаписываемую постоянную память состоит из двух частей - стирания и записи. Процедура стирания всегда выполняется перед записью данных.
  • 173 (ADh) Wear Leveller Worst Case Erase Count - максимально допустимое количество операций стирания для единичного блока SSD-диска.
  • 174 (AEh) Unexpected Power Loss - непредвиденное отключение питания для SSD . Также этот показатель называется «Количество аварийных выключений» в терминологии жестких дисков с магнитными носителями. Абсолютное значение Raw Value: совокупное количество нештатных выключений за весь срок использования устройства.
  • 175 (AFh) Program Fail Count – данный атрибут используется в SSD-накопителях производства Intel и отображает информацию о сбоях защиты от отключения питания SSD-дисков. Результаты последнего теста в виде количества микросекунд до разряда конденсатора, фиксируется на максимальном значении. Также записывается количество минут после последнего теста и общее количество тестов за весь срок использования устройства. Необработанное значение Raw Value: Байты 0-1: Результаты последнего теста в виде количества микросекунд до разряда конденсатора, фиксируется на максимальном значении. Результат теста должен быть в диапазоне 25 - 5 000 000, более низкое значение указывает на определенный код ошибки. Байты 2-3: количество минут после последнего текста, фиксируется на максимальном значении. Байты 4-5: количество тестов за весь срок использования устройства, не увеличивается при циклах включения и отключения, фиксируется на максимальном значении. Значение Value устанавливается равным 1 при сбое теста, или 11 при тестировании конденсатора в недопустимых температурных условиях; в противном случае устанавливается равным 100.
  • 183 (B7h) SATA Downshifts - Количество снижений скорости SATA Необработанное значение: количество случаев, когда из-за ошибок для интерфейса SATA была выбрана пониженная скорость передачи данных (с 6 Гб/с до 3Гб/с или 1,5Гб/с или с 3Гб/с. До 1.5Гб/с. Очень часто данный атрибут характеризует недостаточное качество электропитания, окисление контактов интерфейсного кабеля, или его неисправность.
  • 184 (B8h) End-to-End error Количество обнаруженных сквозных ошибок кэш-памяти (disk cache). Абсолютное значение: количество обнаруженных и исправленных оборудованием сквозных ошибок.
  • 187 (BBh) Reported Uncorrectable Errors Количество невосстановимых ошибок. Необработанное значение Raw Value: количество ошибок, которые не удалось исправить с помощью внутренних подпрограмм накопителя.
  • 188 (BCh) Command Timeout - количество команд, прерванных по таймауту.
  • 189 (BDh) High Fly Writes - количество событий, связанных с ошибками, зафиксированными монитором контроля высоты полета Fly Height Monitor, когда головки записи находятся в положении, не гарантирующем нормальное выполнение операции. Если высота полета головки над магнитной поверхностью, даже на короткое время превысит оптимальную, то записанные ею данные, в дальнейшем, могут не прочитаться. Современные накопители используют специально разработанную технологию контроля высоты полета головок, позволяющую не выполнять запись данных при неоптимальной высоте. В счетчик данного атрибута добавляется единица, а запись выполняется после установки нормальной высоты полета. Повышенное значение данного атрибута может быть вызвано внешними ударами или вибрациями, ненормальной температурой, ухудшением характеристик магнитной поверхности или головки.
  • 190 (BEh) Airflow Temperature температура воздушного потока (корпус). Значение Raw Value: статистические данные по температуре корпуса. Байты 0-1: текущая температура корпуса в градусах по Цельсию; байт 2: недавняя минимальная температура корпуса в градусах по Цельсию; байт 3: недавняя максимальная температура корпуса в градусах по Цельсию; байты 4-5: счетчик превышений температуры. Количество случаев, когда зафиксированная температура превышала максимальную допустимую рабочую температуру накопителя.
  • 191 (BFh) G-sense error rate - количество ошибок, возникающих в результате ударных нагрузок. Атрибут хранит показания встроенного акселерометра, который фиксирует все удары, толчки, падения и даже неаккуратную установку диска в корпус компьютера. Обычно довольно точно характеризует условия эксплуатации ноутбуков - большое значение атрибута говорит о резких толчках и падениях при работе устройства.
  • 192 (C0h) Emergency Retract Cycle Count Количество аварийных выключений (количество нештатных выключений) - совокупное количество событий аварийного (нештатного) отключения питания за весь срок использования устройства. Для SSD дисков под «нештатным выключением» понимается отключение питания устройства без предварительной выдачи команды STANDBY IMMEDIATE.
  • 194 (C2h) HDA Temperature - температура самого накопителя (HDA - Hard Disk Assembly). В данном атрибуте хранятся показания встроенного температурного датчика, которым обычно служит одна из магнитных головок (как правило - нижняя). У SSD дисков термодатчик размещается внутри корпуса на печатной плате. Данные, записанные в полях атрибута отображают текущую, минимальную и максимальную температуру. Поле Worst показывает наихудшую, достигнутую за время работы накопителя, температуру (можно установить факт перегрева и его степень), Raw Value - текущую температуру. Некоторые модели накопителей могут поддерживать атрибут 205 (CDh) Thermal asperity rate (TAR), фиксирующий количество опасных перепадов температуры.
  • 195 (C3h) Hardware ECC Recovered - количество ошибок считывания, исправленных оборудованием накопителя с применением кода коррекции ошибок. Подобные ошибки не требуют повторного считывания сектора, и не приводят к потере скорости обмена данными, но большое их количество говорит об ухудшении параметров тракта считывания.
  • 196 (C4h) Reallocation Event Count raw value
  • Поле raw value этого атрибута показывает общее количество секторов, которые накопитель в данный момент считает кандидатами на переназначение в резервную область. Если в дальнейшем какой-то из этих секторов будет прочитан успешно, то он исключается из списка кандидатов. Если же чтение сектора будет сопровождаться ошибками, то накопитель попытается восстановить данные и перенести их в резервную область, а сам сектор пометить как переназначенный (remapped).
  • 198 (C6) Uncorrectable Sector Count - Счетчик некорректируемых ошибок, т.е, счетчик ошибок, которые не были исправлены внутренними средствами коррекции оборудования накопителя. Это означает, что такие ошибки проявляются как классические сбойные блоки файловой системы (Bad Block). Причиной подобных сбоев диска, может быть неисправность отдельных элементов или отсутствие свободных секторов в резервной области диска, когда возникла необходимость переназначения.
  • 199 (C7h) UltraDMA CRC Error Rate - Количество ошибок при передаче данных в режиме прямого доступа к памяти, обнаруженных средствами циклического избыточного кода (англ. Cyclic redundancy check, CRC). Аппаратные средства контроля передачи данных из накопителя в оперативную память обнаружили ошибку контрольной суммы и исправили ее “на лету”, если ошибка исправимая. В данном случае алгоритм обычной работы диска не изменяется. В случае же неисправимой ошибки, процедура ее обработки выполняется системой. Обычно, данный атрибут содержит счетчик любых видов ошибок CRC. Нередко этот тип ошибки связан не столько с оборудованием накопителя, сколько с неисправным интерфейсным кабелем, окислившимися контактами, некачественным электропитанием, разгоном частоты шины PCI, перегревом микросхем чипсета материнской платы и т.п.
  • 200 (C8h) Write Error Rate (Multi Zone Error Rate) - ошибки записи данных.
  • 232 (E8h) Total Count of Write Sectors Для SSD-дисков - количество записанных секторов. Значение Raw Value увеличивается на 1 на каждые 65 536 секторов (32 МБ), записываемых системой. Для SSD Intel - Intel SSD Available Reserved Space - процент доступной резервной области, используемой для переназначения дефектных блоков.
  • 233 (E9h) Power-On Hours - Время работы накопителя. Для SSD-дисков этот атрибут интерпретируется как Remaining Life - указатель износа носителя. Количество циклов работы носителя NAND. Линейно снижается от 100 до 1 по мере увеличения среднего количества циклов стирания от 0 до максимального. Нормализованное значение перестанет уменьшаться после достижения 1, но, по всей вероятности, устройство выдержит значительный дополнительный износ.
  • 241 (F1h) Total LBAs Written - Общее количество записанных секторов LBA. Значение Raw Value: совокупное количество секторов, записанных системой. Значение увеличивается на 1 на каждые 65 536 секторов (32 МБ), записываемых системой.
  • 242 (F2h) Total LBAs Read - Общее количество прочитанных секторов LBA. Значение Raw Value увеличивается на 1 на каждые 65 536 секторов (32 МБ), прочитываемых системой.
  • 254 (FEh) Free Fall Event Count - количество событий ускорения свободного падения диска за время эксплуатации (сколько раз диск падал).

    Оценка технического состояния жесткого диска по данным S.M.A.R.T

    Набор атрибутов поддерживаемых конкретной моделью жесткого диска, даже если он минимален, позволяет с высокой достоверностью определить техническое состояние и перспективы эксплуатации устройства. Можно определить время нахождения во включенном состоянии по значению атрибута 9 , а в совокупности со значением атрибута 12 - количество включений /выключений электропитания, и следовательно, – круглосуточный или периодический режим эксплуатации. Интенсивность использования, температурный режим, негативные внешние воздействия – все эти факты легко отслеживаются по абсолютным значениям соответствующих атрибутов. Подобным же образом, можно оценить и уровень износа оборудования, качество поверхности и тракта записи/чтения.

    Минимально информативный контроль состояния дисков может выполняться даже на уровне BIOS. В случае достижения критического значения любого атрибута, характеризующего работоспособность, при включенном мониторинге состояния S.M.A.R.T в настройках BIOS, загрузка операционной системы приостанавливается и на экран выводится сообщение:

    Primary Master Hard Disk: S.M.A.R.T status BAD!, Backup and Replace.
    Press F1 to Resume

    Таким образом, без установки или запуска дополнительного программного обеспечения, имеется возможность вовремя определить факт критического состояния накопителя средствами Базовой Системы Ввода-Вывода (BIOS) при включении компьютера.

    Техническое состояние жесткого диска, не достигшее критического порога, характеризуется абсолютным значением атрибутов, отражающих счетчики сбоев, обнаруженных и исправленных оборудованием накопителя.

  • 001 (1) Raw Read Error Rate - абсолютное значение ошибок считывания. Существует некоторые отличия в формировании значения данного атрибута разными производителями. На практике, накопители Seagate могут иметь гигантское значение RAW этого атрибута, реально будучи в хорошем состоянии, а накопители Western Digital могут иметь его нулевым, имея критические показатели по другим характеристикам. Некоторые модели вообще могут не поддерживать данный атрибут.
  • 005 (5) Reallocated Sector Count - Количество переназначенных секторов. Ненулевое значение данного счетчика говорит о том, что были обнаружены дефектные блоки, данные которых перенесены в резервную область.
  • 196 (C4) Reallocation Event Count - Число событий переназначения сбойных секторов. В поле raw value данного атрибута хранится общее число попыток переноса данных из нестабильных секторов в резервную область. Учитываются как успешные, так и неуспешные попытки.
  • 197 (C5) Current Pending Sector Count - Текущее количество нестабильных секторов. Поле raw value этого атрибута показывает общее количество секторов, которые накопитель в данный момент считает кандидатами на переназначение в резервную область (remap). Если в дальнейшем какой-то из этих секторов будет прочитан успешно, то он исключается из списка кандидатов. Если же чтение сектора будет сопровождаться ошибками, то накопитель попытается восстановить данные и перенести их в резервную область, а сам сектор пометить как переназначенный (remapped). Если значение атрибутов 5,196,197 увеличивается за короткий промежуток времени (дни, или даже часы), то это является настораживающим признаком – либо ухудшаются технические параметры самого накопителя, либо сказывается влияние внешних воздействий.
  • 007 (07h) Seek Error Rate - Частота появления ошибок позиционирования блока магнитных головок (БМГ). Большое значение говорит о проблемах механизма позиционирования, хотя может быть вызвано и внешними факторами, такими как перегрев или повышенная вибрация.
  • 008 (08h) Seek Time Performance - средняя скорость позиционирования магнитных головок. Если значение атрибута уменьшается (замедление позиционирования), то велика вероятность проблем с механической частью привода головок.
  • 199 (C7) UltraDMA CRC Error Count - Счетчик ошибок, возникших при передаче данных в режиме UltraDMA. Рост абсолютного значения указывает на проблемы при передаче данных контроллером диска в оперативную память. Чаще всего, вызвано плохим кабелем и нестабильным электропитанием.

    Изменение абсолютных значений атрибутов нужно рассматривать в динамике, и в логической взаимосвязи друг с другом.

    Выполнение встроенных тестов S.M.A.R.T

    Набор встроенных тестов S.M.A.R.T определяется производителем и может значительно отличаться для разных моделей жестких дисков. В основном, встроенные тесты SMART представлены короткими тестами (short self-test) и длинными (extended sels-test). Короткие тесты выполняют сканирование небольшой части дисковой поверхности, определенной производителем, и выполняются, в среднем, около 1 минуты. Длинные тесты выполняют сканирование всей рабочей поверхности диска и могут выполняться, в зависимости от быстродействия и объема диска, даже несколько часов. Также, для современных дисков, можно выполнять селективные тесты (selective self-test), параметры которых задаются пользователем и тесты после транспортировки устройства (conveyance self-test). Выполнение тестов можно прервать, если не задан режим захвата накопителя (captive) и накопитель поддерживает команду отмены теста. Что касается режима захвата накопителя при выполнении тестов captive , то пользоваться им нужно осторожно, если диск используется системой.

    Примеры:

    smartctl --test=short /dev/sdb - запустить короткий тест. В ответ на команду, будет выведена информация:

    === START OF OFFLINE IMMEDIATE AND SELF-TEST SECTION === Sending command: "Execute SMART Short self-test routine immediately in off-line mode". Drive command "Execute SMART Short self-test routine immediately in off-line mode" successful. Testing has begun (previous test aborted). Please wait 1 minutes for test to complete. Test will complete after Fri Dec 5 16:08:09 2014 Use smartctl -X to abort test.

    Что означает, что диску отправлена команда на выполнение короткого теста, диск ее воспринял успешно, тест будет продолжаться 1 минуту, и для принудительного его прекращения можно воспользоваться командой smartctl –X.

    Результат выполнения теста можно проверить, просмотрев журнал тестов командой smartctl –l selftest . В ответ будет получена информация журнала selftest :

    === START OF READ SMART DATA SECTION === SMART Self-test log structure revision number 1 Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error # 1 Short offline Completed without error 00% 831 -

    Колонки журнала: Num - номер записи.
    Test_Description - описание теста.
    Status - статус завершения (выполнен без ошибок)
    Remaining - процент оставшегося времени до завершения теста, если он еще не завершен (00%)
    LifeTime(hours) - время работы накопителя с начала эксплуатации.
    LBA_of_first_error - номер логического блока LBA где обнаружена первая ошибка при выполнении теста. В данном примере, ошибок нет.

    Для запуска длинного теста используется команда:

    smartctl --test=long /dev/sdb

    В ответ на команду выводится информация о начале теста:

    === START OF OFFLINE IMMEDIATE AND SELF-TEST SECTION === Sending command: "Execute SMART Extended self-test routine immediately in off-line mode". Drive command "Execute SMART Extended self-test routine immediately in off-line mode" successful. Testing has begun. Please wait 70 minutes for test to complete. Test will complete after Fri Dec 5 17:15:44 2014

    Как видно, длинный тест для данной модели накопителя будет выполняться 70 минут.

    Результат выполнения можно проверить командой smartctl –l selftest /dev/sda

    Список команд ATA для работы с S.M.A.R.T

    SMART_READ_VALUES 0xd0 SMART_READ_THRESHOLDS 0xd1 SMART_AUTOSAVE 0xd2 SMART_SAVE 0xd3 SMART_IMMEDIATE_OFFLINE 0xd4 SMART_READ_LOG_SECTOR 0xd5 SMART_WRITE_LOG_SECTOR 0xd6 SMART_ENABLE 0xd8 SMART_DISABLE 0xd9 SMART_STATUS 0xda SMART_AUTO_OFFLINE 0xdb

    Дополнительно по теме оборудования в Linux: