Обновленный Скрипт + Шаблон LLD Для проверки Жестких Дисков HDD SSD через smartmontools

Мониторинг Железа
Датчики температур
Кулера
Диски
Напряжение
и т.д.
ujhjl
Новичок
Сообщения: 14
Стаж: 1 год 9 месяцев

Обновленный Скрипт + Шаблон LLD Для проверки Жестких Дисков HDD SSD через smartmontools

Сообщение ujhjl »

Пример для Linux
./usr/share/bash-completion/completions/smartctl
export PATH="/usr/share/bash-completion/completions/:$PATH"
После проверяем команды для smartmontools


Возможно дать права sudo chmod u+s /usr/sbin/smartctl

Нашел сделал так

export PATH="/usr/share/bash-completion/completions/:$PATH"

Отработала, команда. Но также пусто. Вероятно тут я что то не так делаю.
количество слов: 31
Аватара пользователя
Артём Мамзиков
Admin
Сообщения: 815
Стаж: 5 лет 3 месяца
Откуда: Вологодская область
Поблагодарили: 35 раз
Контактная информация:

Обновленный Скрипт + Шаблон LLD Для проверки Жестких Дисков HDD SSD через smartmontools

Сообщение Артём Мамзиков »

ujhjl, проверяемый узел у тебя Linux или Windows ?
количество слов: 3
Аватара пользователя
Артём Мамзиков
Admin
Сообщения: 815
Стаж: 5 лет 3 месяца
Откуда: Вологодская область
Поблагодарили: 35 раз
Контактная информация:

Обновленный Скрипт + Шаблон LLD Для проверки Жестких Дисков HDD SSD через smartmontools

Сообщение Артём Мамзиков »

ujhjl, тогда что можно попробовать
1. Если заббикс агент работает от пользователя Zabbix
Переходишь в консоль под пользователем заббикс и проверяешь командами что отдаёт Смарт тулс или он ее не видит, если нет смотришь путь куда она установлена и этот путь добавляешь в переменную патч ( будет запускается из любого места) пока переменной нет надо указывать для запуска полный путь к программе и так же у данного пользователя может не хвать прав в тут папку где лежит программа.
Как сделать от Root пример Установка Zabbix Агента на LINUX Запуск Zabbix Agent от Root

2 если заббикс агент работает от root проверяешь как от него команды отрабатывают.

3 если sudo используется и агент работает под пользователем Zabbix его возможно надо добавить в конфиг sudo с нужными параметрами прав. Если sudo не используется команда напрямую от root запускаются убирай везде в начале команд sudo.

Так же команда тебе должно отдавать коды состояния Смарт и их значения , если пусто то в элементах так же ничего не будет обычно это когда raid массивы и аппаратно Смарт не видится обычными программками , только специализированными под данное железо.

В скрипте есть момент system.run["smartctl --scan-open"] | grep "/dev/sd"
он ищет только диски /dev/sd* это будет например sdb sda все что начинается на sd

У каждого диска при ответе на команду должна быть строка что смарт включен "SMART support is" если ее нет скрипт дальше выполнятся не будет и элементы не найдутся.
system.run["smartctl -i /dev/$DISKID"]|grep -E "SMART support is:"
количество слов: 46
Аватара пользователя
Артём Мамзиков
Admin
Сообщения: 815
Стаж: 5 лет 3 месяца
Откуда: Вологодская область
Поблагодарили: 35 раз
Контактная информация:

Обновленный Скрипт + Шаблон LLD Для проверки Жестких Дисков HDD SSD через smartmontools

Сообщение Артём Мамзиков »

Расшифровка атрибутов S.M.A.R.T

Для различных дисков параметры могут отличаться, так же пороговое значения может сильно отличаться. На одном диске 30 000 Хорошо на другом уже плохо!

S.M.A.R.T. - Википедия EN - Больше инфы
S.M.A.R.T. - Википедия русская версия

smartmontools/www/examples/ Примеры для разных дисков
вывод идет с нижним подчеркиванием и длиной 21 символ smartmontools/drivedb.h



SMART диска не пройден
iregexp(PASSED*)}=0
iregexp(FAILED*)}=1

Идентификаторы атрибутов указаны в десятичной системе счисления, а в скобках они же – в шестнадцатеричной.

001 ( 1h ) Raw Read Error Rate - абсолютное значение ошибок считывания. Существует некоторые отличия в формировании значения данного атрибута разными производителями. Из практики могу сказать, что накопители Seagate могут иметь гигантское значение RAW этого атрибута, реально будучи в хорошем состоянии, а накопители Western Digital могут иметь его нулевым, имея критические показатели по другим характеристикам. Некоторые модели вообще не поддерживают данный атрибут.
Ошибки при чтении восстановленные за счет коррекции
last()}>1
Частота ошибок при чтении данных с диска, происхождение которых обусловлено аппаратной частью диска.
Количество ошибок при чтении. У современных дисков очень большая плотность хранения данных, поэтому с ошибками они считывают данные постоянно, а информация восстанавливается за счёт кода коррекции ошибок ECC. Именно эти ошибки и считает этот параметр. В жёстких дисках фирмы Seagate эти некритичные ошибки показываются, остальные производители предпочитают об этом скромно умалчивать. Для дисков Seagate можно считать очень хорошим состояние когда параметры Raw Read Error Rate и Hardware ECC Recovered равны. Это значит что сколько было ошибок столько и было исправлено с помощью кода коррекции. Если же эти значения не равны то всё же не стоит бояться. Это не критичный параметр и диск может прожить ещё годы без каких либо проблем. Для всех дисков Seagate, Samsung (семейства F1 и более новые) и Fujitsu 2,5″ это — число внутренних коррекций данных, проведённых до выдачи в интерфейс, следовательно на пугающе огромные цифры можно реагировать спокойно

002 ( 02h ) Throughput Performance - усредненная производительность жесткого диска. Редко встречающийся атрибут.
Снижение производительности диска
last()}<last(#2)}
Общая производительность диска. Если значение атрибута уменьшается, то велика вероятность, что с диском есть проблемы.

003 ( 3h ) Spin Up Time - Среднее время раскрутки шпинделя диска от 0 RPM до рабочей скорости. Для SSD дисков не поддерживается.
Среднее время раскрутки шпинделя
diff()}=1
Показатель чем ниже▼ тем лучше.(Критичный)
Различие текущего и предыдущего значения.

004 ( 4h ) Start/Stop Count - Количество циклов запуск/останов шпинделя.
Произошел перезапуск диска
last()}>last(#2)}
Полное число циклов запуск-остановка шпинделя. У дисков некоторых производителей (например, Seagate) — счётчик включения режима энергосбережения. В поле raw value хранится общее количество запусков/остановок диска.

005 ( 5h ) Reallocated Sector Count - Количество переназначенных ( перераспределенных) секторов . Современные накопители имеют резервную область поверхности для использования ее объема в случае ухудшения характеристик блоков из основной зоны. Если микропрограмма накопителя обнаруживает ошибки с записи/чтения какого-либо блока рабочей поверхности, то запускается механизм, обеспечивающий переадресацию обращений к дефектному блоку ( сектору ), на блок из резервной части. Он автоматически перемещает его данные в резервную область, а данный блок помечается как "переназначенный". Часто этот процесс называют "remapping", или "automatic defect reassignment". Процедура переназначения сбойных секторов на резервные, выполняется автоматически внутренней микропрограммой накопителя, и для пользователя (операционной системы) она невидима. Сам факт переназначения и количество переназначенных секторов доступны только из журналов SMART. Поле абсолютного значения атрибута Raw Valueсодержит общее количество переназначенных секторов. Нормализованное значение Value отражает процент допустимого количества дефектных блоков. При исчерпании резервной области, переназначение становится невозможным и диск подлежит замене. Даже некритическое, но большое значение этого поля, может привести к снижению скорости обмена данными, поскольку накопитель выполняет дополнительные операции установки головок на дорожки резервной области, которая обычно находится в конце рабочей поверхности диска.
В резервной области диска есть битые сектора
last()}>1
Число операций переназначения секторов. Когда диск обнаруживает ошибку чтения/записи, он помечает сектор «переназначенным» и переносит данные в специально отведённую резервную область. В идеале значение должно ровняться 0. Вот почему на современных жёстких дисках нельзя увидеть bad-блоки — все они спрятаны в переназначенных секторах. Этот процесс называют remapping, а переназначенный сектор — remap. Чем больше raw значение, тем хуже состояние поверхности дисков. Поле raw value содержит общее количество переназначенных секторов.
Рост raw значения этого атрибута может свидетельствовать об ухудшении состояния поверхности блинов диска.
а одних форумах говорят что когда это значение около 10 диск можно уже "готовить к помойке", на других форумах, напротив, говорят что этих запасных секторов на диске несколько тысяч и поэтому даже несколько сотен переназначенных - не повод для беспокойства.

006 (06) Read Channel Margin Запас канала чтения. Назначение этого атрибута не документировано. В современных накопителях не используется.

007 ( 7h ) Seek Error Rate - Частота появления ошибок позиционирования блока магнитных головок (БМГ) . Дисковые накопители контролирует правильность установки головок на требуемую дорожку поверхности. В случае, когда установка выполнилась неверно, фиксируется ошибка и операция повторяется. На практике, большое количество ошибок позиционирования может быть вызвано не только проблемами оборудования, но и влиянием внешних факторов – не соответствующим температурным режимом или вибрацией.
Ошибки при позиционировании блока магнитных головок
last()}>1
Чем их больше, тем хуже состояние механики и/или поверхности жёсткого диска. Накопитель контролирует правильность установки головок на требуемую дорожку поверхности. В случае, когда установка выполнилась неверно, фиксируется ошибка и операция повторяется. Также на значение параметра может повлиять перегрев и внешние вибрации (например, от соседних дисков в корзине).

008 ( 8h ) Seek Time Performance - средняя скорость позиционирования магнитных головок. Если значение атрибута уменьшается (замедление позиционирования), то велика вероятность проблем с механической частью привода головок.
Замедление позиционирования магнитных головок
last()}<last(#2)}

009 (09h) Power-On Hours (POH) Количество рабочих часов - количество часов, когда диск находился во включенном состоянии за весь срок с момента производства, в виде целочисленного значения в часах. Иногда встречаются модели накопителей, в которых внутреннее значение данного атрибута сохраняется в виде количества рабочих минут или секунд, а не часов. Достижение порогового значения данного атрибута означает выработку ресурса, заданного производителем ( MTBF - Mean Time Between Failures
Общее время работы диска более 7 лет
last()}>61320
Число часов (минут, секунд — в зависимости от производителя), проведённых во включенном состоянии. В качестве порогового значения для него выбирается паспортное время наработки на отказ (MTBF — mean time between failure).

010 ( 0Ah ) Spin Retry Count - Количество повторных попыток старта шпинделя. После включения питания, накопитель раскручивает диски и контролирует достижение рабочей скорости вращения, заданной производителем для данной модели . Если за отведенное контрольное время рабочая скорость не достигнута, увеличивается значение данного атрибута и выполняется повторная раскрутка двигателя.
Повторные попытки раскрутки дисков
last()}>3
Число повторных попыток раскрутки шпинделя диска до рабочей скорости в случае, если первая попытка оказалась неудачной. О здоровье диска чаще всего не говорит. Если значение атрибута увеличивается, то велика вероятность неполадок с механической частью. Основные причины увеличения параметра - плохой контакт диска с БП или невозможность БП выдать нужный ток в линию питания диска. В идеале должен быть равен 0. При значении атрибута, равном 1-2, внимания можно не обращать.

011 ( 0B ) Recalibration Retries - атрибут отражает количество повторных рекалибровок, в случае, если первая попытка была неудачной. Если значение атрибута увеличивается, то велика вероятность проблем с механической частью накопителя. Кроме того, увеличение абсолютного значения данного атрибута может быть вызвано тем, что процедура рекалибровки используется внутренней микропрограммой накопителя для коррекции других типов ошибок.

012 ( 0Ch ) Device Power Cycle Count - абсолютное значение Raw Value указывает на количество циклов включения/выключения питания накопителя за весь период эксплуатации. Нормализованное значение Value обычно не изменяется и равно 100.
Получена команда на выключение диска
last()}>last(#2)}
Количество полных циклов включения-выключения диска.

013 ( 0Dh ) - Soft Read Error Rate - Количество программных сбоев - совокупное количество программных сбоев. Нормализованное значение: начиная со 100, отображает процент оставшегося допустимого нарастающего количества программных сбоев.

100 ( 64h ) Erase/Program Cycles - количество циклов стирания –записи перепрограммируемой памяти (flash) для SSD-дисков. Количество таких циклов ограниченно и зависит от микросхем постоянной перезаписываемой памяти, используемых в данной модели SSD.

103 ( 67h ) Translation Table Rebuild - количество событий, связанных с разрушением внутренних таблиц транслятора и его перестроением.

170 ( AAh )Reserved Block Count - количество доступных резервных блоков для переназначения сбойных секторов (см. атрибут E8h).

171 ( ABh ) Program Fail Count - ошибки записи в перепрограммируемую память SSD
SSD- ошибки записи в перепрограммируемую память
.diff()}=1
Различие текущего и предыдущего значения
(Критичный)

172 ( ACh ) Erase Fail Count – ошибки стирания flash-памяти SSD. Процесс записи в перезаписываемую постоянную память состоит из двух частей - стирания и записи. Процедура стирания всегда выполняется перед записью данных.

173 ( ADh ) Wear Leveller Worst Case Erase Count - максимально допустимое количество операций стирания для единичного блока SSD-диска.

174 ( AEh) Unexpected Power Loss - непредвиденное отключение питания для SSD . Также этот показатель называется «Количество аварийных выключений» в терминологии жестких дисков с магнитными носителями. Абсолютное значение Raw Value: совокупное количество нештатных выключений за весь срок использования устройства.

175 ( AFh ) Program Fail Count– данный атрибут используется в SSD-накопителях производства Intel и отображает информацию о сбоях защиты от отключения питания SSD-дисков. Результаты последнего теста в виде количества микросекунд до разряда конденсатора, фиксируется на максимальном значении. Также записывается количество минут после последнего теста и общее количество тестов за весь срок использования устройства. Необработанное значение Raw Value:Байты 0—1: Результаты последнего теста в виде количества микросекунд до разряда конденсатора, фиксируется на максимальном значении. Результат теста должен быть в диапазоне 25 - 5 000 000, более низкое значение указывает на определенный код ошибки. Байты 2—3: количество минут после последнего текста, фиксируется на максимальном значении. Байты 4—5: количество тестов за весь срок использования устройства, не увеличивается при циклах включения и отключения, фиксируется на максимальном значении. Значение Value устанавливается равным 1 при сбое теста, или 11 при тестировании конденсатора в недопустимых температурных условиях; в противном случае устанавливается равным 100.

180 (B4) Unused Reserved Block Count Total - кол-во резервных секторов, доступных для ремапа.

183 ( B7h ) SATA Downshifts - Количество снижений скорости SATA Необработанное значение: количество случаев, когда из-за ошибок для интерфейса SATA была выбрана пониженная скорость передачи данных ( с 6 Гб/с до 3Гб/с или 1,5Гб/с или с 3Гб/с. До 1.5Гб/с. Очень часто данный атрибут характеризует недостаточное качество электропитания, окисление контактов интерфейсного кабеля, или его неисправность.

184 ( B8h ) End-to-End error Количество обнаруженных сквозных ошибок кэш-памяти ( disk cache). Абсолютное значение: количество обнаруженных и исправленных оборудованием сквозных ошибок.
Количество обнаруженных кэш-памяти и исправленных сквозных ошибок
.diff()}=1
Различие текущего и предыдущего значения.
184 Показатель чем ниже▼ тем лучше.(Критичный)
Error Correction Count Количество исправлений ошибок
IO Error Detect Code Count Количество кодов обнаружения ошибок ввода-вывода
IOEDC
Initial Bad Block Count Начальное количество Плохих Блоков
Factory Bad Block Count Заводское Неправильное Количество блоков


185 (B9) Head Stability Стабильность головок (Western Digital)

187 ( BBh ) Reported Uncorrectable Errors Количество невосстановимых ошибок. Необработанное значение Raw Value: количество ошибок, которые не удалось исправить с помощью внутренних подпрограмм накопителя.
Количество невосстановимых ошибок
.diff()}=1
Количество сбоев в исправлении UECC
Показатель чем ниже▼ тем лучше.(Критичный)

Различие текущего и предыдущего значения.

188 ( BCh ) Command Timeout - количество команд, прерванных по таймауту.
количество команд, прерванных по таймауту
.diff()}=1
Показатель чем ниже▼ тем лучше.(Критичный)
Различие текущего и предыдущего значения.

189 ( BDh ) High Fly Writes - количество событий, связанных с ошибками, зафиксированными монитором контроля высоты полета Fly Height Monitor, когда головки записи находятся в положении, не гарантирующем нормальное выполнение операции. Если высота полета головки над магнитной поверхностью, даже на короткое время превысит оптимальную, то записанные ею данные, в дальнейшем, могут не прочитаться. Современные накопители используют специально разработанную технологию контроля высоты полета головок, позволяющую не выполнять запись данных при неоптимальной высоте. В счетчик данного атрибута добавляется единица, а запись выполняется после установки нормальной высоты полета. Повышенное значение данного атрибута может быть вызвано внешними ударами или вибрациями, ненормальной температурой, ухудшением характеристик магнитной поверхности или головки.

190 ( BEh ) Airflow Temperature температура воздушного потока (корпус). Значение Raw Value: статистические данные по температуре корпуса .Байты 0—1: текущая температура корпуса в градусах по Цельсию; байт 2: недавняя минимальная температура корпуса в градусах по Цельсию; байт 3: недавняя максимальная температура корпуса в градусах по Цельсию; байты 4—5: счетчик превышений температуры. Количество случаев, когда зафиксированная температура превышала максимальную допустимую рабочую температуру накопителя.
Высокая температура диска
.last()}>50
Опасная температура диска
.last()}>60
Вообще, разные производители указывают немного разные рабочие диапазоны температур. В целом можно выделить диапазон в 30-45 гр. Цельсия — это самая нормальная температура работы жесткого диска.
Температура в 45 — 52 гр. Цельсия — нежелательна. В целом, поводов для паники нет, но задуматься уже стоит. Обычно, если в зимнее время температура вашего жесткого диска составляет 40-45 гр., то в летнюю жару она может несколько подняться, например, до 50 гр. Стоит, конечно, подумать об охлаждении, но можно обойтись и более простыми вариантами: просто открыть системный блок и направить в него вентилятор (когда жара спадет, поставить все как было). Для ноутбука можно использовать охлаждающую подставку.
Если температура HDD стала больше 55 гр. Цельсия — это повод беспокоиться, так называемая критическая температура! Срок работы жесткого диска снижается при такой температуре на порядок! Т.е. проработает он раза в 2-3 меньше, чем при нормальной (оптимальной) температуре.

191 ( BFh ) G-sense error rate - количество ошибок, возникающих в результате ударных нагрузок. Атрибут хранит показания встроенного акселерометра, который фиксирует все удары, толчки, падения и даже неаккуратную установку диска в корпус компьютера. Обычно довольно точно характеризует условия эксплуатации ноутбуков - большое значение атрибута говорит о резких толчках и падениях при работе устройства.

192 ( C0h ) Emergency Retract Cycle Count Количество аварийных выключений (количество нештатных выключений) - совокупное количество событий аварийного (нештатного) отключения питания за весь срок использования устройства. Для SSD дисков под «нештатным выключением» понимается отключение питания устройства без предварительной выдачи команды STANDBY IMMEDIATE.
Произошло аварийное выключение диска
.last()}>.last(#2)
Число циклов выключений или аварийных отказов (включений/выключений питания накопителя).

193 (C1) Load/Unload Cycle Количество циклов перемещения блока магнитных головок в парковочную зону / в рабочее положение.
Счетчик парковки головок увеличен
.last()}>.last(#2)}
Количество циклов перемещения блока магнитных головок в парковочную зону / в рабочее положение.

194 ( C2h ) HDA Temperature - температура самого накопителя (HDA - Hard Disk Assembly). В данном атрибуте хранятся показания встроенного температурного датчика, которым обычно служит одна из магнитных головок (как правило - нижняя ). У SSD дисков термодатчик размещается внутри корпуса на печатной плате. Данные, записанные в полях атрибута отображают текущую, минимальную и максимальную температуру. Поле Worst показывает наихудшую, достигнутую за время работы накопителя, температуру (можно установить факт перегрева и его степень), Raw Value - текущую температуру. Некоторые модели накопителей могут поддерживать атрибут 205 ( CDh ) Thermal asperity rate (TAR), фиксирующий количество опасных перепадов температуры.
Высокая температура диска
.last()}>50
Вообще, разные производители указывают немного разные рабочие диапазоны температур. В целом можно выделить диапазон в 30-45 гр. Цельсия — это самая нормальная температура работы жесткого диска.
Температура в 45 — 52 гр. Цельсия — нежелательна. В целом, поводов для паники нет, но задуматься уже стоит. Обычно, если в зимнее время температура вашего жесткого диска составляет 40-45 гр., то в летнюю жару она может несколько подняться, например, до 50 гр. Стоит, конечно, подумать об охлаждении, но можно обойтись и более простыми вариантами: просто открыть системный блок и направить в него вентилятор (когда жара спадет, поставить все как было). Для ноутбука можно использовать охлаждающую подставку.
Если температура HDD стала больше 55 гр. Цельсия — это повод беспокоиться, так называемая критическая температура! Срок работы жесткого диска снижается при такой температуре на порядок! Т.е. проработает он раза в 2-3 меньше, чем при нормальной (оптимальной) температуре.

195 ( C3h ) Hardware ECC Recovered - количество ошибок считывания, исправленных оборудованием накопителя с применением кода коррекции ошибок. Подобные ошибки не требуют повторного считывания сектора, и не приводят к потере скорости обмена данными, но большое их количество говорит об ухудшении параметров тракта считывания.
Количество ошибок считывания, -исправленных
.diff()}=1
Различие текущего и предыдущего значения.
Показатель чем ниже▼ тем лучше.(Критичный)

196 ( C4h ) Reallocation Event Count - Число событий переназначения сбойных секторов. В поле raw value данного атрибута хранится общее число попыток переноса данных из нестабильных секторов в резервную область. Учитываются как успешные, так и неуспешные попытки.
Число операций переназначения секторов диска
.last()}>1
Число операций переназначения. В поле «raw value» атрибута хранится общее число попыток переноса информации с переназначенных секторов в резервную область. Учитываются как успешные, так и неуспешные попытки.
Косвенно говорит о здоровье диска. Чем больше значение – тем хуже. Однако, нельзя однозначно судить о здоровье диска по этому параметру, не рассматривая другие атрибуты. Этот атрибут непосредственно связан с атрибутом 05. При росте 196 чаще всего растёт и 05. ... Если атрибут 196 больше атрибута 05, значит, при некоторых операциях переназначения были обнаружены исправленные впоследствии софт-бэды. Учитываются как успешные, так и неуспешные попытки операций переназначения секторов.

197 ( C5 ) Current Pending Sector Count - Текущее количество нестабильных секторов. Поле raw value этого атрибута показывает общее количество секторов, которые накопитель в данный момент считает кандидатами на переназначение в резервную область . Если в дальнейшем какой-то из этих секторов будет прочитан успешно, то он исключается из списка кандидатов. Если же чтение сектора будет сопровождаться ошибками, то накопитель попытается восстановить данные и перенести их в резервную область, а сам сектор пометить как переназначенный (remapped).
Секторы являющиеся кандидатами на замену
.last()}>5
Число секторов, являющихся кандидатами на замену. Они не были ещё определены как плохие, но считывание с них отличается от чтения стабильного сектора, это так называемые подозрительные или нестабильные сектора. В случае успешного последующего прочтения сектора он исключается из числа кандидатов. В случае повторных ошибочных чтений накопитель пытается восстановить его и выполняет операцию переназначения (remapping).
Рост значения этого атрибута может свидетельствовать о физической деградации жёсткого диска.

198 ( C6 ) Uncorrectable Sector Count - Счетчик некорректируемых ошибок, т.е , счетчик ошибок, которые не были исправлены внутренними средствами коррекции оборудования накопителя. Это означает, что такие ошибки проявляются как классические сбойные блоки файловой системы ( Bad Block ). Причиной подобных сбоев диска, может быть неисправность отдельных элементов или отсутствие свободных секторов в резервной области диска, когда возникла необходимость переназначения.
Резервная область диска переполнена
.last()}>1
Это ошибки, которые не были исправлены внутренними средствами коррекции оборудования накопителя. Может быть вызвано неисправностью отдельных элементов или отсутствием свободных секторов в резервной области диска, когда возникла необходимость переназначения.

199 ( C7h ) UltraDMA CRC Error Rate - Количество ошибок при передаче данных в режиме прямого доступа к памяти, обнаруженных средствами циклического избыточного кода (англ. Cyclic redundancy check, CRC). Аппаратные средства контроля передачи данных из накопителя в оперативную память обнаружили ошибку контрольной суммы и исправили ее “на лету”, если ошибка исправимая. В данном случае алгоритм обычной работы диска не изменяется. В случае же неисправимой ошибки, процедура ее обработки выполняется системой. Обычно, данный атрибут содержит счетчик любых видов ошибок CRC. Нередко этот тип ошибки связан не столько с оборудованием накопителя, сколько с неисправным интерфейсным кабелем, окислившимися контактами, некачественным электропитанием, разгоном частоты шины PCI, перегревом микросхем чипсета материнской платы и т.п.
Ошибка при передаче данных по внешнему интерфейсу
.last()}>1
Рост этого атрибута свидетельствует о плохом (мятом, перекрученном) кабеле и плохих контактах. Также подобные ошибки появляются при разгоне шины PCI, сбоях питания, сильных электромагнитных наводках, а иногда и по вине драйвера.
Возможно причина в некачественном шлейфе. Для исправления попробуйте использовать SATA шлейф без защёлок, имеющий плотное соединение с контактами диска.
Ошибки при передаче по интерфейсу и, как следствие, растущее значение атрибута могут приводить к переключению операционной системой режима работы канала, на котором находится накопитель, в режим PIO, что влечёт резкое падение скорости чтения/записи при работе с ним и загрузку процессора до 100% (видно в Диспетчере задач Windows)

200 ( C8h ) Write Error Rate (Multi Zone Error Rate) - ошибки записи данных.

201 (C9) Soft read error rate Частота появления «программных» ошибок при чтении данных с диска. Данный параметр показывает частоту появления ошибок при операциях чтения с поверхности диска по вине программного обеспечения, а не аппаратной части накопителя.
Частота появления «программных» ошибок при чтении данных с диска
.diff()}=1
Различие текущего и предыдущего значения.
Показатель чем ниже▼ тем лучше.(Критичный)

202 (CA) Data Address Mark errors количество адресных данных (DAM) ошибок (или) поставщика.

203 (CB) Run out cancel Количество ошибок ECC.

204 (CC) Soft ECC correction Количество ошибок ECC, скорректированных программным способом.

205 (CD) Thermal asperity rate (TAR) Количество ошибок тепловой неровностей.

206 (CE) Flying height Высота между головкой и поверхностью диска.

207 (CF) Spin high current Величина силы тока при раскрутке диска.

208 (D0) Spin buzz Количество процедур buzz для вращения диска.

209 (D1) Offline seek performance Производительность поиска во время офлайновых операций (Drive’s seek performance during offline operations.)

210(D2) Vibration During Write - вибрация во время записи.

211(D3) Vibration During Write - вибрация во время записи.

212(D4) Shock During Write - удары во время записи.

220 (DC) Disk Shift Дистанция смещения блока дисков относительно шпинделя. В основном возникает из-за удара или падения. Единица измерения неизвестна. При увеличении атрибута диск быстро становится неработоспособным.
Смещения блока дисков относительно шпинделя
diff()}=1
Различие текущего и предыдущего значения.
Показатель чем ниже▼ тем лучше.(Критичный)

221 (DD) G-Sense Error Rate (Mechanical Shock) Число ошибок, возникших из-за внешних нагрузок и ударов. Атрибут хранит показания встроенного датчика удара.

222 (DE) Loaded Hours Время, проведённое блоком магнитных головок между выгрузкой из парковочной области в рабочую область диска и загрузкой блока обратно в парковочную область.

223 (DF) Load/Unload Retry Count Количество новых попыток выгрузок/загрузок блока магнитных головок в/из парковочной области после неудачной попытки.

224 (E0) Load Friction Величина силы трения блока магнитных головок при его выгрузке из парковочной области.

225 (E1) Load Cycle Count Количество циклов перемещения блока магнитных головок в парковочную область.

226 (E2) Load 'In'-time Время, за которое привод выгружает магнитные головки из парковочной области на рабочую поверхность диска.

227 (E3) Torque Amplification Count Количество попыток скомпенсировать вращающий момент.

228 (E4) Power-Off Retract Cycle Количество повторов автоматической парковки блока магнитных головок в результате выключения питания.

230 (E6) GMR Head Amplitude Амплитуда «дрожания» (расстояние повторяющегося перемещения блока магнитных головок).

231 (E7) Temperature Температура жёсткого диска.

232 ( E8h ) Total Count of Write Sectors Для SSD-дисков - количество записанных секторов. Значение Raw Value увеличивается на 1 на каждые 65 536 секторов (32 МБ), записываемых системой. Для SSD Intel - Intel SSD Available Reserved Space - процент доступной резервной области, используемой для переназначения дефектных блоков.

233 ( E9h ) Power-On Hours - Время работы накопителя. Для SSD-дисков этот атрибут интерпретируется как Remaining Life - указатель износа носителя. Количество циклов работы носителя NAND. Линейно снижается от 100 до 1 по мере увеличения среднего количества циклов стирания от 0 до максимального. Нормализованное значение перестанет уменьшаться после достижения 1, но, по всей вероятности, устройство выдержит значительный дополнительный износ.

234 (EA) Количество неисправимых ошибок ECC

240 (F0) Head flying hours Общее время нахождения блока головок в рабочем положении в часах.

241 ( F1h) Total LBAs Written - Общее количество записанных секторов LBA. Значение Raw Value : совокупное количество секторов, записанных системой. Значение увеличивается на 1 на каждые 65 536 секторов (32 МБ), записываемых системой.

242 ( F2h ) Total LBAs Read - Общее количество прочитанных секторов LBA. Значение Raw Value увеличивается на 1 на каждые 65 536 секторов (32 МБ), прочитываемых системой.

250 (FA) Read error retry rate Число ошибок во время чтения жёсткого диска.

254 ( FEh ) Free Fall Event Count - количество событий ускорения свободного падения диска за время эксплуатации ( сколько раз диск падал ).


Оценка технического состояния жесткого диска по данным S.M.A.R.T
70 параметров

Набор атрибутов поддерживаемых конкретной моделью жесткого диска, даже если он минимален, позволяет с высокой достоверностью определить техническое состояние и перспективы эксплуатации устройства. Можно определить время нахождения во включенном состоянии по значению атрибута 9, а в совокупности со значением атрибута 12 - количество включений /выключений электропитания, и следовательно, – круглосуточный или периодический режим эксплуатации. Интенсивность использования, температурный режим, негативные внешние воздействия – все эти факты легко отслеживаются по абсолютным значениям соответствующих атрибутов. Подобным же образом, можно оценить и уровень износа оборудования, качество поверхности и тракта записи/чтения.

Минимально информативный контроль состояния дисков может выполняться даже на уровне BIOS. В случае достижения критического значения любого атрибута, характеризующего работоспособность, при включенном мониторинге состояния S.M.A.R.T в настройках BIOS, загрузка операционной системы приостанавливается и на экран выводится сообщение:
Primary Master Hard Disk: S.M.A.R.T status BAD!, Backup and Replace.
Press F1 to Resume

Таким образом, без установки или запуска дополнительного программного обеспечения, имеется возможность вовремя определить факт критического состояния накопителя средствами Базовой Системы Ввода-Вывода (BIOS) при включении компьютера.

Техническое состояние жесткого диска, не достигшее критического порога, характеризуется абсолютным значением атрибутов, отражающих счетчики сбоев, обнаруженных и исправленных оборудованием накопителя.
001 ( 1 ) Raw Read Error Rate - абсолютное значение ошибок считывания. Существует некоторые отличия в формировании значения данного атрибута разными производителями. На практике, накопители Seagate могут иметь гигантское значение RAW этого атрибута, реально будучи в хорошем состоянии, а накопители Western Digital могут иметь его нулевым, имея критические показатели по другим характеристикам. Некоторые модели вообще могут не поддерживать данный атрибут.

005 ( 5 ) Reallocated Sector Count - Количество переназначенных секторов. Ненулевое значение данного счетчика говорит о том, что были обнаружены дефектные блоки, данные которых перенесены в резервную область.

196 ( C4 ) Reallocation Event Count - Число событий переназначения сбойных секторов. В поле raw value данного атрибута хранится общее число попыток переноса данных из нестабильных секторов в резервную область. Учитываются как успешные, так и неуспешные попытки.

197 ( C5 ) Current Pending Sector Count - Текущее количество нестабильных секторов. Поле raw value этого атрибута показывает общее количество секторов, которые накопитель в данный момент считает кандидатами на переназначение в резервную область (remap). Если в дальнейшем какой-то из этих секторов будет прочитан успешно, то он исключается из списка кандидатов. Если же чтение сектора будет сопровождаться ошибками, то накопитель попытается восстановить данные и перенести их в резервную область, а сам сектор пометить как переназначенный (remapped). Если значение атрибутов 5,196,197 увеличивается за короткий промежуток времени ( дни, или даже часы), то это является настораживающим признаком – либо ухудшаются технические параметры самого накопителя, либо сказывается влияние внешних воздействий.

007 ( 07h ) Seek Error Rate - Частота появления ошибок позиционирования блока магнитных головок (БМГ). Большое значение говорит о проблемах механизма позиционирования, хотя может быть вызвано и внешними факторами, такими как перегрев или повышенная вибрация.

008 ( 08h ) Seek Time Performance - средняя скорость позиционирования магнитных головок. Если значение атрибута уменьшается (замедление позиционирования), то велика вероятность проблем с механической частью привода головок.

199 ( C7 ) UltraDMA CRC Error Count - Счетчик ошибок, возникших при передаче данных в режиме UltraDMA. Рост абсолютного значения указывает на проблемы при передаче данных контроллером диска в оперативную память. Чаще всего, вызвано плохим кабелем и нестабильным электропитание
количество слов: 790
Ответить Вложения 16 Пред. темаСлед. тема

Вернуться в «Аппаратное обеспечение Общее для всех систем»