Verificar Saúde do Disco

Algo que acontece com frequência nos firewalls com hardware de baixo custo é a deterioração da saúde de discos SSD. Discos mecânicos sobrevivem por mais tempo, mas os SSD’s precisam de um cuidado a mais para não te pegar desprevenido.

Resumo

Para monitorar a saúde dos discos, iremos usar o plugin os-smart que vai disponibilizar tanto a interface gráfica para chegar manualmente a saúde dos discos, quanto as ferramentas de linha de comandos que vão permitir automatizar a verificação e alertas caso algo a saúde do disco esteja fora dos valores adequados.

Instalando o Plugin os-smart

Acesse o menu System → Firmware → Plugins.
Marque a opção Show community plugins.
Instale o plugin community os-smart.
Pressionar F5 para atualizar a página e exibir o novo menu da ferramenta que passa a ficar em Services → SMART.

Verificando a compatibilidade do disco com o S.M.A.R.T

Acesse o menu Services → SMART.
Na seção Info, selecione o Info Type como Info, selecione o disco e clique no botão View.
A mensagem “SMART support is: Enabled” indica que o software de verificação é compatível com o disco.

Verificando a saúde atual do disco

Acesse o menu Services → SMART.
Na seção Info, selecione o Info Type como Health, selecione o disco e clique no botão View.
A mensagem “test result: Passed” indica que o disco está saudável dentro do esperado.

Realizando uma verificação curta do disco

Acesse o menu Services → SMART.
Na seção Perform Self-tests, selecione a opção Short e clique no botão Test.
Aguarde entre 2 e 3 minutos para finalizar o teste.
Assim que o der o tempo de finalizar o teste, vá até a seção View Logs, marque a opção Self-test e clique no botão View.

O resultado deverá exibir que o teste foi realizado com sucesso (Remaining 00%) e também deverá trazer a quantidade em horas de uso do disco (LifeTime/hours).

Consultando as informações S.M.A.R.T detalhadas

Acesse o menu Services → SMART.

Na seção Info, selecione o Info Type como Attributes, selecione o disco e clique no botão View.

Apesar de aparecer diversas opções em inglês, aqui temos uma descrição das linhas que você deve prestar atenção para entender a saúde do disco:

Atributos mais importantes a observar

Reallocated_Sector_Ct (ID 5)
- O que é: Quantidade de setores defeituosos realocados para a área de reserva do disco.
- Situação atual: 0 → Excelente, nenhum setor foi remapeado.
- Por que importa: Valores acima de zero indicam que o disco já encontrou setores defeituosos e precisou realocá-los. Tendência crescente é um sinal claro de degradação física.
Reallocated_Event_Count (ID 196)
- O que é: Número de eventos de realocação de setores (não apenas o total de setores).
- Situação atual: 0 → Nenhum evento de realocação.
- Importância: Se começar a subir, significa que setores estão sendo substituídos por reservas, o que é sinal de desgaste.
Current_Pending_Sector (ID 197)
- O que é: Setores instáveis que aguardam regravação para confirmar se são utilizáveis.
- Situação atual: 0 → Nenhum setor pendente.
- Por que importa: Qualquer valor >0 pode indicar risco iminente de perda de dados, especialmente se aumentar rapidamente.
Offline_Uncorrectable (ID 198)
- O que é: Número de setores com erros irrecuperáveis encontrados em verificações offline.
- Situação atual: 0 → Nenhum erro irrecuperável.
- Importância: Valores positivos significam que dados em alguns setores não podem mais ser lidos.
UDMA_CRC_Error_Count (ID 199)
- O que é: Erros de comunicação entre disco e controlador, normalmente causados por cabos ou conexões ruins.
- Situação atual: 0 → Sem erros de comunicação.
- Por que importa: Um aumento repentino pode não significar desgaste do disco, mas sim problemas de cabeamento ou interface.
Temperature_Celsius (ID 194)
- O que é: Temperatura atual do disco em °C.
- Situação atual: 40°C → Dentro da faixa segura (geralmente até ~50°C para HDDs e ~70°C para SSDs).
- Por que importa: Temperaturas consistentemente altas aceleram desgaste e aumentam o risco de falhas.
Power_On_Hours (ID 9)
- O que é: Quantidade de horas de uso do disco.
- Situação atual: 434 horas (~18 dias ligados) → Muito baixo, disco relativamente novo.
- Por que importa: Quanto mais próximo do fim da vida útil nominal, maior a chance de falhas.
Atributos relacionados a desgaste de SSD (como 177, 178, 232)
- Situação atual: Todos no valor ideal (0 ou 100).
- Por que importa: Mostram consumo de blocos de reserva e ciclos de desgaste. Valores baixos em “Available_Reservd_Space” ou altos em “Used_Rsvd_Blk_Cnt” indicam fim de vida útil.