parafoxer: (foxic)
[personal profile] parafoxer

С утра на почте несколько алертов, накрывается жесткий диск в одной из систем хранения HP P2000 G3 MSA ISCSI\FC.
Сообщения выглядят так:

2015-03-31 02:29:09
A4865
1

A vdisk is critical. (vdisk: vd01, SN: 00c0ff1128430000e8ed7e4f00000000)
Additional Information:

- If the indicated vdisk is RAID 6, it is operating with degraded health due to the failure of two disks.
- If the indicated vdisk is not RAID 6, it is operating with degraded health due to the failure of one disk.

The vdisk is online but cannot tolerate another disk failure.

If a dedicated spare or global spare of the proper type and size is present, that spare is used to automatically reconstruct the vdisk; events 9 and 37 are logged to indicate this. If no usable spare disk is present, but an available disk of the proper type and size is present and the dynamic spares feature is enabled, that disk is used to automatically reconstruct the vdisk; event 37 is logged.

Recommended Action:

- If no spare is present and the dynamic spares feature is disabled (that is, event 37 is NOT logged), configure an available disk as a dedicated spare for the vdisk or replace the failed disk and configure the new disk as a dedicated spare for the vdisk. That spare is used to automatically reconstruct the vdisk; confirm this by checking that events 9 and 37 are logged.
- Otherwise, reconstruction automatically starts and event 37 is logged. Replace the failed disk and configure the replacement as a dedicated or global spare for future use.
- If the replacement disk was previously used in another vdisk and has a status of leftover (LEFTOVR), clear the disk's metadata so you can assign the disk as a spare.
- Confirm that all failed disks have been replaced and that there are sufficient spare disks configured for future use.





2015-03-31 02:29:09
A4863
8

A disk that was part of a vdisk is down. The disk has a possible hardware failure. (vdisk: vd01) (disk: channel: 0, ID: 3, SN: 6XS15F960000B143MBS2, enclosure: 1, slot: 4)




Ситуация удручающая, потому что на данном Vdisk крутится куча виртуальных машин.
Raid 5 выдерживает утерю 1 диска, поэтому надо принимать меры пока есть время.

Итак, если у нас вышел из строя один из дисков нашей системы хранения hp p2000 g3 msa iscsi\fc, то нужно последовательность действий будет такой.

1. Ищем гарантийные бумажки и бумажки на приход (покупка) данных дисков или СХД в целом, если брали укомплектованной и выясняем когда купили этот диск.
Гарантийный срок работы рекомендуемых НР жестких дисков в этой СХД составляет 3 года.
Выдержка из бюллетеня НР

"Service and Support, HP Care Pack, and Warranty Information
Warranty
Three-year limited warranty, parts exchange Next Business day delivery
Enclosures, Hard drives, and Options for the P2000 G3 FC carry their own warranty. Refer to HP's Limited Warranty Statement for more information."

Если вы еще не пользуетесь бюллетенем - вам сюда

http://h71069.www7.hp.com/quickspecs/overview.html

скачиваем hppb_installer exe и вперед (на жестком диске потребуется 12 Гб с обновлениями)

Если вы купили диск более чем 3 года назад - скорее всего он уже не гарантийный.
Окончательно проверить это можно на сайте itrc.hp.com (требуется регистрация).


2. Для работы с сайтом нам будет нужна информация: серийный номер (serial number) и код продукта (part number).
ВНИМАНИЕ. Тут самая засада, ибо посмотртеть это можно только на самом диске. Через веб-интерфейс СХД можно увидеть только информацию ПРОИЗВОДИТЕЛЯ, которым в моем случае например был Seagate (т.е. Seagate делает диски для НР). На сайте для проверки потребуется тот серийный номер (serial number) и код продукта (part number) который этому диску присвоил ВЕНДОР  - то бишь HewlettPackard. Это отстойнейшая засада, придется идти в серверную, доставать диск и пеерписывать эту лабуду на бумажку.

Наглядно - вот какие данные мы видим в веб-морде СХД (серийник подчеркнут красным, а такого параметра как код продукта нет вообще, а вот вендором уже указан НР):

И вот результат проверки на сайте (серийник подчеркнут красным, это все тот же диск, что на картинке выше). Я списал серийник достав диск из СХД.

Обычно правильный серийный номер указан не на белой наклейке на лицевой стороне диска, НЕТ. Там вы найдете не менее 3 разных ПН и СН, но это все не то.
ПРАВИЛЬНЫЙ серийник указан на маленькой пластиковой наклеечке наклееной на эту белую, основную наклейку.
Вот пример из 2016 года (опять сдох диск)



ДА, это пиздец товарищи. Это ХулеПакард.

ВНИМАНИЕ! C 2016 года опять какая-то лабуда с сайтом HP. Теперь получается проверить статус гарантии только на сайте продуктов Enterprise (т.е. это продукты для промышленного использования - серверы, СХД и т.п., а не ноутбуки, принтеры бытовые и пр.)
Это тут - https://www.hpe.com/ru/ru/home.html.
Далее выполняем вход https://www.hpe.com/ru/ru/login.html (Если нет логина - придется создать)
Далее выбираем Customers \ Поддержка продукта и драйверы
https://www.hpe.com/ru/ru/support.html
http://h20565.www2.hpe.com/portal/site/hpsc - для систем хранения
Вот так выглядит ссылка запроса на поиск статуса гарантии диска
http://h20565.www2.hpe.com/portal/site/hpsc/public/psi/home/?sp4ts.oid=3687149&sp4ts.sn=SGN342K0PC&sp4ts.pn=C8S59A
возможно прокатит, если заменить sn и убрать все, что после него (да, прокатит)
КСТАТИ, тот самый требуемый PN вообще нигде не значится такой, какой выставился в строке запроса))))

(если нет логина - создаем)



3. Итак в моем случае гарантия уже истекла, а значит надо отправляться к представителю НР и покупать диск примерно за 90 000 рублей. Такое вот дорогое серверное оборудование, спасибо путену. К счастью, когда закупали СХД, купили два запасных диска, и я просто поставил взамен вышедшего из строя новый.
4. Если ваш диск гарантийный - все на том же сайте, где проверяли статус гарантии открываем заявку на поддержку и просим заменить диск. Уже не помню там всех деталей, но вроде бы просто надо будет указать все параметры устройства. Если не прокатывает - тупо звоним продавцу, пишем письмо с указанием всех параметров и просим продавца-представителя связаться с НР по поводу гарантии, обычно у них контакт плотный.





5. Допустим нам привезли диск, что с ним делать? Вставляем на место вышедшего из строя и выполняем следующие действия для активации его в качестве spare (запасного). Логика такая - добавляем диск как запасной к системе, которая больше не является отказоустойчивой  (RAID5 без одного диска в нашем случае). Система видит диск, инициализирует его работу как запасного, потом начинает перестроение Vdisk'a для того, чтобы он снова стал отказоустойчивым.

Наглядно это выглядит так:

0) вставляем новый диск в СХД взамен вышедшего из строя
1) открываем меню добавления диска



2) добавляем назначенный запасной диск в консоли управления СХД




3) ждем когда завершится реконструкция. ГЛАВНОЕ - не делать резких движений. Дожидаемся завершения операции, только потом уже начинаем переживать а чего же не гаснет алерт. По опыту знаю, как админы начинают нервничать и запускать всякие операции какие только могут припомнить, вплоть до пересборки RAID. Надо просто ЖДАТЬ.

Date: 2015-03-31 11:50 am (UTC)
From: [identity profile] newmix.livejournal.com
Добрый день
...потом снимаем плату электроники диска, а там контактная группа которая на головку идет, покрыта окислами, аж черная.
На proliant-ах 380 G7 уже не первый диск меняем, благо пока на гарантии.
Взял за моду по возможности оставлять по 2 диска на hot spare в массиве (сервере)
А вот на полке MSA 2040 после инсталляции, через 12 часов сдох один из FC контроллеров. Особенно доставил тот момент, что с НР позвонили поинтересоваться как их инженер помог поменять контроллер, когда прошло 2 месяца со времени нашей самостоятельной замены ;)
На 2000 сдохли обе флешки в контрорллерах, тоже меняется вместе с контроллерами.
Вообщем гарантия хорошо но чего то качество последнее время оставляет желать... ;)

Date: 2015-03-31 11:54 am (UTC)
From: [identity profile] parafoxer.livejournal.com
Согласен, тоже в контроллерах меняли флешку почти сразу после покупки

Profile

parafoxer: (Default)
parafoxer

February 2017

S M T W T F S
   12 3 4
56789 10 11
1213 1415161718
19202122232425
262728    

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Oct. 20th, 2017 12:11 pm
Powered by Dreamwidth Studios