История одной СХД: решение сложного инцидента

В компанию АСПЕКТ-СЕТИ обратилось профильное подразделение крупного системообразующего производственного предприятия Кировской области с технической проблемой: после аварийного отключения электроснабжения стал недоступен критически важный массив данных на системе хранения.

Казалось бы, что может пойти не так, ведь все предусмотрено для надежной работы: отдельная серверная с двумя вводами электропитания и системой кондиционирования, источник бесперебойного питания (ИБП), система хранения данных (СХД) с полным резервированием. И всё же инцидент произошел.

Инфраструктура хранения данных Заказчика

  • Аппаратная база: отдельное серверное помещение оснащено системами кондиционирования воздуха и защиты электропитания с двумя независимыми вводами от разных подстанций и запасом по времени работы.
  • Логическая архитектура: реализовано разделение вычислительных мощностей и хранилища. Прикладные сервисы функционируют в виртуальных средах на серверах, в то время как сами виртуальные машины и их данные размещаются на СХД.
  • Отказоустойчивость СХД: сама система хранения данных конструктивно обеспечивает дублирование ключевых компонентов: контроллеров, блоков питания и системы охлаждения.

Цепочка событий: как совпадения привели к неисправности

К аварийной ситуации привело стечение нескольких факторов, каждый из которых по отдельности не мог вызвать проблем, но в совокупности создали «идеальный шторм».

Плановые работы на сети электропитания в ночное время - рядовая ситуация, есть АВР (автоматический ввод резерва): если нет питания с основного ввода переключаемся на резервный. Но тут ситуация выходит из-под контроля, выпадает «зеро»: АВР заклинивает в промежуточном состоянии, нет ни основного ввода ни резервного. Нагрузка падает на ИБП. На первый взгляд все отлично, ведь системы продолжают работать штатно: выполняется резервное копирование, обслуживание баз данных.

СМС информирование рассылает уведомления ИТ персоналу, но ночью они остаются непрочитанными. Никто не в курсе, что кондиционеры не работают, температура растет, система работает исключительно на аккумуляторах и сколько времени она еще протянет, неизвестно.

Наступает момент полного разряда АКБ (аккумуляторных батарей), и вся нагрузка обесточивается в самый неподходящий момент активного использования СХД.

Результаты первичной диагностики и характер неисправности

Аварийное отключение питания во время интенсивной записи данных привело к сбою логической конфигурации. Тома хранения стали недоступны, а стандартные средства администрирования (веб-интерфейс, SSH, COM-порт) не позволяли восстановить работоспособность системы.

Первичная диагностика показала, что на аппаратном уровне все компоненты СХД (блоки питания, диски, контроллеры, резервные батареи) полностью исправны. Журналы событий были сохранены. Однако при проверке логических дисков было выявлено, что у одного из томов отсутствует информация о таблице разделов. Таким образом, проблема носила программно-логический характер, требующий сложного восстановления конфигурации.

2225112.jpg

Решение: многоступенчатая операция по восстановлению

Представительство производителя и авторизованные сервисные центры с обученными инженерами на территории Российской Федерации на момент обращения отсутствуют, что усложнило потенциальную процедуру восстановления. В условиях санкционных ограничений, когда прямая сервисная поддержка зарубежного вендора недоступна, восстановление данных потребовало нестандартного подхода и сложной многоступенчатой операции с привлечением инженеров производителя.

Перед началом работ стороны подписали соглашение о конфиденциальности, после чего Заказчик передал в сервисный центр партнера комплект оборудования, включающий саму неисправную СХД и сервер, к которому она была подключена. Углубленная диагностика инженерами-экспертами АСПЕКТ-СЕТИ в лабораторных условиях подтвердила версию о логическом, а не физическом сбое. Для оценки шансов на успех и выработки стратегии был привлечен департамент технической поддержки производителя оборудования, территориально расположенный за рубежом, что потребовало учета разницы в часовых поясах (8 часов) при планировании совместных работ.

На базе ЦОД группы АСПЕКТ СПб была развернута изолированная лаборатория: создана виртуальная и аппаратная инфраструктура с выделенным каналом в Интернет для удаленного подключения инженеров техподдержки производителя, а также подготовлены две специализированные виртуальные машины — одна для управления контроллерами СХД через физическую консоль, вторая — для снятия дампов данных с логических разделов.

Сам процесс восстановления представлял собой ювелирную работу:

  • Обновление микрокода: первым шагом стала установка специальной сервисной прошивки на контроллер СХД, что дало низкоуровневый доступ к системе.
  • Ручное восстановление конфигурации: инженеры, используя отладочный режим, шаг за шагом восстановили конфигурацию логических устройств до состояния, предшествовавшего выходу из строя.
  • Снятие копий и миграция: после того как доступ к данным был частично восстановлен, с них были сняты посекторные копии. Для ускорения процесса к лабораторному стенду подключен родной сервер Заказчика, что дало полный доступ к виртуальным дискам (VMDK).
  • Передача данных: средствами VMware критически важные данные виртуальных машин были перенесены на мобильное временное хранилище iSCSI и переданы владельцу.
  • Финализация: После получения подтверждения об успешном восстановлении работоспособности сервисов, сервисная прошивка на контроллерах СХД была заменена на актуальную штатную версию. Сама СХД была проинициализирована, и комплект оборудования возвращен владельцу в работоспособном состоянии.

Благодаря совместным усилиям Заказчик полностью восстановил работу системы хранения данных и обеспечил штатный доступ профильным службам к ресурсам информационных систем в кратчайшие сроки.

Упреждение: как не допустить повторения

Основной урок инцидента — надежда только на аппаратную избыточность недостаточна. Базовые рекомендации, такие как контроль работы агентов ИБП на серверах, регулярная проверка системы резервного копирования и проведение учебных восстановлений СХД, являются основой надежной эксплуатации любой критической инфраструктуры.

Однако для максимальной защиты этого недостаточно — требуются дополнительные, усиленные меры контроля, которые позволят выявить проблему до того, как она приведет к простою:

  • Многослойный мониторинг инженерных систем: недостаточно просто выводить информацию о состоянии кондиционеров и питания на пульт охраны — это создает риск несвоевременного обнаружения проблемы. Необходимо дублирование каналов передачи данных и получателей информации и сигналов опасности. Сигнал о критических событиях должен поступать одновременно и дежурному персоналу, и в ИТ-отдел, и, например, в систему диспетчеризации предприятия. Это создает независимый уровень контроля, не зависящий от конкретного дежурного или отдела.
  • Надежная автономная система оповещения о критических событиях по каналам GSM не зависящая от основного электропитания, с возможностью голосового вызова и озвучивания заранее записанных речевых сообщений об аварийных ситуациях.
  • Внедрение профессиональных систем резервного копирования: использование современного ПО с интуитивно понятным интерфейсом позволяет исключить «человеческий фактор» при настройке заданий. Наличие наглядных дашбордов и консолидированных отчетов, доступных для разных уровней управления (от технических специалистов до руководителей), гарантирует, что проблемы с квотами, носителями или расписанием будут замечены на ранней стадии. Настроенная система оповещений о событиях резервного копирования должна дублироваться по различным каналам связи.

Реализация этих рекомендаций позволит предприятию выстроить по-настоящему отказоустойчивую систему хранения и обработки данных, минимизирующую риски даже в условиях сложных инцидентов в инфраструктуре и отсутствия прямой поддержки производителя.