Как добиться бесперебойной работы серверов?

В эпоху цифровой трансформации роль дата-центров становится всё более значимой. Для таких компаний, как ATLEX, которые занимаются предоставлением услуг хостинга и аренды серверов, бесперебойная работа серверной инфраструктуры является критически важной. Мы приглашаем вас ознакомиться с эксклюзивным интервью с Иваном Борщёвым, руководителем технической службы ATLEX в ЦОДе DataPro. Анна Никулина, контент-менеджер компании, выяснила, какие секреты и практики используются для обеспечения надёжной работы серверов.

Анна Никулина: Иван, спасибо, что согласились на интервью. Для начала расскажите, пожалуйста, каковы основные факторы, влияющие на бесперебойную работу серверов в ЦОДе?

Иван Борщёв: Спасибо за приглашение, Анна. Главные факторы здесь – это надёжность электропитания, качественное охлаждение и постоянный мониторинг состояния оборудования. И, конечно, магия. Честно говоря, нужно было бы ещё добавить кофе и отсутствие полнолуний – всё это помогает держать сервера в тонусе. (Смеётся.)

Кроме того, в разрезе вопроса бесперебойной работы серверов следует упомянуть и физическую их безопасность, а именно: круглосуточная охрана, видеонаблюдение и строгая система контроля и управления доступом.

Многие инженеры говорят, что резервные системы – это основа бесперебойной работы. Разделяете ли вы это мнение и если да, то какие резервные механизмы предусмотрены у нас?

Основная идея здесь – не полагаться на удачу. Желательно предусматривать несколько уровней резервирования: начиная от дополнительных источников питания до резервных интернет-каналов. Такой подход позволяет быстро реагировать на любые непредвиденные ситуации и подменять временно вышедшие из строя ресурсы резервными. Например, два независимых ввода электроэнергии, дублированные интернет-каналы и резервные маршрутизаторы.

Кроме того, говоря о резервах не лишним будет упомянуть и собственно серверное оборудование. В частности, наличие у хостинг-провайдера склада запчастей к серверам позволяет серьёзно сократить время аварийных простоев. Такой склад также может предлагаться к использованию и клиентам, размещающим в дата-центре собственные серверы.

А каковы основные предосторожности, которые следует соблюдать для предотвращения, например, перегрева оборудования?

Ну, если начинать с азов, то напрашивается первейшая вещь, а именно — следить за температурой. Инженеры должны постоянно контролировать состояние системы и регулировать мощность охлаждения.

В нашем случае в дата-центре используется модульная система охлаждения EcoBreeze с системой прецизионных кондиционеров, которые больше подходят для серверных нужд, нежели кондиционеры комфортного типа. Мы постоянно мониторим температуру и влажность, чтобы наши серверы не начали чувствовать себя как в сауне, так что в плане перегревов серверы защищены по полной программе.

Ещё важно правильно размещать оборудование, чтобы скоординировать и обеспечить правильное движение воздушных потоков во избежание перегрева.

Как именно проходит процесс мониторинга системы и реагирования на возможные сбои?

Любую неисправность важно фиксировать на самых ранних стадиях, чтобы минимизировать её влияние, поэтому важно использовать автоматизированные системы мониторинга, которые смогут информировать о любых изменениях или неисправностях. Это похоже на сигнализацию: как только что-то идёт не так, сразу срабатывает оповещение.

К отработке данных оповещения должны быть готовы оперативные сотрудники, которые мгновенно обязаны приступить к диагностике и исправлению ситуации. Инженеры, круглосуточно находящиеся непосредственно в самом здании дата-центра, а не где-нибудь в отдельном офисе, позволяют сократить время реагирования до минимума. Используемые же протоколы готовых решений, выработанные за годы, позволяют ещё больше сократить время реакции.

Иван, в вашей практике были моменты, когда стандартные протоколы не помогали? Если да, то как в таких случаях решаются проблемы?

Да, несмотря на всю подготовленность, неожиданности случаются. В таких случаях на первый план выходит опыт и быстрая реакция команды. Бывает, что к решению проблемы приходится подходить творчески — быстро искать временные решения и сразу же работать над постоянными. Заранее выстроенные процессы коммуникации и высокий уровень технической подготовки инженеров и системных администраторов при таком «коллективном разуме» играют главную роль, чтобы любые задачи в итоге нашли свои решения. Опыт же, который приобретается в таких ситуациях, в итоге дополняет собой существующие протоколы.

Какие новые технологии ATLEX рассматривает для улучшения устойчивости и эффективности работы серверов?

Когда говорят о технологиях и их новизне, учитывая скорость их развития, желательно уточнять периоды и тренды, которые имеются в виду. Например, виртуализация и облачные технологии в целом помогают в вопросах гибкого распределения ресурсов, но внутри самой области постоянно умирают и рождаются новые направления, так что о каком-то конкретном решении имеет смысл говорить для конкретных ситуаций.

В общем же нужно просто держать руку на пульсе текущих тенденций и стараться им соответствовать. Сейчас резонанс не утихает вокруг нейросетей и искусственного интеллекта. Мы также исследуем использование AI в качестве разнообразных помощников, чтобы предугадывать проблемы до того, как они станут большими неприятностями и оптимизировать некоторые направления.

Благодарю вас, Иван, за столь детальный разговор. Есть ли что-то, что вы хотели бы добавить в заключение?

Спасибо, Анна. Пожалуй только хочется отметить, что успех в нашей сфере зависит не только от технологий и протоколов, но и в большой степени от командной работы.

Большое спасибо за интервью, Иван. Желаю успехов всей команде!

Успехов и вам в вашей работе!