Rambler's Top100
Статьи ИКС № 05-06 2017
Василий КАЗАКОВ  Денис ХАМИТОВ  Сергей САВЧУК  14 июня 2017

Модернизация ЦОДа: какие ошибки можно (не)совершить?

Модернизация действующего ЦОДа подобна операции на сердце: любое неверное решение может привести к его остановке. Как провести модернизацию с минимальным воздействием на работоспособность дата-центра?

 Денис ХАМИТОВ, технический директор проектов, Huawei
 Василий КАЗАКОВ, главный инженер проектов, Huawei
 Сергей САВЧУК, главный инженер проектов, Huawei

Среди работающих сегодня дата-центров помимо современных площадок, увешанных регалиями Tier, есть ЦОДы, построенные и введенные в эксплуатацию более 10 лет назад. И в ЦОДах-первопроходцах не менее, чем в их молодых «собратьях», стремятся сократить расходы на эксплуатацию. Ни для кого не секрет, что основной потенциал этого сокращения заключается в модернизации и оптимизации систем технологического кондиционирования и электроснабжения.

Почему модернизация нужна

В то время как ИТ-оборудование, заполняющее серверные помещения или машинные залы дата-центров, меняется достаточно регулярно (примерно раз в два-три года), инженерное оборудование остается тем же самым, что было установлено при запуске ЦОДа в эксплуатацию. Однако время не прошло для него бесследно:

  • срок эксплуатации инженерного оборудования подходит к концу;
  • показатели эффективности его работы из-за износа серьезно снижены;
  • покупка ЗИП для него, уже снятых с производства, сильно затруднена.

Иными словами, необходимость замены инженерного оборудования обусловлена его физическим износом и моральным устареванием, а также окончанием сервисной поддержки производителя. Чаще всего инициатором замены выступает служба эксплуатации, для которой ремонт оборудования и замена в нем запчастей становятся трудной или даже невыполнимой задачей.

Еще одна причина модернизации инженерных систем – запрос на увеличение мощности ЦОДа из-за обновления ИТ-оборудования. Согласно закону Мура, вычислительная производительность ИТ-обо­ру­до­ва­ния удваивается каждые 24 месяца. Если ориентироваться только на данный закон, то потребность в наращивании мощности систем электроснабжения и кондиционирования ЦОДов будет возникать очень часто. Но на помощь приходит закон Куми, в соответствии с которым энергоэффективность вычислений удваивается каждые 18 месяцев. Таким образом, при регулярном обновлении ИТ-оборудования необходимость модернизации ЦОДа для увеличения его мощности вдвое возникнет примерно через шесть лет, а с учетом темпов заполнения стоек в машзалах – как раз через 10 лет после ввода объекта в эксплуатацию.

Кроме того, десятилетие назад стандарты в области надежности дата-центров, разрабатываемые Uptime Institute, а также системы сертификации энергоэффективности и экологичности зданий (LEED и BREEAM) не были так широко известны, как сейчас, и почти не применялись. Сегодня же к владельцам серверных и ЦОДов пришло понимание, что низкая надежность и низкая энергоэффективность приносят значительные убытки.

Необходимость повышения надежности отдельной системы или ЦОДа в целом – наиболее важная причина модернизации. Даже кратковременные простои ИТ-оборудования могут повлечь за собой серьезные финансовые потери и репутационный ущерб. Большинство компаний, владеющих ЦОДами, не могут этого допустить.

Низкая энергоэффективность систем электроснабжения, кондиционирования и вентиляции приводит к значительным расходам на оплату электроэнергии. Если за короткий период времени оценить весь масштаб этих затрат довольно сложно, то в долговременной перспективе они слишком заметны, чтобы ничего не предпринимать. Таким образом, через 10 лет эксплуатации потребность в повышении экономичности инженерных систем почти наверняка возникнет.

Столкнувшись с перечисленными проблемами, операторы ЦОДов приходят к выводу, что необходима модернизация. Но сразу же встает вопрос: как ее проводить и в каком объеме. Модернизация может быть разной: эксплуатационной или капитальной, посистемной или комплексной, с остановкой технологических процессов или без нее.

Эксплуатационная модернизация и связанные с ней ошибки

В процессе эксплуатации инженерные системы большинства ЦОДов постоянно подстраивают под решение сиюминутных бизнес-задач. В результате таких преобразований конфигурации инженерных систем и алгоритмы их работы могут измениться до неузнаваемости, с полным разрушением идеологии, по которой они были построены изначально.

Как правило, «хозяйственно-бытовой» подход позволяет быстро и «дешево» решить поставленные задачи, но серия подобных преобразований порождает в дата-центре лавину новых проблем. Ниже описаны только некоторые из таких проблем, возникающие наиболее часто.

Установка ИТ-оборудования без учета направления воздушных потоков в машзале. При обследовании действующих ЦОДов авторы неоднократно встречались с абсурдной ситуацией, когда одно ИТ-оборудование выдувает горячий воздух на вход другого. Вполне естественно, что последнее начинает перегреваться. Чтобы устранить локальный перегрев, принимается решение об организации дополнительного подвода холодного воздуха в зону перегрева. Зачастую это делается путем установки дополнительных вентиляционных решеток (при подфальшпольной схеме распределения холодного воздуха), причем бывает, что решетки размещаются в сформированных ранее горячих коридорах. Нескольких таких горячих точек достаточно, чтобы снизить эффективность охлаждения правильно установленного оборудования и внести сумятицу в работу системы кондиционирования (см., например, рисунок).

Установка дополнительных кондиционеров. Казалось бы, что может быть проще, чем повысить мощность системы кондиционирования ЦОДа путем установки фреоновых кондиционеров дополнительно к уже находящимся в работе. Хозяйственно-бытовой подход четко говорит: «Ставь туда, где есть место, и так будет работать».

В результате бессистемной установки внутренних блоков кондиционеров в машинных залах ЦОДа возникает своеобразный «зоопарк» климатической техники и нарушается существовавшая схема распределения воздушных потоков. Но что особенно важно, нарушается распределение воздушных потоков как у ИТ-обо­ру­дования, так и у наружных блоков. В первом случае возникают трудности с охлаждением ИТ-обо­ру­до­ва­ния, ранее таких проблем не имевшего, во втором же случае снижается холодопроизводительность кондиционеров, и так работавших с полной загрузкой.

Прокладка дополнительных коммуникаций. При наличии в дата-центре фальшпола наиболее быстрый и удобный способ организации дополнительных коммуникаций для оперативных задач – под­фальшпольная прокладка. Службы эксплуатации ЦОДа этой возможностью, конечно, активно пользуются, но, как правило, об отдаленных последствиях никто не задумывается. При подфальшпольном распределении воздуха от кондиционеров коммуникации, проложенные под фальшполом, оказывают существенное влияние на процесс воздухораспределения. Поэтому вы­сокая загруженность подфальшпольного пространства коммуникационным оборудованием может стать серьезным препятствием для нормального охлаждения серверных стоек.

Подключение дополнительного электрооборудования. В процессе эксплуатации довольно часто возникает необходимость подключения нового или замены существующего электрооборудования с внесением изменений в схему электроснабжения. Зачастую мелкие изменения никак не документируются. Через несколько лет после введения ЦОДа в эксплуатацию первоначальная схема электроснабжения перестает быть актуальной. Объективной информацией о положении дел на объекте обладают два-три человека, что сильно мешает качественной эксплуатации и оперативности устранения аварийных ситуаций.

Капитальная модернизация

Чаще всего необходимость в капитальной модернизации возникает, если недостатки дата-центра – низкую отказоустойчивость, не удовлетворяющую требованиям бизнес-процессов заказчика, нехватку мощностей, не позволяющую ему расширить бизнес, или высокие затраты на эксплуатацию – невозможно устранить с помощью эксплуатационной модернизации.

Основная сложность этого вида модернизации состоит в том, что при ее осуществлении затрагивается не одна система, а весь комплекс действующего ЦОДа, и при проведении работ необходимо минимизировать его простой, а порой полностью сохранить работоспособность на всех этапах. Это требует от инженеров глубочайшей проработки схем модернизации, креативного подхода к минимизации воздействия на имеющиеся системы, разработки детальных проектов производства работ (ППР), учитывающих малейшие нюансы, а также хороших коммуникативных навыков и четкого понимания зон ответственности представителей заказчика.

Нужно подчеркнуть, что как бы ни была значительна и важна каждая из инженерных систем ЦОДа, система электроснабжения является самой важной и ответственной. Ведь даже кратковременное пропадание электропитания в ЦОДе приводит к полному отключению ИТ-оборудования и требует последующего восстановления его состояния. Таким образом, квалификация инженеров, работающих с системами электроснабжения действующих ЦОДов, должна быть очень высокой.

Успешность капитальной модернизации, как и любого важного процесса, закладывается на этапе подготовки. Прежде всего необходимо четко определить ее цели. Будет модернизация проводиться только для замены оборудования, для повышения энергоэффективности, надежности или она будет решать все проблемы сразу, нужно определить на самом раннем этапе.

В соответствии с поставленной целью должен быть проведен аудит проектной, исполнительной и эксплуатационной документации, а также самой площадки ЦОДа, что позволит наметить различные пути модернизации и, что не менее важно, выявить скрытые ранее проблемы, которые требуют устранения. Для каждого варианта модернизации должен быть разработан краткий план производства работ, определен бюджет и, возможно, проведено дополнительное обследование на предмет реализуемости плана. На основании этой информации владельцу ЦОДа предстоит выбрать, каким путем идти.

Важная черта проекта модернизации – необходимость разработки большого объема технических решений, так как для каждого решения нужно предусмотреть запасной вариант – на случай возникновения в ходе реализации проблем или форс-мажорных обстоятельств.

Для наглядности рассмотрим два наших проекта.

Модернизация с целью повышения энергоэффективности

В первом проекте заказчик – оператор, эксплуатировавший свой дата-центр почти 10 лет, – пожелал снизить годовые затраты на электроэнергию. Целью аудита стало определение целесообразных мер для снижения энергопотребления инженерной инфраструктуры ЦОДа с минимальными капитальными затратами. Как уже отмечалось выше, помимо ИТ-оборудования самые энергоемкие системы дата-центра – это системы технологического кондиционирования и электроснабжения. Соответственно, для достижения наибольшего эффекта было решено сфокусироваться именно на них.

После проведения аудита этих систем было выявлено, что основными проблемами ЦОДа являются смешанная установка различных типов ИТ-оборудования, отсутствие организованного воздухообмена, поздний переход на фрикулинг и использование устаревшего оборудования с низким КПД.

Смешанная установка разных типов ИТ-обо­ру­до­вания. В одном помещении было установлено оборудование как с пассивным охлаждением, так и с активным, причем активным охлаждением обеспечивались и коммутаторы, и стандартные одноюнитовые серверы, и блейд-серверы. Кроме того, заборы и выбросы воздуха у оборудования одного типа могли сильно отличаться. В результате в одном помещении было размещено оборудование с различными температурными режимами, различными видами охлаждения и различными типами продувки.

Отсутствие организованного воздухообмена. Хаотичная с точки зрения воздухообмена установка оборудования привела к тому, что в помещении фактически отсутствовали горячие и холодные коридоры. Внутристоечная организация воздухообмена также оставляла желать лучшего – в стойках отсутствовали щеточные и гермовводы кабелей, заглушки неиспользуемых юнитов. Двери части стоек с активным оборудованием были глухими, что приводило к значительному перегреву воздуха внутри них и работе вентиляторов ИТ-оборудования на повышенных оборотах.

Поздний переход на фрикулинг. Анализ работы системы холодоснабжения и электроснабжения выявил, что загрузка ИТ-оборудования составляет около 50%, что позволяет использовать избыточную теплообменную поверхность прецизионных кондиционеров, подобранных под 100%-ную загрузку ИТ-обо­ру­до­вания. Однако для этого нужна более высокая температура воздуха на входе в кондиционер, а из-за смешанной установки ИТ-оборудования и неудов­лет­во­рительной организации воздухообмена повысить ее было нельзя.

Устаревшее оборудование с низким КПД. Важной особенностью данной площадки была система питания постоянным током, которая обеспечивала работу основного оборудования ЦОДа. Для этого оборудования использовались отдельные электропитающие установки, подававшие постоянный ток на общую шину питания, откуда питание расходилось по потребителям. Часть оборудования, которая работала от переменного тока, питалась через инверторы. Для обеспечения бесперебойности на общие шины питания были подключены аккумуляторные батареи. Помимо устаревших электропитающих установок и инверторов с низким КПД значительные потери вносили и длинные трассы постоянного тока.

В результате анализа описанных проблем были предложены оптимизация расстановки ИТ-оборудования в стойках и в машинном зале ЦОДа с целью организации горячих и холодных коридоров и локальных зон с различными температурными перепадами, изолирование холодных коридоров путем установки крыши на стойки, повышение температуры рециркуляционного воздуха и температурного графика системы холодо­снабжения с переходом на 100%-ный фрикулинг не при –5°С, а уже при +5°С.

Но дополнительное обсуждение с оператором ЦОДа и повторное обследование показали, что в таком виде решение едва ли возможно реализовать, поскольку из-за технологических ограничений нельзя сформировать горячие и холодные коридоры. А из-за того, что стойки имеют различную высоту и ширину и, кроме того, периодически меняют свое расположение в связи с технологическими процессами, для создания крыши на стойках понадобилась бы сложная опорная конструкция.

Поэтому для изоляции коридоров нужно было более гибкое и универсальное решение. Такое решение было разработано на основе подвесных ПВХ-штор. Оно адаптируется к расположению стоек, типу и особенностям оборудования в них. А анализ стоимости реализации этого решения и последующей эксплуатации показал, что затраты на предложенную модернизацию окупятся уже через год.

К сожалению, модернизация порой требуется не только ЦОДам «преклонного возраста», но и совсем новым.

Модернизация с целью повышения надежности

Во втором проекте оператору сравнительно молодого ЦОДа после года эксплуатации стало ясно, что уровень надежности, обеспечиваемый существующей конфигурацией инженерных систем, не соответствует бизнес-процессам. Схемы холодоснабжения и электроснабжения не давали возможности проводить техническое обслуживание и ремонт без частичной, а иногда и полной остановки ЦОДа.

В ходе предпроектного обследования инженерных систем были выявлены серьезные ошибки монтажа, требующие скорейшего устранения. Но в сложившейся конфигурации для этого понадобилось бы остановить инженерные системы на продолжительный период времени, что было неприемлемо для заказчика.

Поэтому на стадии подготовки проекта основные технические решения по модернизации систем технологического кондиционирования и системы электроснабжения разрабатывались с учетом необходимости создать новые системы, независимые от существующих. Для их реализации был подготовлен детальный план работ.

Было предложено организовать дополнительную, независимую от действующей ветвь электропитания, способную обеспечить 100% нужд ЦОДа. Соответствующие решения предусматривали создание новых вводно-распределительных щитов системы обеспечения электроснабжения, резервных линий, автоматического ввода резерва (АВР) холодильных машин, прогрузочного устройства дизель-генераторной установки системы гарантированного электроснабжения и системы бес­перебойного питания, а также резервного источника питания, щитов распределения питания, статического ввода резерва в существующий щит бесперебойного питания и в ИТ-оборудование, имеющее только один электрический ввод.

Для системы технологического кондиционирования были разработаны решения по созданию полностью независимых фреоновых систем кондиционирования. Во вспомогательные технологические помещения было предложено установить потолочные прецизионные кондиционеры. А для установки межрядных прецизионных кондиционеров в существующие ряды стоек нужно было провести уплотнение ИТ-обо­ру­до­вания с его перемещением в соседние стойки, не заполненные целиком.

Кроме того, поскольку ранее использовалась система кондиционирования с закрытой архитектурой, требовалась реорганизация воздухообмена в помещении ЦОДа. Для этого было предложено создать единое изолированное пространство холодного коридора для существующей и вновь устанавливаемой систем технологического кондиционирования. А для обеспечения работоспособности резервной системы кондиционирования была предусмотрена реконструкция существующей системы кондиционирования с закрытой архитектурой, организованной в двух рядах стоек, путем замены использовавшихся глухих дверей серверных шкафов на перфорированные.

В результате тщательной подготовки и детальной проработки ППР все работы были проведены без воздействия на работоспособность ЦОДа, с одним лишь кратковременным отключением одновводового серверного оборудования, получившего после модернизации статические АВР на вводах. В результате существующие нагрузки ЦОДа были равномерно распределены между прежней и вновь построенной системами электроснабжения. Для двух рядов стоек был создан единый холодный коридор, позволивший повысить эффективность как резервной системы кондиционирования, так и системы кондиционирования, созданной ранее для работы в замкнутой архитектуре. Вновь построенные резервные системы холодоснабжения и электроснабжения дали возможность вывести из работы и отремонтировать обнаруженные при обследовании проблемные участки существующих систем.

* * *

Как мы не раз убеждались, модернизация действующего ЦОДа – значительно более сложный процесс, нежели строительство нового. Он похож на операцию на сердце: любое неверное решение может привести к остановке дата-центра. Поэтому квалификация инженеров, выполняющих модернизацию, должна быть наивысшей. Они должны уметь грамотно анализировать данные, полученные в ходе предпроектного обследования, предугадывать различные варианты развития ситуации и предусматривать действия в форс-мажорных обстоятельствах.

В то же время анализ проблем, обусловивших необходимость модернизации, дает понимание того, какие решения, как и для чего нужно принимать при проектировании новых ЦОДов.  

Поделиться:
Заметили неточность или опечатку в тексте? Выделите её мышкой и нажмите: Ctrl + Enter. Спасибо!