Сегодня от организаций требуется обеспечить более высокий уровень удовлетворенности клиентов их онлайн-услугами. Однако многие из них вынуждены поддерживать эти инициативы с помощью подхода, основанного на прерывании работы, поскольку они реагируют на поломки, чтобы устранить их. Однако для более проактивного подхода и управления ожидаемыми высокими уровнями SLA организации могут сократить количество незапланированных простоев, внедрив модель непрерывной доставки (CD) в разработку.
В качестве отправной точки организациям необходим контроль и видимость их среды DevOps путем сбора и инструментации всего. Учитывая объемы данных, для большинства организаций это может стать непреодолимой проблемой. Чтобы начать работу, следуйте этим пяти лучшим практикам для эффективного и быстрого мониторинга измеримым и масштабируемым способом.
-
1.
Собирайте данные
Вы не можете управлять тем, что не измеряете! Важно провести инвентаризацию того, что собирается сегодня, и согласовать ее с бизнес- и исполнительными командами для совместной работы над целью предоставляемых услуг. Проанализируйте собранные метрики с помощью таких вопросов, как: «Почему мы не собираем эти показатели? Как это согласуется с нашими целями? Наблюдался ли когда-нибудь провал в X? Как часто мы должны это измерять? Как долго мы должны это хранить? Важно ли это?». Команды также должны оценить, как они собирают информацию, и рассмотреть лучший архитектурный подход к сбору метрик, включая то, какие методы сбора данных лучше — «тянущие», «толкающие» или «притягивающие». После того, как цели понятны, а перечень данных собран, посмотрите, что еще стоит рассмотреть организации для сбора данных.
-
2.
Корреляция и сортировка
Корреляция данных необходима для их понимания, но данные поступают с разной частотой, в разные сроки и из разных источников. Проведите работу по нормализации данных для их понимания, выполните сравнение с различными входящими метриками и установите базовые показатели доступности основных сервисов. Поскольку организации стремятся выйти за рамки базовых соглашений об уровне обслуживания (SLA) и предложить высокопроизводительное решение, постоянно задавайте вопрос о том, чего не хватает организации с точки зрения данных и как это связано с бизнес-инициативами. Задавать этот вопрос с точки зрения сбора, корреляции и сортировки данных крайне важно.
-
3.
Выявление трендов
Организациям необходимо изучить исторические данные, чтобы выявить тенденции и принять меры до возникновения проблем и жалоб клиентов. Установите пороги оповещения, определив, как выглядит обычный день с точки зрения производительности и клиентов, а затем определите примеры того, что является ненормальным днем. Это связано с управлением инвентаризацией инфраструктуры и пониманием порогов безопасности для каждого из компонентов, которые потенциально могут повлиять на сервисы. Очень важно донести эти выводы до команд и руководителей бизнес-линий, чтобы предотвратить возникновение проблем с доступностью сервисов и оптимизировать их на основе выявленных тенденций.
-
4.
Уведомления и автоматизация
В ручном режиме уведомление доставляется, а затем команда реагирует. Но команды постоянно подталкивают к тому, чтобы делать все быстрее, и автоматизация может помочь в этом. Чтобы достичь этой точки, организации должны понять, где лучше всего добавить больше автоматизации. Как собрать правильную телеметрию, обеспечивающую последовательные ответы, на основе которых машина может оперировать правилами, и использовать ли автоматизированный процесс или уведомить человека? Стремление ускорить процесс требует перехода от ручных методов к автоматизированным.
-
5.
Прогнозирование
Если вы не уделите время методичному прохождению первых четырех шагов, очень трудно достичь этого последнего шага, не оставаясь постоянно в ручном режиме. Чтобы сбалансировать затраты и доступность, очень важно обсудить с руководящим составом, как спрогнозировать потребление (расход) услуг клиентами по сравнению с суммой, в которую эти услуги обойдутся бизнесу.
Например, разработка услуги, которая может предупреждать клиентов о потенциальном сбое в обслуживании из-за нехватки дискового пространства, может быть достигнута только при четкой постановке бизнес-целей, а затем использовании правильных метрик и платформы событий с применением базы данных временных рядов. В данном случае бизнес-цель — не допустить сбоев в обслуживании из-за отказов, таких как нехватка дискового пространства; метрика отслеживает дисковое пространство для каждого клиентского экземпляра с соответствующим пороговым предупреждением, которое запускается автоматическим триггером; а действие — электронное письмо клиенту, информирующее его о ситуации и о том, какие действия он может предпринять (снизить нагрузку или обновить систему для увеличения дискового пространства). В этом примере важно объединить бизнес-логику с практикой мониторинга, чтобы сделать обслуживание успешным для клиентов. Кроме того, такой подход поможет командам не только прогнозировать пользовательский опыт, но и поможет лучше прогнозировать расходы на капитальные и операционные затраты в будущем.