SLA как инструмент повышения эффективности обслуживания
В контексте модели традиционного управления уровнем обслуживания принято говорить о мониторинге доступности ресурсов. В противном случае бизнес ждет коллапс. Сервис, сеть должны отличаться стабильностью и доступностью и показывать эти параметры на уровне не менее 99,999% времени работы. Именно таких условий ждет большинство пользователей, однако это не гарант достижения ключевых целей SLM, удовлетворения требований клиентских приложений или обеспечения постоянного улучшения характеристик.
Причина этого кроется в том, что даже активный и полноценно функционирующий сервис при этом может обладать крайне низкими рабочими параметрами, из-за чего выполнение рабочих процессов и достижение нужной производительности невозможны. В связи с этим доступность сервиса и быстрота работы — отнюдь не главные характеристики. Оценку нужно проводить по конкретным характеристикам сети, приложений, рабочей системы.
Для всего этого есть развернутый инструментарий SLM. Благодаря ему становится возможным сменить политику реагирования на превентивные действия и добиться ожидаемых результатов.
Перейти к обзору SLA IaaS 2024
Какие параметры, переменные, критерии важны для повышения уровня обслуживания клиента?
Тремя базовыми параметрами, которые используют для определения качества работы и успешности бизнеса считаются:
- время отклика для конечного пользователя,
- время реакции сервера,
- задержка сигнала в сети.
Измерить их можно по-разному: количественные и качественные метрики. Обычно параметры SLO определяются, исходя из соотношения данных на единицу текущего времени или же по числу произведенных транзакций. В этом кроется определенная опасность: усредненные параметры редко соответствуют реальным цифрам. Это как средняя температура тела, которая меняется в течение суток. Например, мониторинг SLO на основе процентного соотношения транзакций по техническим аспектам с высокой точностью указывает на реальную ситуацию у пользователей. Однако на рынке, увы, нет такого решения, чтобы реализовать мониторинг SLO на базе целого предприятия.
Для того, чтобы избежать просчетов и правильно проанализировать ситуацию, прибегают к настройке пороговых значений параметров SLO. В их роли используют персональные потребности пользователей на текущий момент времени в разных приложениях. Самый нижний порог величины потребностей указывает на точку, ниже которой у пользователя возникают проблемы, и он перестает полноценно работать с сетью. Верхний порог отождествляется с низкой эффективностью системы, когда рабочий процесс приводит к ощутимым издержкам.
Перейти к рейтингу SLA IaaS 2024
Производительность пользователя как показатель эффективности работы системы
В качестве успешного использования SLA на первых порах часто рассматривают подборку ключевых элементов, которые служат отправной точкой при развертывании системы соглашений об уровнях сервиса.
Оценка тут ведется по количественным и качественным данным, и происходит их неизбежное столкновение. Например, для рядового пользователя крайне важны параметры, относящиеся ко времени отклика системы. Зачастую эти параметры неоднозначны и носят субъективный характер, что заметно снижает их объективную оценку. В то же время специалист, обслуживающий систему, почти всегда предпочтет количественные параметры качественным, потому что они осязаемы, конкретны и поддаются аналитике. В случае использования SLM-системы принимается во внимание следующее:
- Время отклика на запрос пользователя подлежит обязательной проверке вне зависимости от того, используется SLA или нет. В этом как нельзя лучше поможет измерение времени транзакции, ее составляющих.
- Численная оценка параметров системы проводится посредством оценки отдельных транзакций на единицу времени. Например, если изучаются все виды операций, то чтобы увеличить масштаб, подойдет агрегирование; если интерес представляют только отдельные виды данных, выполняют проверку репрезентативности результатов. В идеале использовать оба подхода, чтобы снизить погрешность оценки результатов.
Оценивая производительность системы, по описанным выше параметрам придется иметь дело как с общими пассивными участниками системы, так и с отдельными особо активными агентами. Обе группы пользователей важны, поэтому анализу придется подвергать всех. Тем самым удастся установить цели SLM и собрать детальные характеристики системы. Пассивный мониторинг и анализ искусственно созданных пользователей в системе прекрасно работают в тандеме и дают объективные данные для анализа эффективности.
Производительность сервера в качестве критерия оценки эффективности
Этот параметр важен с точки зрения поиска истинного виновника падения производительности — сервера или проблем на стороне исполнителя. Также это хорошее подспорье в плане оценки уровня оптимизации рабочей сети и планирования нагрузки. Особенного внимания заслуживает изучение отклика сервера, так как здесь наблюдается наибольшее число проблем. Любые проверки должны носить всеобъемлющий характер и использовать максимальное число критериев по проверке, иначе истинные и прогнозируемые величины будут сильно расходиться. Среди обязательных методик оценки сервера — селективное кэширование, пассивный мониторинг сети, изучение пользовательских транзакций. Только объективная оценка гарантирует получение реальной картины эффективности работы и своевременное обнаружение проблем. Еще не стоит забывать и про такой момент, как изучение характеристик сети — сигнал, отклик, задержка, пакет данных. Они также должны быть проанализированы и тщательно изучены, если ставится цель контролировать параметры сети и использовать их во благо производительности.
Актуальные методы SLM-управления
SLM-система в идеале должна поощрять переход от политики реагирования в пользу превентивного управления. В этом плане сильно помогут следующие моменты:
- Многоуровневые отчеты. Делятся на высоко-, средне- и низкоуровневые. Посредством отчетов возможно установить текущее состояние соглашений SLA для разных пользователей, выяснить, с какой периодичностью появляются проблемы в работе, и быстро разрешить трудности с производительностью системы, рациональным использованием ресурсов.
- Раннее обнаружение проблем. Посредством автоматизации инструментарий SLM помогает заранее найти сложности в работе и не дать им стать массовыми. В этом помогут самообучающиеся алгоритмы, регулярный сбор статистических данных, мониторинг производственных процессов.
- Быстрое реагирование на проблему. Проблемы возможно обнаруживать спустя всего 8-15 минут после их появления, если использовать все инструменты мониторинга и быстро снижать нагрузку на сервер. Тем самым удастся миновать критические точки и добиться стабильности в работе.
- Выбор вариантов управления. Точно и своевременно подобранный метод решения проблемы — залог стабильности работы. Необходимо постоянно улучшать работу сети и не повторять ошибок дважды. Используйте диаграммы производительности, графические интерфейсы, статистические данные. Принимайте решение сразу, действуйте по алгоритму, автоматизируйте управление.
Очевидно, что SLM-система — это сложный организм, посредством которого можно регулярно и циклично улучшать сервисы, добиваться высокой производительности. Если есть четкие поставленные технические цели и стратегический подход в работе у ИТ-отдела, то за счет превентивного управления достичь поставленных результатов не составит труда.
Перейти к обзору SLA IaaS 2024