Monhouse - Technologies of Monitoring and Management

Мониторинговый словарь

Event или Событие

Зарегистрированное системами изменение нормального поведения системы, окружения, процесса, системы или человека. В современной цифровой действительности рассматривают потоки событий - инфраструктуры предоставления инфокоммуникационных услуг генерируют тысячи и сотни тысяч событий в единицу времени. Для анализа таких потоков событий тербуются специальные системы.

Alert или Уведомление

Уведомление о том, что конкретное событие или группа событий произошли, которое направляется ответственным лицам или системам для последующей обработки.

Incident или Инцидент

Событие, которое негативно сказывается на конфиденциальности, согласованности или доступности, влияющие на организацию и бизнес.

Триггер

Автоматизированный запуск какого либо действия, как правило привязан к какому-либо событию в системе мониторинга и управления.

MTTD - Mean Time to Detect

Среднее время определения неисправности или среднее время обнаружения аварии.

MTTR - Mean Time to Resolve/Repair/Recovery

среднее время восстановления нормально работы после сбоя или аварии. MTTR часто является метрикой качества работы системы в целом, отдельных систем и употребляется в контексте операционной поддержки работы цифровых систем. MTTR равен нулю в случаях наличия резервных систем, мгновенно вступающих в работу при отказе основных.

MTTA - Mean Time to Acknowledge (ранее Mean Time to Respond)

среднее время принятия проблемы в обработку, время через которое оператор или автоматизированная система отреагируют на сформировавшуюся проблему.

MTTI - Mean Time to Investigate или Mean Time to Identification

среднее время определения проблемы, напрямую влияет на MTTR. Иногда встречается в значении Mean-Time-to-Install - среднее время установки. Существует также интерпретация аббревиатуры как Mean Time to Instrumentation - среднее время до возможности контроля работы, измерения производительности, диагностики ошибок и формирования трейсов. Плюс существует еще одна расшифровка Mean Time to Innocence

MTBF -Mean Time Between Failures

среднее время между отказами системы. Интегральная характеристика стабильности системы. Различают также вариации mean time between system aborts (MTBSA), mean time between critical failures (MTBCF) or mean time between unscheduled removal (MTBUR) - среднее время между системными сбоями, между критическими отказами и между незапланированными сбоями.

Real-Time Analytics Platform

Аналитическая платформа, которая в реальном времени позволяет организациям максимально эффективно использовать поступающие данные, помогая извлекать из них ценную информацию и тенденции. Такие платформы помогают измерять данные с точки зрения бизнеса в режиме реального времени, обеспечивая дальнейшее оптимальное использование данных.

Managed Detection and Response

Служба обнаружения и реагирования (Managed Detection and Response - MDR) специально разработана для сетей с высокой степенью управления и объединяет специальную группу аналитиков безопасности с технологиями следующего поколения для обеспечения обнаружения, расследования и реагирования на угрозы в режиме реального времени.

MSSP: Managed Security Service Provider

MSSP является предшественником MDR. MSSP отслеживают события безопасности сети и отправляют оповещения при обнаружении аномалий. MSSP не расследуют аномалии для устранения ложных срабатываний и не реагируют активно на угрозы безопасности. Некоторые MSSP также предоставляют множество других сетевых услуг, таких как защита от вирусов и управление брандмауэрами.

SIEM: Security Information and Event Management

Термин SIEM, или «Управление информацией и событиями безопасности», относится к широкому спектру продуктов и услуг, которые варьируются от технологических решений, технологий с административным управлением до управляемой обработки и оповещения о событиях в ИТ. Решения SIEM объединяют данные о сетевом трафике / событиях из разных источников и коррелируют эти данные, чтобы выделить элементы, требующие дальнейшего изучения. Часть «управления» может варьироваться от запуска технологии в качестве внешнего администрирования (обеспечение безопасности, настройка) до уведомления о событиях, требующих расследования, в виде «облегченного» MSSP.

EDR: Endpoint Detection and Response

EDR - это тип MDR, который фокусируется на конечных точках или хостах. Сервисы EDR обычно используют программный агент, установленный на конечных точках, который отправляет информацию в централизованную базу данных для анализа. В общем, этот «анализ» ограничивается сопоставлением сигнатуры шаблона, который указывает на то, что происходит событие, относящееся к информационной или иной безопасности, однако некоторые используют машинное обучение и даже искусственный интеллект для такого определения. Службы EDR могут отключить связь в этой конечной точке, когда инцидент идентифицирован для быстрого карантина, однако для предотвращения ложных срабатываний и необоснованного отключения устройства все еще необходим человеческий анализ, который обычно делегируется подразделениям информационной безопасности, подразделению управления сетью, серверами или рабочими станциями.

Managed Logs

Встречается несколько терминов: управляемые журналы, управление журналами, мониторинг журналов, log-management и т.д. Какое бы имя вы ни выбрали, все эти службы мониторинга существуют для проверки журналов (логов), генерируемых многими компонентами вашей сети, для выявления вредоносных действий. Службы управления журналами существуют уже много лет и подсистемы информационной безопасности используют их для выполнения своих задач.

Security Operations Center (SOC)

Центр безопасности операций (SOC) является централизованным подразделением, которое занимается вопросами безопасности на организационном и техническом уровне. SOC в здании или объекте - это центральное место, откуда персонал контролирует пространство, используя технологии обработки данных. Как правило, SOC оборудован для контроля доступа и управления освещением, сигнализацией и барьерами перемещения.
В области информационно-коммуникационных технологий (ИКТ) термин SOC носит более специальных характер и даже существует отдельный термин ISOC - операционный центр информационной безопасности - это специализированное пространство, на котором осуществляется мониторинг, оценка и защита корпоративных информационных систем (web-сайтов, приложений, баз данных, центров обработки данных и серверов, сетей, настольных компьютеров и других конечных точек).

Можно также встретить иное толкование аббревиатуры SOC - Service Operation Center. Такая трактовка харатерна для поставщиков услуг (сервисов), которые уходят от мониторинга и управления инфраструктурой на уровень контроля предосталения услуг.

Соглашение об уровне обслуживания (SLA) New

Соглашение об уровне обслуживания (Service Level Agreement - SLA) один из самых привычных нам терминов. Соглашение такого рода повсеместно встречается в договорах между поставщиком и потребителем услуг - в договорах о предоставлении сервиса технической поддержки, доступа к цифровым ресурсам и услугам. Одним из самых понятных сегодня примеров SLA является тарифный план мобильного оператора - за Х рублей в месяц вы получаете объем звонков, данных и SMS (X1, X2, X3); за Y вы получаете Y1, Y2, Y3. Часто встречается требование не только по емкости (например, канал 2Мб/сек), но и доступности (например, связь доступна 99,999% времени в год).

В русле разговоров о мониторинге, контроль выполнения SLA самая понятная для простых людей история и обоснование необходимости иметь мониторинговый центр, программное обеспечение и специалистов.

Целевой уровня обслуживания (SLO) New

Целевой уровень обслуживания (Service-Level Objective - SLO) сегодня широко известен благодаря компании Google. В данном случае, в отличии от SLA, подразумевается, что при обслуживании одних подразделений другими не происходит взаиморасчетов, нет тарифов и штрафных санкций. Концепция заключается в том, что выход из SLO нанесет вред команде, сопровождающей сервис, поэтому они будут настойчиво стараться оставаться в SLO.

Как правило, существует ситуация когда правда то, что чем надежнее услуга, тем дороже она обходится. Каждый сервис должен иметь SLO доступности - без него команда поддержки и все заинтересованные стороны не могут делать суждения о том, нужно ли сделать сервис более надежным (увеличивая стоимость и замедляя разработку) или менее надежным (обеспечивая более высокую скорость разработки).

Индикатор уровня обслуживания (SLI) New

В жизни компаний широко известен такой термин как KPI (Key Performance Indicator). Когда мы говорим о сервисах (услугах) более оправданно говорить о SLI (Service-Level Indicator).
Например, частота успешных проверок нашей системы, один из таких индикаторов. Определив и контролируя SLI вы можете получить обоснованные результаты соблюдения SLO и SLA.

Предложения пишите в Телеграм канал.