Знание математической статистики обязательно для продуктового аналитика и дата-аналитика, которые исследуют данные о пользовательском поведении, генерируют и проверяют гипотезы, анализируют результаты экспериментов. Однако, системным и бизнес-аналитикам понимание тоже полезно понимать, почему среднее арифметическое – не самая лучшая метрика для количественных показателей, зачем определять доверительный интервал, что такое нормальное распределение и почему оно так часто встречается. Разбираемся на конкретных примерах.
Что такое распределение и почему оно чаще всего нормальное
Цель этой статьи – на практических примерах объяснить основные термины матстатистики, которые встречаются в системном и бизнес-анализе. Поэтому фундаментальные понятия теории вероятностей и полная математическая база статистики останутся за рамками нашего рассмотрения. Впрочем, согласно принципу Парето, 20% усилий дают 80% результата. Поэтому большинству системных и бизнес-аналитиков для понимания многих закономерностей в их области деятельности достаточно будет понимания рассмотренных здесь терминов.
Считается, что в природе и бизнесе значения метрик, а также количественных показателей чаще всего распределены по нормальному закону, т.е. их функция их плотности вероятности соответствует распределению Гаусса и выглядит как перевернутая парабола с четко выраженным пиком. Этот пик называется математическом ожиданием и в случае нормального распределения он равен среднему арифметическому, т.е. сумме всех значений, деленной на их количество. Например, рост взрослой физически здоровой женщины может варьироваться от 137 сантиметров до 224, но это крайние значения. А большинство измерений находятся на уровне 165 см. Это означает, что можно сказать, что рост взрослой физически здоровой женщины в среднем составляет 165 см.
Широкая распространенность нормального распределения случайных величин основана на их представлении в виде произвольного количества независимых, одинаково распределённых слагаемых, не влияющих друг на друга. Математическое обоснование можно найти в теоремах Ляпунова и Колмогорова и формуле Леви-Хинчина. А практический смысл этих глубоких работ сводится к центральной предельной теореме, согласно которой, что если измерений много (большая выборка случайных значений), то они распределены нормально. Поэтому, зная только математическое ожидание значения метрики и ее стандартное отклонение, можно вычислить вероятность его возникновения. Стандартное отклонение (сигма) показывает разброс случайных величин в выборке, т.е. насколько далеко возможные значения отходят от матожидания, т.е. среднего арифметического в нормальном распределении. Причем для нормальных выборок характерно так называемое правило 3 сигм:
- 1/3, т.е. примерно 68 % значений находятся на расстоянии не более одного стандартного отклонения σот матожидания;
- около 95 % значений лежат расстоянии не более двух стандартных отклонений от матожидания;
- 2/3 значений, т.е. 99,7 % отстоят от матожидания на расстояние не более 3-х стандартных отклонений.
А с вероятностью 0,9973 значение нормально распределённой случайной величины лежит в интервале матожидание плюс-минус 3 стандартных отклонения.
На практике именно по такой закономерности могут определяться приемлемые значения показателей управленческого учета для бизнес-процессов и продуктовые метрики. Например, при критическом отклонении фактического значения от ожидаемого, ответственному генерируется уведомление и/или запускается процедура реагирования на этот инцидент согласно внутренней системы менеджмента качества (СМК). Именно на этом построена одна из концепций производственного менеджмента под названием «Шесть сигм» (six sigma), которая вошла в основу производственной системы Toyota на базе Lean и статистических методов контроля отклонений от заданных показателей.
От процессов к продуктам: Product Ownership и Agile-практики для бизнес-аналитика
Код курса
POAP
Ближайшая дата курса
13 февраля, 2025
Продолжительность
8 ак.часов
Стоимость обучения
18 000 руб.
Среднее арифметическое, медианное и модальное значение: чему верить
Чтобы выборка была статистически значимой и подчинялась нормальному закону распределения, она должна быть достаточно большая. На практике это означает, что для формирования объективных выводов, например, о причинах проблем с производительностью информационной системы или пользовательского поведения, нужно проанализировать определенное количество лог-файлов или профилей. Но объем выборки для анализа — это не доля от генеральной совокупности (всех возможных значений), а сложная функция от доверительного уровня, предельной ошибки выборки и долей измерений с отсутствием и присутствием исследуемого признака.
Доверительный уровень – это вероятность того, что реальное значение лежит в границах полученного доверительного интервала. Доверительный уровень устанавливается исследователем в зависимости от необходимой надежности результатов. Чаще всего применяются доверительные уровни, равные 0,95 или 0,99. А доверительный интервал означает вероятность соответствия случайного значения матожиданию для нормального распределения. Например, DAU равно 800 на доверительном интервале 70%. Это означает, что в течение 5 будних дней на протяжении недели, т.е. в 7 случаев из 10, на сайт заходит около 500 уникальных посетителей. Но если расширить этот доверительный интервал до 95%, включив сюда и часть выходных дней, среднее арифметическое значение метрики может поменяться и составить 400 человек. Это происходит потому что границы выборки расширяются, т.е. сюда попадает больше крайних значений. В нашем примере это может быть падение спроса на b2b-продукты в выходные и снижение DAU до 200 в субботу и воскресенье.
На практике это означает, что для разных исследований нужны выборки разных размеров. Например, чтобы сделать объективные выводы о средней скорости выполнения SQL-запросов в информационной системе, можно взять расширенную выборку, т.е. с большим значением доверительного интервала, чтобы захватить редкие сложные случаи, которые выполняются редко и очень медленно. Однако, чем шире доверительный интервал для заданного уровня вероятности, тем ниже уровень доверия, т.е. доверительный уровень к результатам. И, наоборот, чем уже доверительный интервал, тем надежнее выборочная оценка. Вероятность, связанная с доверительным интервалом, называется доверительной вероятностью. Если доверительный интервал строится по уровню 95%, то соответствующая доверительная вероятность будет 5%, или 0,05=1-95%, для интервала по уровню 98% — 2%, или 0,02.
Эти примеры показывают несостоятельность среднего арифметического как объективной метрики для формирования объективных управленческих решений. Напомним, в нормальном распределении матожидание случайной величины равно среднему арифметическому, т.е. сумме всех измерений, деленной на их количество. Это отлично иллюстрирует правдивая шутка про среднюю температуру по больнице 36,6 с учетом гнойного отделения и морга. Например, DAU 500 человек в день, распределенное по дням недели, оказывается равным от 460 до 830 уникальных посетителей в будни и 200 в выходные. Согласно данным с популярной площадки для работодателей и соискателей HeadHunter, зарплата бизнес-аналитика в 2021 году в среднем составляет 99 т.р. и колеблется в пределах от 15 до 500 тысяч по всем городам РФ, для всех вариантов занятости (полная/частичная) и профессиональных грейдов.
Основы бизнес-анализа: вход в профессию для начинающих
Код курса
INTRO
Ближайшая дата курса
13 января, 2025
Продолжительность
24 ак.часов
Стоимость обучения
54 000 руб.
Поэтому для формирования качественных выводов по количественным измерениям лучше использовать не среднее арифметическое, а медианное и модельное значения, причем уточненные по группам. Медиана — это число в середине выборки, которое делит измерения на 2 половины, одна из которых его больше, а 2-я – меньше. Например, медианная зарплата бизнес-аналитика в 2021 году составила 87 т.р. по России, а в Москве и Спб – 108 т.р. Модальное значение или мода – то, что встречается в выборке чаще других. В примере с месячной заработной платой бизнес-аналитика это 200 т.р. для Москвы, согласно дэшборду https://revealthedata.com/examples/hh/. О зарплатах бизнес-аналитиков по другим странам и в среднем по миру читайте в обзоре отчета IIBA® за 2021 год.
Если вернуться к кейсу с DAU, модой может быть 620 уникальных посетителей в будний день. А модальное значение длительности выполнения SQL-запроса скажет о производительности информационной системы гораздо точнее, чем среднее арифметическое, и позволит сделать выводы о наиболее частых вариантах использования. На практике это пригодится при разработке или корректировке нефункциональных требований к ПО.
Разработка ТЗ на информационную систему по ГОСТ и SRS
Код курса
TTIS
Ближайшая дата курса
2 декабря, 2024
Продолжительность
16 ак.часов
Стоимость обучения
36 000 руб.
Впрочем, при формировании выводов важно не совершить так называемую «экологическую ошибку», когда об отдельном элементе судят по совокупным данным. К примеру, при более высоком значении матожидания, медианы и моды для зарплаты бизнес-аналитика в Москве по сравнению с другими городами РФ, это совсем не означает, что каждый московский БА зарабатывает больше любого своего коллеги в регионе. Также стоит помнить, что помимо нормального закона распределения с одним пиком в виде перевернутой параболы, есть еще бинормальное распределение (две последовательно соединенных перевернутых параболы), геометрическое, мультиноминальное, равномерное, распределение Пуассона и т.д. Это уже «продвинутый уровень» матстатистики и теории вероятностей, который больше пригодится специалистам по Data Science и продуктовым аналитикам. А системному и бизнес-аналитику, наряду с простыми обывателями, достаточно понимать основные термины для нормального распределения, чтобы критично воспринимать информацию и интерпретировать ее корректно.
Больше узнать о задачах, с которыми сталкивается бизнес-аналитик, и освоить наиболее популярные инструменты для их решения вам помогут курсы Школы прикладного бизнес-анализа в нашем лицензированном учебном центре обучения и повышения квалификации системных и бизнес-аналитиков в Москве:
- Основы бизнес-анализа: вход в профессию для начинающих
- От процессов к продуктам: Product ownership и Agile-практики для бизнес-аналитика