Как правильно вычислить среднее значение?

Автор: | 31.05.2022

Средняя продолжительность… Средняя продолжительность… Но как ни странно, «среднее значение» — достаточно коварное понятие, часто вводящее в заблуждение обычное, неискушенного в математической статистике человека.

В чем проблема?

По значительному значению чаще всего встречается среднее арифметическое, которое очень сильно варьируется по случаю единичных фактов или событий. И вы не получите явных представлений о том, как именно распределены значения, которые предуизет

Давайте обратимся к классическому примеру со средней зарплатой.

В какой-то абстрактной компании работает десять сотрудников. Девять из них получают зарплату около 50 000 рублей, Адин 1 500 000 рублей (по странному совпадению он же является генеральным директором этой компании).

 

Выборка зарплаты

 

Среднее значение будет в случае применения 195 150 рублей, что согласитесь, неправильно.

Какие способы вычисления среднего бывают?

Первым способом является вычисление уже выявленного среднего арифметического, имеющего сумой всех показателей, деленной на их количество.

Формула:

 

 

  • x – среднее арифметическое;
  • xn – конкретное значение;
  • n – количество значений.

Плюсы:

  • Хорошо работает при нормальном распределении значений в выборке;
  • Легко вычислить;
  • Интуитивно понятно.

Минусы:

  • Не дает представления о распределении значений;
  • Неустойчивая величина легко поддающихся выбросов (как в случае с генеральным директором).

Вторым способом является вычисление моды, то есть наиболее часто встречающихся значений.

Формула:

 

 

  • М0 – режим;
  • x0 – нижняя граница интервала, который содержит моду;
  • n – величина интервала;
  • fm– частота (сколько раз в ряду встречается то или иное значение);
  • fM-1 – частота интервала предшествующего модальному;
  • fm+1 – частота интервала сохраняется за модальным.

Плюсы:

  • Прекрасно подходит для собраний общественного мнения;
  • Хорошо подходит для нечистых данных (цвета сезона, хиты продаж, рейтинги);
  • Проста для понимания.

Минусы:

  • Моды могут просто не быть (нетов);
  • Модальное может быть несколько (многомодальное вознаграждение).

Третий способ — это вычисление медианы, то есть значения, которые делит упорядоченную выборку на две половины и между ними Если такого значения нет, то за медиану принимается среднее арифметическое между границами принмается.

Формула:

 

Средняя формула

 

  • I – медиана;
  • x0 – нижняя граница интервала, который содержит медиану;
  • ч – интервал интервала;
  • fi – частота (сколько раз в ряду встречается то или иное значение);
  • Sm-1 – количество частот интервалов предшествующих срединному;
  • fm – число измерений в срединном интервале (его частоты).

Плюсы:

  • Дает реалистичную и репрезентативную отчетность;
  • Устойчива к выбросам.

Минусы:

  • Сложнее вычислить, так как перед вычислением выборку нужно упорядочить.

Мы занимаемся основными методами нахождения средних значений, определяемыми мерами потребления (на самом деле их больше, но это самые популярные).

Теперь давайте вернемся к примерам и посчитаем все три варианта средних при помощи специальных функций Excel:

  • СРЗНАЧ(число1;[число2];…) — функция для определения среднего арифметического;
  • МОДА.ОДН(число1;[число2];…) — функция моды (в более версииx Excel использовалась;[число]ль;[чилиА]);[чиДА];…));
  • МЕДИАНА(число1;[число2];…) — функция для поиска медианы.

И вот какие значения у нас получились:

 

Расчет среднего арифметического, моды и медианы

В обычном случае мода и медиана лучше характеризуют высокую заработную плату в компании.

Но что делать, когда в выборке не 10 наблюдений, как в появлении, а жизни? В Excel это не вычисляется, а вот в базе данных, где хранятся ваши данные, без проблем.

Вычисляем среднее арифметическое на SQL

Тут все просто достаточно, так как в SQL предусмотрена специальная агрегатная функция AVG.

Достаточно написать вот такой запрос:

/ * Здесь и далее sarary — столбец с зарплатами, А Сотрудники — Таблица Сотрудников в нашей базе данных * / выберите avg (salary) как ‘средняя зарплата’ от Employees

Вычисляем моду на SQL

В SQL нет отдельных функций для передвижения по моде, но ее легко и быстро можно написать самостоятельно. Для этого нам необходимо узнать, какая из зарплат чаще всего повторяется и выбрать наиболепе.

Напишем запрос:

/ * WITH TIES необходимо добавить к TOP () если множество многомодально, то есть у применения несколько мод * / SELECT TOP (1) WITH TIES зарплата AS ‘Мода зарплаты’ ОТ зарплаты сотрудников ГРУППИРОВАТЬ ПО ПОРЯДКУ ПО СЧЕТУ (*) DESC

Вычисляем медиану на SQL

Как и в случае с модой, в sql нет встроенной функции для расчета медианы, зато есть универсальная функция для расчета процентилей Percentile_Cont.

Выглядит все это так:

/* В случае применения процентиль 0.5 и будет являться медианой */ SELECT TOP(1) PERCENTILE_CONT(0.5) ВНУТРИ ГРУППЫ (ПО ЗАРПЛАТЕ) ВЫШЕ ОТ сотрудников

Подробнее о работе функции PERCENTILE_CONT лучше почитать в справке Microsoft и Google BigQuery.

Какой способ все-таки использовать?

Из приведенного выше следует, что медиана лучший способ для восприятия среднего значения.

Но это не всегда так. Если вы работаете со временем, то остерегайтесь многомодального распределения:

 

Бимодальная компоновка

 

На графике представлено бимодальное загрязнение с двумя пиками. Такая ситуация может возникнуть, например, при голосовании на выборах.

В данном случае среднее арифметическое и медиана — это значение, полученное где-то посередине и они ничего не имеют о том, что происходит на самом деле и лучше сразу раскрытие, что вы имеете дело с бимодальным приходом, сообщив о двух модах.

Еще лучше разделить выборку на две группы и собрать статистические данные для каждой.

Вывод:

При выборе метода нахождения в среднем необходимо принять во внимание, а также нормальность распределения значений в выборке.

Окончательный выбор основных интересов всегда лежит на аналитике.

 

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *