Co to jest rozkład zmiennej – krótki przewodnik
Prawdopodobnie najczęściej używanymi miarami liczbowymi są suma i średnia. Są to podstawowe i zazwyczaj łatwo dostępne dane, np. suma kosztów, średnia wartość transakcji czy suma dni urlopowych. W dzisiejszym wpisie przekonam Cię, że warto wyjść poza horyzont średniej i sumy. Zacznę od ustalenia podstawowego pojęcia, które będzie występowało wielokrotnie w tym artykule: co to jest rozkład?
Rozkład to sposób przedstawienia, jak często występowały poszczególne wartości interesującej nas kategorii (np. cechy, miary, wskaźnika).
Gdy jest to zmienna liczbowa – np. kwota wynagrodzenia – wartości te uporządkowuje się od najmniejszej do największej oraz grupuje w węższe lub szersze przedziały. W przypadku tzw. zmiennej jakościowej – np. rodzaju umowy o pracę – podaje się po prostu liczebności każdej występującej kategorii. Rozkład może dotyczyć zarówno wartości jednej zmiennej, jak i kilku jednocześnie. Często łączy się informacje o dwóch – np. podając przeciętne wynagrodzenie w podziale na grupy wiekowe pracowników. Rodzajów i sposobów prezentacji rozkładu jest wiele, zarówno w formie graficznej, jak i tabelarycznej. Niezależnie od tego, cel analizy rozkładu jest zwykle taki sam: zaprezentować zróżnicowanie wartości interesującej nas zmiennej. Poniżej skupię się na prostych przykładach, które pozwolą Ci nabrać intuicji dotyczącej stosowania i interpretowania rozkładów. Zobaczysz też, w jaki sposób analiza tego rodzaju zastosowana została w bazie BizRaport.
Rozkład jednej zmiennej – podstawowe narzędzie analizy
Wyobraźmy sobie hipotetyczną sytuację, w której pewna firma zanotowała 20 transakcji w ciągu całego miesiąca. Transakcje miały różne wartości, od 500 zł do prawie 9 tys. zł, jak przedstawione na poniższym wykresie. Jak i po co przekształcić takie dane w ich rozkład?
Wykres 1. Transakcje wykonane w ostatnim miesiącu
index | Wartość transakcji |
---|---|
1 | 2100 |
2 | 600 |
3 | 8400 |
4 | 2000 |
5 | 3800 |
6 | 600 |
7 | 3700 |
8 | 6100 |
9 | 1700 |
10 | 4700 |
11 | 1900 |
12 | 1700 |
13 | 8900 |
14 | 1200 |
15 | 500 |
16 | 3400 |
17 | 2200 |
18 | 600 |
19 | 1300 |
20 | 800 |
Jeśli pogrupujemy transakcje w kilka przedziałów wartości i zliczymy wystąpienia w każdym przedziale otrzymamy rozkład pokazany na drugim wykresie. W przeciwieństwie do pierwszego wykresu, na którym jest duży nieuporządkowany szereg transakcji, drugi wykres daje szybki i prosty obraz tego, jakich transakcji było mało, a jakich dużo.
Wykres 2. Rozkład wartości transakcji
Przedział wartości | Liczba transakcji |
---|---|
0-2000 | 11 |
2000-4000 | 5 |
4000-6000 | 1 |
6000-8000 | 1 |
8000-10000 | 2 |
Poszczególne słupki wykresu pokazują liczbę transakcji o wartości mieszczącej się w przedziale opisanym na dolnej osi. Przykładowa interpretacja takiego wykresu jest następująca: przeważająca liczba transakcji (w tym przypadku dokładnie 11) nie przekraczała 2 tys. zł, jednak zakres wartości był szeroki i sięgał 9 tys. zł; co więcej, najbardziej wartościowych transakcji (powyżej 8 tys. zł) było nieco więcej niż tych o umiarkowanej wartości (od 4 do 6 tys. zł).
Zastosowania rozkładu jednej zmiennej.
Wśród zastosowań tego typu wykresu mogą być następujące sytuacje:
- rozkład energochłonności urządzeń – ułatwi znalezienie przyczyny wzrostu kosztów za prąd;
- rozkład rentowności produktów – pokaże rozpiętość skuteczności z jaką Twoje produkty generują zysk, zwróci uwagę na nietypowe wartości;
- rozkład czasu spędzonego na Twojej stronie WWW – pozwoli Ci poznać charakterystykę odbiorców Twoich treści; i wiele innych.
Oprócz przedstawienia rozkładu jako liczby wystąpień, możemy pokazać też udziały procentowe poszczególnych wartości, prawdopodobieństwa ich wystąpienia lub inne bardziej abstrakcyjne konstrukty, w zależności od potrzeb i charakteru danych. Wśród niedawnych wpisów na blogu BizRaport analizowałem m.in. rozkład wskaźnika zadłużenia spółek meblowych – możesz zapoznać się z tym przypadkiem na Wykresie 3 tutaj.
Mediana i inne kwantyle – o co w tym chodzi?
Do Wykresu 2 transakcje grupowałem w kilka przedziałów pod względem wybranych przeze mnie kwot. Takie podejście sprawdzi się przy małej liczbie danych i przy zmiennej, której wartości są łatwe w interpretacji i proste do pogrupowania. Jeśli jednak byłaby inna sytuacja, w której trudno jest z góry ustalić rozsądne przedziały wartości, wtedy można podzielić zmienną na pewną liczbę równych części: np. na dwie, 4, 5, 10 albo nawet 100. Żeby to zrobić, w pierwszej kolejności musimy uporządkować dane od najmniejszej do największej wartości. Jeśli podzielisz dane na 4 równe części, tzn. że utworzyłeś 4 grupy kwantylowe. Wartości graniczne każdej z tych grup to z kolei kwantyle.
Ogólnie rzecz biorąc, kwantyl to wartość graniczna oddzielająca pewien procent danych.
Kwantyle są szczególnie przydatne przy analizie dużej ilości danych, ponieważ umożliwiają stosunkowo prosty wgląd w to, co „dzieje się” w danych. Spotyka się różne określenia kwantyli w zależności od tego, jak szczegółowego podziału danych dotyczą, przykładowo:
- percentyle lub – nieco krócej – centyle (100 części),
- decyle (10 części),
- kwintyle (5 części),
- kwartyle (4 części),
- i wreszcie mediana (2 części).
Na przykład, 25. percentyl (inaczej mówiąc 1. kwartyl) to wartość, poniżej której znajduje się 25% danych. Podobnie, 90. percentyl to wartość, poniżej której znajduje się 90% danych – a patrząc od drugiej strony, to granica 10% największych wartości (tzw. top 10%). Jeśli chcemy znaleźć 50. percentyl – czyli medianę – to wartość mediany dzieli zbiór danych na dwie równe części. Połowa danych będzie mniejsza lub równa wartości mediany, a druga połowa będzie od niej większa. Natomiast decyl odnosi się do wartości granicznej, która dzieli dane na 10 równych części. Na przykład, 3. decyl to wartość, poniżej której znajduje się 30% danych, a powyżej której znajduje się 70% danych.
Grupa decylowa odnosi się do jednej z dziesięciu grup danych, które są wynikiem podziału zbioru na dziesięć równych części.
Decyle dzielą dane na następujące przedziały:
- 1. decyl (0-10% danych)
- 2. decyl (10-20% danych)
- 3. decyl (20-30% danych)
- 4. decyl (30-40% danych)
- 5. decyl (40-50% danych)
- 6. decyl (50-60% danych)
- 7. decyl (60-70% danych)
- 8. decyl (70-80% danych)
- 9. decyl (80-90% danych)
- 10. decyl (90-100% danych)
Na przykład, trzecia grupa decylowa to dane, które znajdują się między 20% a 30% w rankingu. Na przykład: „W trzeciej grupie decylowej znajdują się osoby, które zarabiają od 20% do 30% najmniejszych dochodów w populacji.” Analogicznie ósma grupa decylowa oznacza, że mówimy o przedziale od 70% do 80% w zbiorze danych. Na przykład: „Ósma grupa decylowa obejmuje osoby, które zarabiają od 70% do 80% najwyższych dochodów w populacji.”
Nieco prostszym przypadkiem są grupy kwartylowe, czyli podział zbioru na 4 równe części. W analizowanym wcześniej przykładzie transakcji sklepowych, kwartyle dzielą 20 transakcji na 4 grupy po 5 transakcji, uszeregowane od najmniejszej do największej. Wówczas:
- kwartyle to piąta transakcja w każdej z 4 grup, czyli wartości dzielące zbiór na 4 części: 800zł, 1900zł oraz 3700 zł;
- grupy kwartylowe to 5-elementowe grupy transakcji skupiające po 25% transakcji: 5 najmniejszych (1. grupa kwartylowa), między 5 a 10 najmniejszych (2. grupa kwartylowa), między 10 a 15 najmniejszych (czyli od 5 do 10 największych, 3. grupa kwartylowa) oraz 5 największych (4 grupa kwartylowa).
Wykres 3. Wartości transakcji pogrupowane wg kwantyli
index | Kwartyl 1 | Kwartyl 2 | Kwartyl 3 | Kwartyl 4 |
---|---|---|---|---|
1 | 500.0 | 0.0 | 0.0 | 0.0 |
2 | 600.0 | 0.0 | 0.0 | 0.0 |
3 | 600.0 | 0.0 | 0.0 | 0.0 |
4 | 600.0 | 0.0 | 0.0 | 0.0 |
5 | 800.0 | 0.0 | 0.0 | 0.0 |
6 | 0.0 | 1200.0 | 0.0 | 0.0 |
7 | 0.0 | 1300.0 | 0.0 | 0.0 |
8 | 0.0 | 1700.0 | 0.0 | 0.0 |
9 | 0.0 | 1700.0 | 0.0 | 0.0 |
10 | 0.0 | 1900.0 | 0.0 | 0.0 |
11 | 0.0 | 0.0 | 2000.0 | 0.0 |
12 | 0.0 | 0.0 | 2100.0 | 0.0 |
13 | 0.0 | 0.0 | 2200.0 | 0.0 |
14 | 0.0 | 0.0 | 3400.0 | 0.0 |
15 | 0.0 | 0.0 | 3700.0 | 0.0 |
16 | 0.0 | 0.0 | 0.0 | 3800.0 |
17 | 0.0 | 0.0 | 0.0 | 4700.0 |
18 | 0.0 | 0.0 | 0.0 | 6100.0 |
19 | 0.0 | 0.0 | 0.0 | 8400.0 |
20 | 0.0 | 0.0 | 0.0 | 8900.0 |
Rozkład ten można zaprezentować podając wartości graniczne charakterystycznych punktów, np. mediany i wybranych kwantyli.
Aby uniknąć powielania technicznie brzmiącego słowa „kwantyl”, punkty na poniższym wykresie opisałem jako % najwyższych wartości, których dotyczą, np:
- 6100 zł to 90. centyl = 9. decyl = granica oddzielająca top 10% wartości, tzn. że co dziesiąta transakcja przekraczała poziom 6100 zł;
- 600 zł to 10. centyl = 1. decyl = wartość, poniżej której jest 10% wartości = wartość, powyżej której jest 90% wartości (top 90%), itd.
Dla porównania z kwantylami oznaczyłem także średnią wartość ze wszystkich 20 obserwacji. Widzimy przy tym, że jest ona wyraźnie wyższa niż mediana. Wynika to z faktu, że wystąpiło kilka transakcji o dużo wyższych wartościach niż pozostałe. Taka sytuacja powoduje wzrost średniej, natomiast nie ma wpływu na medianę.
Wykres 4. Kwantyle rozkładu wartości transakcji
Kwantyl | Wartość kwantyla | Średnia wartość transakcji |
---|---|---|
Top 10% | 6100 | 2810 |
Top 25% | 3700 | 2810 |
Top 50% | 1900 | 2810 |
Top 75% | 800 | 2810 |
Top 90% | 600 | 2810 |
W BizRaport tego typu podejście zastosowano w wykresach przedstawiających rozkład przychodów, zysków oraz wartości organizacji wewnątrz każdej branży – porównaj np. z wykresami branży ”Produkcja napojów”.
Kolejne wymiary analizy – średnia wartość transakcji wg dni tygodnia.
Idąc o krok dalej, możemy przedstawić statystyki naszej zmiennej w podziale na kategorie innej zmiennej. Statystykami może być m.in. wartość średnia, minimalna, maksymalna lub dowolny kwantyl rozkładu. W kontekście omawianego przeze mnie przykładu omówię średnią wartość transakcji w poszczególnych dniach tygodnia (Wykres 5).
Wykres 5. Średnia wartość transakcji wg dni tygodnia
Dzień tygodnia | Przeciętna wartość transakcji |
---|---|
Poniedziałek | 2900.0 |
Wtorek | 1900.0 |
Środa | 5100.0 |
Czwartek | 1500.0 |
Piątek | 2266.7 |
Sobota | 3433.3 |
Niedziela | 2450.0 |
Jak może wyglądać interpretacja takiego rozkładu? Powyższy wykres wskazuje, że średnio rzecz biorąc najwyższe wartości transakcji były notowane w środy (ponad 5 tys. zł ), a najniższe w czwartki (1,5 tys. zł). Dowodzi to, że pokazana wcześniej średnia wartość transakcji z całego zbioru (2,8 tys. zł) może dać mylne wyobrażenie o „typowej” wartości. Wahania wartości są bardzo duże i dzień tygodnia jest w tym przykładzie jedną z istotnych zmiennych różnicujących te wahania. Bardziej zaawansowany przypadek rozkładu, który jednak interpretuje się w analogiczny sposób, możesz prześledzić w moim wcześniejszym wpisie o branży meblowej na Wykresie 4. Tam, zamiast dni tygodnia z powyższego przykładu są grupy kwantylowe pokazujące, jak dużą lub małą firmę opisują liczby na wykresie. Z kolei zamiast średniej wartości transakcji zestawiłem tam medianę, minimalny i maksymalny wskaźnik zadłużenia występujący w każdej analizowanej grupie.
Zastosowania rozkładu kilku zmiennych.
Zestawianie zróżnicowania kilku zmiennych daje olbrzymie możliwości poznawania danych. Poniżej podaję kilka przykładowych obszarów, w których możesz wykorzystać tę wiedzę:
-
- koszty wynagrodzeń pracowników wg filii/działu/stanowiska;
- obroty/zyski/straty firmy wg dni, tygodni i miesięcy;
- liczba dni urlopowych pracowników wg stanowiska pracy/oddziału;
- wiek floty samochodowej wg kategorii aut.
Na stronach BizRaport zaprezentowanych jest wiele rodzajów rozkładów, dzięki czemu informacje o konkretnej spółce lub całej branży można ocenić kompleksowo. Czym więcej danych będziesz mieć do przeanalizowania, tym cenniejsze będą tego rodzaju zwięzłe reprezentacje graficzne jak przedstawiłem w dzisiejszym wpisie. Liczę na to, że dzięki tym informacjom odrobinę odczarowałem kilka statystycznych terminów, a Ty będziesz mógł lepiej niż wcześniej rozumieć dane, które napotykasz na co dzień. Opisz w komentarzu poniżej swoją opinię na ten temat. Jeśli nie poruszyłem wątku, który Ciebie interesuje lub jeśli coś było dla Ciebie nie do końca zrozumiałe, również daj o tym znać.