3.23 Obliczanie średniej, wariancji i odchylenia standardowego
Dla następującego zbioru nieuporządkowanych danych: \(A = \{1, 2, 1, 10, 12\}\), policz wartość średnią (wartość oczekiwaną) i odchylenie standardowe. Korzystamy z wzorów z tablicy 1.2.
Obliczamy średnią arytmetyczną:
\[\bar{x} = \frac{1}{5}\sum_{i=1}^{5}x_i = \frac{1+2+1+10+12}{5} = 5.2\]
Następnie wyznaczamy wariancję:
\[S^2(X) = \frac{1}{5}\sum_{i=1}^{5}(x_i - 5.2)^2 = \frac{(1-5.2)^2 + (2-5.2)^2 + (1-5.2)^2 + (10-5.2)^2 + (12-5.2)^2}{5} = 22.96\]
I liczymy odchylenie standardowe:
\[S(X) = \sqrt{22.96} = 4.79\]
Dane nieuporządkowane ze zbioru \(A\) można przedstawić w postaci rozkładu częstości (szereg rozdzielczy).
\(i\) | \(x_i\) | \(f_i\) | \(p_i\) |
---|---|---|---|
1 | 1 | 2 | 2/5 |
2 | 2 | 1 | 1/5 |
3 | 10 | 1 | 1/5 |
4 | 12 | 1 | 1/5 |
Rozkład częstości
\(f_i\) = częstości bezwzględne
\(p_i\) = częstości względne/prawdopodobieństwa empiryczne/proporcje/wagi
Dla tak jak w tabeli przedstawionych danych, średnią i odchylenie standardowe można policzyć trochę innym sposobem:
\[\bar{x} = \sum_{i=1}^{4}x_ip_i = 1*\frac{2}{5}+2*\frac{1}{5}+10*\frac{1}{5}+12*\frac{1}{5} = 5.2\]
\[S^2(X) = \sum_{i=1}^{4}(x_i - 5.2)^2*p_i = (1-5.2)^2*\frac{2}{5} + (2-5.2)^2*\frac{1}{5} + (10-5.2)^2*\frac{1}{5} + (12-5.2)^2*\frac{1}{5} = 22.96\]
\[S(X) = \sqrt{22.96} = 4.79\]
Tabela 1.4 zawiera szereg szczegółowy danych na temat wynagrodzeń w Polsce, w dwóch, losowo wybranych, grupach osób (w tysiącach złotych) (zmienne X i Y).
\[table:tally\]
i | \(x_i\) | \(y_i\) |
---|---|---|
1 | 1 | 4 |
2 | 3 | 3 |
3 | 4 | 3 |
4 | 5 | 4 |
5 | 3 | 5 |
6 | 4 | 3 |
7 | 6 | 3 |
8 | 5 | 4 |
9 | 4 | 5 |
10 | 2 | 3 |
11 | 1 | 2 |
12 | 3 | 3 |
\(\Sigma\) | 42 | 42 |
Szereg szczegółowy dla zmiennych X i Y
Oblicz wartość średnią (wartość oczekiwaną) (oznaczamy \(E(X)\) lub \(\mu\) dla populacji i \(\bar{x}\) dla próby) dla zarobków w każdej próbie. Ponadto wyznacz wariancję i odchylenie standardowe zmiennych X i Y.
Dane na tym etapie są nieuporządkowane (szereg szczegółowy), więc korzystamy z następujących wzorów:
\[E(X) = \bar{x} = \frac{1}{n}(\sum_{i=1}^{n}x_i)\]
\[E((X - \bar{X})^2) = S^2(X) = \frac{1}{n}(\sum_{i=1}^{n}(x_i - \bar{x})^2)\]
\[S(X) = \sqrt{S^2(X)}\]
gdzie: \(n\) = liczba obserwacji
Przedstaw dane dla zmiennej \(X\) z tabeli 1.2 w postaci szeregu rozdzielczego punktowego (rozkład częstości) i ponownie wyznacz średnią i odchylenie standardowe.
Po przekształceniu zbioru danych w szereg rozdzielczy wzory trzeba zmodyfikować:
\[E(X) = \bar{x} = \frac{1}{n}(\sum_{i=1}^{k}x_if_i)\]
\[E((X - \bar{X})^2f_i) = S^2(X) = \frac{1}{n}(\sum_{i=1}^{k}(x_i - \bar{x})^2f_i)\]
\[S(X) = \sqrt{S^2(X)}\]
gdzie: \(n\) = liczba obserwacji; \(k\) = liczba wyróżnionych wartości/wierszy
Stosując wzory, zawsze pamiętaj o kolejności wykonywania działań:
Kolejność jest następująca:
działania w nawiasach
potęgowanie i pierwiastkowanie
mnożenie i dzielenie
dodawanie i odejmowanie
Warto pamiętać, że dzielenie zawsze można zastąpić mnożeniem przez odwrotność.
\[table:tally\_comp\]
i | \(x_i\) | \(x_i - \bar{x}\) | \((x_i - \bar{x})^2\) |
---|---|---|---|
1 | 1 | -2.5 | 6.25 |
2 | 3 | -0.5 | 0.25 |
3 | 4 | 0.5 | 0.25 |
4 | 5 | 1.5 | 2.25 |
5 | 3 | -0.5 | 0.25 |
6 | 4 | 0.5 | 0.25 |
7 | 6 | 2.5 | 6.25 |
8 | 5 | 1.5 | 2.25 |
9 | 4 | 0.5 | 0.25 |
10 | 2 | -1.5 | 2.25 |
11 | 1 | -2.5 | 6.25 |
12 | 3 | -0.5 | 0.25 |
\(\Sigma\) | 42 | 0 | 27 |
Obliczenia pomocnicze dla \(\bar{x}\) i \(S(X)\)
Zobacz tabelę 1.2, w której znajdują się potrzebne wzory. Obliczenia pomocnicze przedstawiono w tabelach 1.5 (szereg szczegółowy) i 1.7 (szereg rozdzielczy).
Odpowiedź:
Wartość przeciętna wynosi \(\bar{x} = 42/12 = 3.5\), a średnie odchylenie obserwacji w zbiorze danych względem średniej \(S(X)\) jest równe \(\sqrt{27/12} = 1.5\) tysiąca złotych (1500 zł).
Tabela 1.6 przedstawia dane z tabeli 1.4 w postaci szeregu rozdzielczego, gdzie \(f_i\) oznacza bezwzględną częstość występowania. Dane statystyczne są czasami przedstawione w postaci szeregu szczegółowego, czyli tak jak w tabeli 1.4, a czasami w postaci szeregu rozdzielczego, który powstaje z szeregu szczegółowego po uporządkowaniu danych.
\[table:freq\_X\]
i | \(x_i\) | \(f_i\) |
---|---|---|
1 | 1 | 2 |
2 | 2 | 1 |
3 | 3 | 3 |
4 | 4 | 3 |
5 | 5 | 2 |
6 | 6 | 1 |
\(\Sigma\) | - | 12 |
Szereg rozdzielczy dla X
W tabeli, 1.6 dane z tabeli 1.4 zostały przedstawione po przekształceniu do postaci szeregu rozdzielczego punktowego. Sposób prezentacji danych nie zmienia wartości wskaźników takich jak średnia arytmetyczna lub wariancja, ale sposób liczenia może ulec zmianie - odpowiednie wzory znajdziesz w tabeli 1.2.
\[table:freq\_comp\]
i | \(x_i\) | \(f_i\) | \(x_if_i\) | \(p_i\) | \((x_i-\bar{x})^2\) | \((x_i-\bar{x})^2 * p_i\) | \((x_i-\bar{x})^2 * f_i\) |
---|---|---|---|---|---|---|---|
1 | 1 | 2 | 2 | 2/12 | 6.25 | 1.04 | 12.5 |
2 | 2 | 1 | 2 | 1/12 | 2.25 | 0.19 | 2.25 |
3 | 3 | 3 | 9 | 3/12 | 0.25 | 0.06 | 0.75 |
4 | 4 | 3 | 12 | 3/12 | 0.25 | 0.06 | 0.75 |
5 | 5 | 2 | 10 | 2/12 | 2.25 | 0.38 | 4.5 |
6 | 6 | 1 | 6 | 1/12 | 6.25 | 0.52 | 6.25 |
\(\Sigma\) | - | 12 | 42 | 1 | - | 2.25 | 27 |
Obliczenia pomocnicze \(\bar{x}\) i \(S(X)\)
Odpowiedź:
Wartość przeciętna wynosi \(\bar{x} = 42/12 = 3.5\), a średnie odchylenie obserwacji w zbiorze danych wokół średniej \(S(X)\) jest równe \(\sqrt{27/12} = 1.5\) tysiąca złotych (1500 zł).
Po wykonaniu obliczeń w zadaniach ze statystyki, zawsze należy podać odpowiedź słowną i zinterpretować wyniki.