3.23 Obliczanie średniej, wariancji i odchylenia standardowego

Dla następującego zbioru nieuporządkowanych danych: \(A = \{1, 2, 1, 10, 12\}\), policz wartość średnią (wartość oczekiwaną) i odchylenie standardowe. Korzystamy z wzorów z tablicy 1.2.

Obliczamy średnią arytmetyczną:

\[\bar{x} = \frac{1}{5}\sum_{i=1}^{5}x_i = \frac{1+2+1+10+12}{5} = 5.2\]

Następnie wyznaczamy wariancję:

\[S^2(X) = \frac{1}{5}\sum_{i=1}^{5}(x_i - 5.2)^2 = \frac{(1-5.2)^2 + (2-5.2)^2 + (1-5.2)^2 + (10-5.2)^2 + (12-5.2)^2}{5} = 22.96\]

I liczymy odchylenie standardowe:

\[S(X) = \sqrt{22.96} = 4.79\]

Dane nieuporządkowane ze zbioru \(A\) można przedstawić w postaci rozkładu częstości (szereg rozdzielczy).

\(i\)	\(x_i\)	\(f_i\)	\(p_i\)
1	1	2	2/5
2	2	1	1/5
3	10	1	1/5
4	12	1	1/5

Rozkład częstości

\(f_i\) = częstości bezwzględne

\(p_i\) = częstości względne/prawdopodobieństwa empiryczne/proporcje/wagi

Dla tak jak w tabeli przedstawionych danych, średnią i odchylenie standardowe można policzyć trochę innym sposobem:

\[\bar{x} = \sum_{i=1}^{4}x_ip_i = 1*\frac{2}{5}+2*\frac{1}{5}+10*\frac{1}{5}+12*\frac{1}{5} = 5.2\]

\[S^2(X) = \sum_{i=1}^{4}(x_i - 5.2)^2*p_i = (1-5.2)^2*\frac{2}{5} + (2-5.2)^2*\frac{1}{5} + (10-5.2)^2*\frac{1}{5} + (12-5.2)^2*\frac{1}{5} = 22.96\]

\[S(X) = \sqrt{22.96} = 4.79\]

Tabela 1.4 zawiera szereg szczegółowy danych na temat wynagrodzeń w Polsce, w dwóch, losowo wybranych, grupach osób (w tysiącach złotych) (zmienne X i Y).

\[table:tally\]

i	\(x_i\)	\(y_i\)
1	1	4
2	3	3
3	4	3
4	5	4
5	3	5
6	4	3
7	6	3
8	5	4
9	4	5
10	2	3
11	1	2
12	3	3
\(\Sigma\)	42	42

Szereg szczegółowy dla zmiennych X i Y

Oblicz wartość średnią (wartość oczekiwaną) (oznaczamy \(E(X)\) lub \(\mu\) dla populacji i \(\bar{x}\) dla próby) dla zarobków w każdej próbie. Ponadto wyznacz wariancję i odchylenie standardowe zmiennych X i Y.

Dane na tym etapie są nieuporządkowane (szereg szczegółowy), więc korzystamy z następujących wzorów:

\[E(X) = \bar{x} = \frac{1}{n}(\sum_{i=1}^{n}x_i)\]

\[E((X - \bar{X})^2) = S^2(X) = \frac{1}{n}(\sum_{i=1}^{n}(x_i - \bar{x})^2)\]

\[S(X) = \sqrt{S^2(X)}\]

gdzie: \(n\) = liczba obserwacji
Przedstaw dane dla zmiennej \(X\) z tabeli 1.2 w postaci szeregu rozdzielczego punktowego (rozkład częstości) i ponownie wyznacz średnią i odchylenie standardowe.

Po przekształceniu zbioru danych w szereg rozdzielczy wzory trzeba zmodyfikować:

\[E(X) = \bar{x} = \frac{1}{n}(\sum_{i=1}^{k}x_if_i)\]

\[E((X - \bar{X})^2f_i) = S^2(X) = \frac{1}{n}(\sum_{i=1}^{k}(x_i - \bar{x})^2f_i)\]

\[S(X) = \sqrt{S^2(X)}\]

gdzie: \(n\) = liczba obserwacji; \(k\) = liczba wyróżnionych wartości/wierszy

Stosując wzory, zawsze pamiętaj o kolejności wykonywania działań:

Kolejność jest następująca:

działania w nawiasach
potęgowanie i pierwiastkowanie
mnożenie i dzielenie
dodawanie i odejmowanie

Warto pamiętać, że dzielenie zawsze można zastąpić mnożeniem przez odwrotność.

\[table:tally\_comp\]

i	\(x_i\)	\(x_i - \bar{x}\)	\((x_i - \bar{x})^2\)
1	1	-2.5	6.25
2	3	-0.5	0.25
3	4	0.5	0.25
4	5	1.5	2.25
5	3	-0.5	0.25
6	4	0.5	0.25
7	6	2.5	6.25
8	5	1.5	2.25
9	4	0.5	0.25
10	2	-1.5	2.25
11	1	-2.5	6.25
12	3	-0.5	0.25
\(\Sigma\)	42	0	27

Obliczenia pomocnicze dla \(\bar{x}\) i \(S(X)\)

Zobacz tabelę 1.2, w której znajdują się potrzebne wzory. Obliczenia pomocnicze przedstawiono w tabelach 1.5 (szereg szczegółowy) i 1.7 (szereg rozdzielczy).

Odpowiedź:

Wartość przeciętna wynosi \(\bar{x} = 42/12 = 3.5\), a średnie odchylenie obserwacji w zbiorze danych względem średniej \(S(X)\) jest równe \(\sqrt{27/12} = 1.5\) tysiąca złotych (1500 zł).

Tabela 1.6 przedstawia dane z tabeli 1.4 w postaci szeregu rozdzielczego, gdzie \(f_i\) oznacza bezwzględną częstość występowania. Dane statystyczne są czasami przedstawione w postaci szeregu szczegółowego, czyli tak jak w tabeli 1.4, a czasami w postaci szeregu rozdzielczego, który powstaje z szeregu szczegółowego po uporządkowaniu danych.

\[table:freq\_X\]

i	\(x_i\)	\(f_i\)
1	1	2
2	2	1
3	3	3
4	4	3
5	5	2
6	6	1
\(\Sigma\)	-	12

Szereg rozdzielczy dla X

W tabeli, 1.6 dane z tabeli 1.4 zostały przedstawione po przekształceniu do postaci szeregu rozdzielczego punktowego. Sposób prezentacji danych nie zmienia wartości wskaźników takich jak średnia arytmetyczna lub wariancja, ale sposób liczenia może ulec zmianie - odpowiednie wzory znajdziesz w tabeli 1.2.

\[table:freq\_comp\]

i	\(x_i\)	\(f_i\)	\(x_if_i\)	\(p_i\)	\((x_i-\bar{x})^2\)	\((x_i-\bar{x})^2 * p_i\)	\((x_i-\bar{x})^2 * f_i\)
1	1	2	2	2/12	6.25	1.04	12.5
2	2	1	2	1/12	2.25	0.19	2.25
3	3	3	9	3/12	0.25	0.06	0.75
4	4	3	12	3/12	0.25	0.06	0.75
5	5	2	10	2/12	2.25	0.38	4.5
6	6	1	6	1/12	6.25	0.52	6.25
\(\Sigma\)	-	12	42	1	-	2.25	27

Obliczenia pomocnicze \(\bar{x}\) i \(S(X)\)

Odpowiedź:

Wartość przeciętna wynosi \(\bar{x} = 42/12 = 3.5\), a średnie odchylenie obserwacji w zbiorze danych wokół średniej \(S(X)\) jest równe \(\sqrt{27/12} = 1.5\) tysiąca złotych (1500 zł).

Po wykonaniu obliczeń w zadaniach ze statystyki, zawsze należy podać odpowiedź słowną i zinterpretować wyniki.