6.4 Estymacja punktowa i przedziałowa

Wnioskowanie statystyczne obejmuje dwa podstawowe elementy:

  • estymację (szacowanie),
  • weryfikację hipotez statystycznych.
  1. Teoria estymacji zajmuje się metodami szacowania (estymacji) nieznanego rozkładu lub nieznanych parametrów rozkładu badanej cechy X w populacji generalnej.
  2. Teoria weryfikacji hipotez zajmuje się metodami testowania dowolnego przypuszczenia dosytczącego nieznanego rozkładu lub nieznanych parametrów rozkładu badanej cechy X w populacji generalnej.

Estymacja punktowa to grupa metod statystycznych, służąca do punktowego oszacowania wartości szukanego parametru rozkładu. Punktowe oszacowanie oznacza tutaj, że uzyskujemy konkretną wartość liczbową, nie zaś przedział liczbowy, jak dzieje się to w przypadku estymacji przedziałowej.

Estymacja punktowa polega na podaniu jednej wartości będącej oszacowaniem nieznanego parametru. Ilustracją takiego sposobu estymacji jest oszacowanie na podstawie wyników badania sondażowego frekwencji wyborczej w nadchodzących wyborach.

Pojęcie “estymacja punktowa” bierze się stąd, że dla każdego parametru populacji znajdujemy jedną liczbę (na podstawie realizacji próby), w taki sposób, aby była ona możliwie najlepszym przybliżeniem nieznanego parametru. Jest to tzw. ocena punktowa parametru.

Ocena punktowa jest wyznaczana na podstawie wartości pewnej statystyki z próby, o własnościach upoważniających do szacowania za jej pomocą danego parametru populacji. Dla przykładu, następująca statystyka z próby:

\[\bar{x} = \frac{1}{n}\sum_{i=1}^{n}x_i\] posiada własności uprawniające do oszacowania (estymowania) za jej pomocą nieznanej wartości średniej w populacji generalnej (\(\mu\)).

W praktyce najczęściej nie znamy parametrów (charakterystyk) dla całej populacji a dysponujemy jedynie próbką wylosowaną z tej populacji. Estymatory punktowe to charakterystyki otrzymane z próby losowej. Dokładność takiego estymatora określona jest przez jego błąd standardowy. Prawdziwe parametry populacji znajdują się w okolicy wyznaczonego estymatora punktowego. Np. parametr populacyjny średnia arytmetyczna \(\mu\) znajduje się w okolicy estymatora z próby jakim jest \(\overline{x}\).

Użytecznym uzupełnienie estymacji punktowej jest skonstruowanie przedziału, który z zadanym z góry prawdopodobieństwem, bliskim jedności, pokrywałby nieznaną wartość tego parametru. Jest to zadanie estymacji przedziałowej. Z przedziałem ufności związany jest tzw. poziom ufności \(1-\alpha\), określający prawdopodobieństwo, że przedział ufności faktycznie pokrywa wartość nieznanego parametru populacji (np. \(\mu\)).

Przedział ufności to podstawowe narzędzie estymacji przedziałowej. Pojęcie to zostało wprowadzone do statystyki przez matematyka polskiego pochodzenia Jerzego Spławę-Neymana. Występuje w wielu wariantach, w klasycznym wąskim rozumieniu opiera się o błąd standardowy. Szczególny przypadek przedziału ufności w badaniach ankietowych jest zwyczajowo określany marginesem błędu.

Figure 6.4. 100 95% - przedziałów ufności dla nieznanej wartości średniej w populacji. Źródło: Wikipedia.org

Rysunek 6.4 przedstawia przedziały ufności (95%) oparte na stu symulacjach prób z tego samego rozkładu normalnego. Szerokość i położenie każdego przedziału to parametry oparte na próbie, w związku z czym cechują się one zmiennością. Można jednak oczekiwać, że w idealnej sytuacji na sto przypadków tylko około pięć (\(\alpha = 0.05\)) nie będzie zawierać średniej oryginalnego rozkładu.

Rysunek 6.5 przedstawia jeden z możliwych przedziałów ufności dla średniej populacyjnej.

Figure 6.5. 95%-przedział ufności - przykład

6.4.1 Przykład - przedział ufności i margines błędu

W próbie liczącej 985 wyborców, 592 zamierza głosować na kandydata Republikanów w najbliższych wyborach. Zbuduj 95% przedział ufności dla frakcji (proporcji) p wyborców deklarujących poparcie dla kandydata Republikanów. Podaj interpretację przedziału ufności.

Rozwiązanie:

Tzw. punktowym estymatorem frakcji jest oczywiście \(\hat{p} = \frac{X}{n} = \frac{592}{985} = 0.601\)

Odchylenie standardowe estymatora zwane błędem standardowym (\(\sigma_{\hat{p}}\)) obliczamy stosując znane wyrażenie \(\sqrt{\frac{p(1-p)}{n}} = 0.016\).

W celu ustalenia tzw. 95% przedziału ufności dla proporcji p wygodnie jest posłużyć się zmienną standaryzowaną Z.

Przyjmując tzw. poziom zaufania (ufności) 95%, można powiedzieć, że 95% przedziałów ufności, wygenerowanych na podstawie dowolnie dużej liczby prób reprezentatywnych wybranych z danej populacji, pokryje nieznaną wartość parametru populacji.

Dla zmiennej standaryzowanej \(Z\sim N(0, 1)\), 95% wszystkich obserwacji znajduje się w przedziale \([-1.96 < Z < 1.96]\). Wartości 1.96 można odczytać z tablic rozkładu normalnego szukając wartości zmiennej Z dla prawdopodobieństwa 0.975 = 97.5%. Dlaczego dla wartości 0.975? Otóż \(1 - 0.95 = 0.05\). Tę wartość dzielimy przez 2 i wówczas otrzymujemy 0.25 (0.25 na lewym krańcu rozkładu normalnego i 0.25 na prawym krańcu daje nam w sumie 0.05). Ostatecznie mamy \(1 - 0.25 = 0.975\).

Ściślej, przedział ufności to taki przedział, że

\[P(- z_{\alpha/2} < Z < z_{\alpha/2}) = P(- z_{\alpha/2} < \frac{\hat{p} - \mu_{\hat{p}}}{\sigma_{\hat{p}}} = \frac{\hat{p} - p}{\sqrt{ \frac{p(1-p)}{n} }} < z_{\alpha/2}) = 1 - \alpha\]

Po przekształceniach (wyprowadzamy p z nierówności) otrzymamy:

\[P(\hat{p} - z_{\alpha/2} \sqrt{ \frac{p(1-p)}{n} } < p < \hat{p} + z_{\alpha/2} \sqrt{ \frac{p(1-p)}{n} } ) = 1 - \alpha\]

Dla 95% przedziału ufności współczynnik \(\alpha\) - tzw. poziom istotności - jest równy 0.05, a \(z_{\alpha/2} = 1.96\)

Korzystając z wprowadzonych wzorów wyznaczamy przedział ufności dla proporcji p:

\[P( 0.601 - 1.96\sqrt{\frac{0.601(1-0.601)}{985}} < p < 0.601 + 1.96\sqrt{\frac{0.601(1-0.601)}{985}} ) = 0.95\] \[P( 0.601 - 0.0306 < p < 0.601 + 0.0306 ) = 0.95\]

Ponieważ nie znamy prawdziwej wartości proporcji p, zastępujemy wartość p jej oszacowaniem z próby.

Piszemy, że dla 95% przedziału ufności:

\[\hat{p} \pm 1.96\sqrt{ \frac{p(1-p)}{n}}\]

\[0.601 \pm 0.0306\]

Wartość 0.0306 nazywamy marginesem błędu lub błędem statystycznym.

Otrzymujemy ostatecznie, że p pokrywa przedział ufności \(0.5704, 0.6316\).

Odpowiedź: Możemy powiedzieć, że, z prawdopodobieństwem 0.95, przedziałów ufności \(0.5704, 0.6316\) pokryje nieznaną wartość parametru proporcji poparcia wyborczego dla kandydata Republikanów.