6.3 Centralne twierdzenie graniczne, CTG (Central Limit Theorem)

Centralne twierdzenie graniczne (CTG) stwierdza, że rozkład średniej z próby (także sumy S oraz proporcji p z próby) dowolnej niezależnej zmiennej losowej będzie normalny lub prawie normalny, jeśli wielkość próby jest wystarczająco duża.

„Centralne twierdzenie graniczne (CTG) jest prawdopodobnie najbardziej znanym twierdzeniem statystycznym, jest szeroko stosowane w każdej dziedzinie, która chce coś wywnioskować lub przewidzieć na podstawie zebranych danych. Pierwsza (prosta) wersja twierdzenia została wprowadzona w osiemnastym wieku, najpierw przez de Moivre, …". - Javier Rodríguez Chatruc, Federico Carrone (czytaj więcej tutaj: https://lambdaclass.com/data_etudes/central_limit_theorem_misuse/)

Centralne twierdzenie graniczne (CTG) stwierdza, że w wielu sytuacjach, gdy dodaje się niezależne zmienne losowe, ich odpowiednio znormalizowana suma S zmierza w kierunku rozkładu normalnego (nieformalnie krzywej dzwonowej), nawet jeśli same pierwotne zmienne nie mają rozkładu normalnego. Twierdzenie to jest kluczowym pojęciem w teorii prawdopodobieństwa, ponieważ sugeruje, że metody probabilistyczne i statystyczne, które działają dla rozkładów normalnych, mogą być stosowane do wielu problemów związanych z innymi typami rozkładów.

Centralne twierdzenie graniczne stwierdza, że gdy nieskończona liczba kolejnych losowych próbek jest pobierana z populacji, rozkład średnich z tych próbek będzie w przybliżeniu normalny ze średnią \(\mu\) i wariancją \(\sigma^2 / n\); przybliżenie staje się coraz lepsze wraz z wzrostem wielkości próby (n), niezależnie od kształtu rozkładu populacji.


Z CTG wynika, że zmienna losowa \(\Sigma X = X_1 + X_2 + ... + X_n\), przy czym niech \(X_i\) będą niezależne i niech mają taki sam rozkład (tj. są i.i.d.), dla dostatecznie dużego n, ma w przybliżeniu rozkład normalny.

W praktyce podobieństwo rozkładów sum zmiennych losowych obserwuje się zwykle, gdy n jest równe co najmniej 30.

Zauważ, że dowolny ciąg zmiennych losowych \(X_1, X_2, ..., X_n\) można utożsamić z n-elementową próbą losową, gdzie \(x_1, x_2, ... x_n\) są realizacjami losowej próby (obserwacjami). Np. \(x_2\) może oznaczać respondenta nr 2, którego zapytano o to, czy popiera partię A lub np. zbadano jaki jest jego poziom IQ, itp.

6.3.0.1 Centralne twierdzenie graniczne dla estymatora średniej z próby

Niech \(X_1, X_2, ..., X_n\) będzie ciągiem niezależnych zmiennych losowych o dowolnym rozkładzie, i.i.d, z wartością oczekiwaną \(E(X_i) = \mu\) oraz z wariancją \(Var(X_i) = \sigma^2\). Wtedy, dla dostatecznie dużego \(n\),

\[\frac{\sum_{i=1}^{n} X_i}{n} = \overline{X} \sim N(\mu, \frac{\sigma^2}{\sqrt{n}}) \text{ oraz }\]

\[\frac{\sum_{i=1}^{n} X_i - n\mu}{\sigma\sqrt{n}} = \frac{\overline{X} - \mu}{\sigma/ \sqrt{n}}\longrightarrow Z, \text{gdzie } Z\sim N(0, 1)\]

Z CTG wynika, że dla prostej próby losowej \(X_1, X_2, ..., X_n\) z populacji o wartości oczekiwanej \(\mu\) i odchyleniu standardowym \(\sigma\), gdy n rośnie w nieskończoność, rozkład średniej \(\overline{X}\) z próby, wraz z wzrostem n, upodabnia się do rozkładu normalnego \(N(\mu, \frac{\sigma}{\sqrt{n}})\).

Ponadto, \(\mu_{\overline{X}} = E(\overline{X}) = \mu\), oraz \(\sigma_{\overline{X}} = Var(\overline{X}) = \frac{\sigma}{\sqrt{n}}\).

CTG dostarcza nam wiedzy o rozkładzie z próby estymatorów nieznanych wartości parametrów populacji (parametry to liczby charakteryzujące daną populację, np. średnia arytmetyczna ocen uczniów pewnej klasy). Ta wiedza pozwala ustalić na podstawie analizy prostej próby losowej, które wartości określonych parametrów populacji są bardziej, a które mniej prawdopodobne.

Średnią z próby \(\overline{X}\), częstość (frakcję) \(\widehat{p}\), odchylenie standardowe z próby \(S(X)\) i wiele innych estymatorów nieznanych wartości parametrów danej populacji generalnej określa się często w statystyce mianem statystyk z próby.

Jak wiemy z CTG, dla dostatecznie dużych n, \(\overline{X} \sim N(\mu, \frac{\sigma}{\sqrt{n}})\)

6.3.0.2 CTG dla estymatora częstości (proporcji) z próby

CTG można, dla estymatora frakcji \(\frac{\Sigma X_i}{n} = \widehat{p}\), sformułować następująco:

Jeżeli \(X_i \sim Bern(p)\) oraz \(E(X_i) = p, Var(X_i) = p(1-p)\) i \(\Sigma X_i \sim Bin(n, p)\) oraz \(E(\Sigma X_i) = np, Var(\Sigma X_i) = np(1-p)\), to ponadto, gdy \(n \rightarrow \infty\),

\[\Sigma X_i \sim N(\mu = np, \sigma = \sqrt{np(1-p)}) \text{ oraz }\]

\[\frac{\Sigma X_i}{n} \sim N(\mu = p, \sigma = \sqrt{\frac{p(1-p)}{n}})\]

Ponadto, dla estymatora proporcji (frakcja z próby):

Niech \(X_1, X_2, ..., X_n\) będzie ciągiem niezależnych zmiennych losowych o rozkładzie \(Bern(p)\), z wartością oczekiwaną \(E(X_i) = p\) oraz z wariancją \(Var(X_i) = p(1-p)\). Wtedy, gdy \(n \longrightarrow \infty\), \[\frac{\sum_{i=1}^{n} X_i - np}{\sqrt{np(1-p)}} = \frac{\frac{\sum_{i=1}^{n} X_i}{n} - p}{\sqrt{\frac{p(1-p)}{n}}} = \frac{\widehat{p} - p}{\sqrt{\frac{p(1-p)}{n}}}\longrightarrow Z, \text{gdzie } Z\sim N(0, 1)\]

Ze szczególnej wersji CTG wynika, że dla dostatecznie dużych n, \(\widehat{p} \sim N(p, \sqrt{\frac{p(1-p)}{n}})\), czyli \(E(\widehat{p}) = p, Var(\widehat{p}) = \frac{p(1-p)}{n}\)

Rozkład dwumianowy możemy dobrze przybliżyć rozkładem normalnym, gdy \(np \geq 5\) i \(nq \geq 5\)