2.7 Próba losowa 12

Przy doborze próby nie można przecenić znaczenia losowości. W myśleniu statystycznym oczekujemy, że losowa próbka będzie miała w przybliżeniu te same właściwości co populacja. Ponadto, zwykle im większy rozmiar próbki, tym bardziej właściwości próbki są zbliżone do właściwości populacji.

Na przykład, aby oszacować średni wzrost dorosłych mężczyzn, wybranie próby spośród graczy NBA byłoby wysoce stronnicze. Generalnie próbki nielosowe są generowane, gdy w procesie selekcji występuje błąd. Takie próbki są bezużyteczne do celów statystycznych, ponieważ próbka nie jest reprezentatywna dla populacji. Prosta próba losowa to taka, w której każdy osobnik w populacji ma takie samo prawdopodobieństwo wyboru. Aby spełnić ten wymóg, stosowana metoda pobierania próbek musi być wolna od błędów w odniesieniu do mierzonej właściwości. Liczby losowe generowane komputerowo (zwane również liczbami pseudolosowymi) mogą być używane do wybierania losowych próbek: najpierw przypisujemy liczbę do każdej osoby w populacji, a następnie używamy komputerowego generatora liczb losowych, aby wybrać próbę. Poniżej przedstawiono typowe typy błędów próbkowania.

2.7.1 Obciążenie badania (bias) - błędy próbkowania i błędy systematyczne

W statystyce błędy próbkowania powstają, gdy charakterystyka statystyczna populacji jest szacowana na podstawie podzbioru lub próby tej populacji. Ponieważ próba nie obejmuje wszystkich członków populacji, statystyki dotyczące próby, takie jak średnie i kwartyle, zasadniczo różnią się od charakterystyk całej populacji, które są znane jako parametry. Na przykład, jeśli mierzy się wzrost tysiąca osób z kraju liczącego milion osób, średni wzrost tysiąca zwykle nie jest taki sam, jak średni wzrost wszystkich miliona ludzi w kraju. Ponieważ pobieranie próbek jest zwykle wykonywane w celu określenia cech całej populacji, różnica między próbą a wartościami populacji jest uważana za błąd.

Systematyczny błąd jest przewidywalny i zwykle stały lub proporcjonalny do prawdziwej wartości. Jeśli można zidentyfikować przyczynę systematycznego błędu, zwykle można ją wyeliminować. Systematyczne błędy wynikają z niedoskonałej kalibracji przyrządów pomiarowych lub niedoskonałych metod obserwacji lub ingerencji środowiska w proces pomiarowy i zawsze wpływają na wyniki eksperymentu w przewidywalnym kierunku.

2.7.1.1 Wybrane źródła błędów w badaniach statystycznych

  1. Błąd wykluczenia, gdy część populacji jest wykluczona z procesu pobierania próbek.
  2. Stronniczość odpowiedzi, w której sformułowanie kwestionariusza nie jest neutralne, ale raczej sugeruje lub prowokuje określoną odpowiedź.
  3. Błąd braku odpowiedzi, w którym osoby o wspólnej charakterystyce niechętnie udzielają odpowiedź na pytania (Zauważ, że nie jest to przeciwieństwo błędu odpowiedzi).
  4. Błąd samoselekcji (lub błąd dobrowolnej odpowiedzi), w którym osoby wybierają siebie (lub zgłaszają się na ochotnika) do próby. Wiele z tych błędów wynika z wygodnego pobierania próbek, w którym próbki są pobierane od osób tylko dlatego, że znajdują się w pobliżu lub są łatwo dostępne.
  5. Selection bias, tj. błąd selekcji - jest to błąd wynikający z selekcji osób, grup lub danych do analizy w taki sposób, że nie jest osiągnięty wystarczający poziom losowości, co powoduje, że uzyskana próba nie jest reprezentatywna dla populacji, która ma być analizowana. Czasami nazywa się to efektem selekcji. Sformułowanie „błąd selekcji" najczęściej odnosi się do zniekształcenia analizy statystycznej, wynikającego ze sposobu zbierania próbek. Jeśli nie weźmie się pod uwagę błędu selekcji, niektóre wnioski z badania mogą być fałszywe.

2.7.2 Dobór próby

W praktyce trudno jest zapewnić dobór próby losowej. Opracowano kilka metod pobierania próbek w określonych sytuacjach. Oto niektóre z najczęstszych.

  1. Systematyczne pobieranie próbek: W systematycznym pobieraniu próbek próbka jest systematycznie wybierana z listy. Na przykład możemy wybrać co setne nazwisko w książce telefonicznej.
  2. Próbkowanie warstwowe: W próbkowaniu warstwowym populacja jest najpierw dzielona na nienakładające się (rozłączne) grupy (lub warstwy), a następnie próbka jest wybierana proporcjonalnie z każdej grupy. Na przykład, aby wybrać próbkę zarejestrowanych wyborców, możemy podzielić populację na grupy - biali, Afroamerykanie, Latynosi i inni - a następnie losowo wybrać zarejestrowanych wyborców, wybierając z każdej grupy liczbę proporcjonalną do wielkość tej grupy w populacji.
  3. Próbkowanie klastrowe: W losowaniu klastrów populacja jest dzielona na grupy (lub klastry), a następnie wybierana jest próba losowa klastrów. Na przykład, aby przeprowadzić ankietę wśród mieszkańców Los Angeles, najpierw losowo wybieramy zbiór budynków mieszkalnych (grupy), a następnie przeprowadzamy wywiady z każdym mieszkańcem wybranych budynków. Ten rodzaj pobierania próbek zmniejsza czas i koszty ankietera w podróży z miejsca na miejsce.

  1. Pobrane z: Stewart, J., Redlin, L. and Watson, S., 2013. Precalculus. Cengage Learning.↩︎