2.8 Rozkłady danych

Pierwszym krokiem w analizie danych zebranych na temat zmiennej jest przyjrzenie się obserwowanym wartościom za pomocą wykresów i podsumowań liczbowych. Celem jest opisanie kluczowych cech rozkładu zmiennej. Najważniejszym krokiem eksploracyjnej analizy danych jest oszacowanie rozkładu obserwacji na zmiennej.

Rozkład zmiennej opisuje, jak obserwacje mieszczą się (rozkładają) w zakresie możliwych wartości.

Rozkład zbioru danych to tabela, wykres lub formuła, która zawiera wartości obserwacji i częstotliwość ich występowania.

Ważną cechą rozkładu danych jest jego kształt. Kształt rozkładu często odgrywa rolę w określaniu odpowiedniej metody analizy statystycznej. Do oszacowania rozkładu danych wykorzystujemy narzędzia do wizualizacji danych takie jak histogram lub wykres pudełkowy.

Rozkład częstości to zbiór obserwacji uzyskanych poprzez posortowanie obserwacji w klasy i pokazanie ich częstotliwości występowania w każdej z klas:

Rozkład (częstość) danych - określa możliwe obserwacje (liczby, kategorie) i wskazuje, jak często występują. Rozkład częstości to tabela podsumowująca, w której dane są uporządkowane liczbowo w klasach lub przedziałach.
Rozkład częstotliwości względnych uzyskuje się, dzieląc częstotliwość absolutne w każdej klasie przez całkowitą sumę wartości. Z tego można uzyskać rozkład procentowy mnożąc każdą względną częstotliwość przez 100%.

Rozkład częstości dla danych kategorialnych (jakościowych): Tabela, która wyświetla możliwe kategorie wraz z powiązanymi częstotliwościami i/lub częstotliwościami względnymi.

Częstość: częstość dla określonej kategorii to liczba przypadków, w których kategoria pojawia się w zbiorze danych. Względna częstotliwość dla określonej kategorii to odsetek obserwacji należących do tej kategorii.