3.47 Miary korelacji

Ważne mierniki korelacji, których interpretację i warunki stosowania należy znać to:

  • kowariancja i wskaźnik korelacji liniowej Pearsona (tylko dane ilościowe);

  • wskaźnik korelacji rang Spearmana (dane mierzone na skali porządkowej);

  • wskaźnik korelacji dla danych porządkowych Kendall \(\tau_b\) (dane mierzone na skali porządkowej);

  • test niezależności chi-kwadrat \(\chi^2\) (dla danych nominalnych).

Wszystkie spośród wskazanych wyżej mierników korelacji najłatwiej obliczyć wykorzystując oprogramowanie statystyczne takie jak język R.

Dla przykładu przedstawiony zostanie tylko algorytm liczenia wskaźnika korelacji liniowej Pearsona. W przypadku pozostałych mierników, ich wartości obliczymy za pomocą języka R i podamy jak należy interpretować wyniki.

Należy pamiętać, że wskaźnik korelacji liniowej ocenia siłę związku liniowego, jeżeli związek między zmiennymi ma kształt np. paraboliczny, to wartość wskaźnika będzie myląca. Innymi słowy, niska wartość wskaźnika nie musi implikować braku zależności.

3.47.1 Współczynnik korelacji liniowej \(\rho\) Pearsona

Aby policzyć wartość współczynnika korelacji, wpierw należy wyznaczyć tzw. kowariancję. Kowariancja, podobnie jak współczynnik korelacji liniowej Pearsona jest miarą siły liniowego związku między parą zmiennych.

Przyjmijmy, że \((X_1,Y_1),\ldots,(X_n,Y_n)\) jest dwuwymiarową (para X i Y) próbą losową. Kowariancja z próby \(\widehat \sigma_{X,Y}\), która jest estymatorem nieznanej wartości kowariancji z populacji, jest określona następująco (Przy obliczeniach najłatwiej skorzystać z formuły pierwszej od prawej): \[\widehat{\mbox{Cov}}(X,Y) = \frac{1}{n-1}\sum_{i=1}^n\left(X_i-\overline X \right)\left(Y_i-\overline Y \right) = \frac1{n-1}\left[\sum_{i=1}^n X_iY_i -\frac1n\left(\sum_{i=1}^nX_i\right)\left(\sum_{i=1}^nY_i \right) \right],\] Współczynnik korelacji liniowej Pearsona definiuje się w następujący sposób: \[\widehat \rho _{X,Y} =\frac{\widehat \sigma_{X,Y}}{S_XS_Y},\] gdzie \(S_X\) and \(S_Y\) są oszacowaniami odchyleń standardowych dla zmiennych \(X\) i \(Y\).

Rozważmy \(n=10\) par \((X,Y)\) wartości:

X-values: 4.9681, 2.1757, 3.47928, 2.2873, 1.7415, 4.0740, 2.3046,
Y-values: 95.2380, 0.5249, 21.4913, 0.7289, 0.1404, 75.8636, 0.7781,

X-values: 3.6008, 2.2666, 0.7241
Y-values: 28.2765, 0.6569, -0.0068

Dla tych danych, \(\sum X_i=27.622\), \(\sum Y_i=223.692\), \(\sum X_iY_i = 965.142\). Zatem, \[\widehat\sigma_{X,Y}=\frac19\left[965.142 -\frac1{10}(27.622)(223.692)\right]= 38.5844,\] i \[\rho_{X,Y}=\frac{38.5844 }{(1.2483)(35.0952)}=0.881.\]

Wartość współczynnika korelacji mieści się w przedziale domkniętym \([-1, 1]\). Im większa jego wartość bezwzględna, tym silniejsza jest zależność liniowa między zmiennymi. \(\rho_{xy} = 0\) oznacza brak liniowej zależności między cechami, \(rho_{xy} = 1\) oznacza dokładną dodatnią liniową zależność między cechami, natomiast \(rho_{xy} =-1\) oznacza dokładną ujemną liniową zależność między cechami, tzn. jeżeli zmienna x rośnie, to y maleje i na odwrót.

3.47.1.1 Współczynnik korelacji rangowej \(\rho\) Spearmana i \(\tau_b\) Kendalla

W przypadku zmiennych jakościowych (porządkowych lub nominalnych), nie są adekwatne metody analizy związku między zmiennymi, które stosuje się do badania cech ilościowych, czyli np. omawiany wskaźnik korelacji liniowej Pearsona.

Dla przykładu, gdy badacza interesuje odpowiedź na pytanie, czy poziom religijności człowieka (zmienna jakościowa) wpływa jakoś na jego autoidentyfikację na skali lewica - prawica (zmienna jakościowa), to po pierwsze należy stworzyć definicje operacyjne pojęć “poziom religijności” oraz “skala lewica - prawica”, a następnie wybrać do pomiaru zależności między takimi zmiennymi miernik, który jest odpowiedni dla pomiaru zależności między zmiennymi porządkowymi.

Na przykład, operacjonalizując wskazane pojęcia, można przyjąć założenie, że:

  • pomiar religijności będzie polegał na odpowiedzi na pytanie: Jaki jest Pana/Pani stosunek do religii? Proszę wybrać jeden z poziomów na skali od 0 (nie jestem w ogóle religijny) do 10 (jestem bardzo religijny). Zmienną zakodujmy symbolem lr

  • pomiar autoidentyfikacji na skali Lewica - Prawica będzie polegał na odpowiedzi na pytanie: Jak określiłby Pan/Pani swoje poglądy społeczno-polityczne na osi Lewica - Prawica? Proszę wybrać jeden z poziomów na skali od 0 (Lewica) do 10 (Prawica). Zmienną zakodujmy symbolem rel

Przyjmijmy, że w próbie zaobserwowano następujące odpowiedzi.

zmienna lr:  1, 1, 3, 3, 4, 5, 6, 6, 7, 8, 8, 8, 9, 10, 10, 1, 1, 2, 2, 3
zmienna rel: 1, 2, 4, 4, 3, 5, 5, 6, 8, 7, 7, 8, 10, 9,  9, 2, 2, 1, 2, 3

Oba wskaźniki przyjmują wartości z przedziału \(-1, 1\), przy czym wartości mniejsze od zera oznaczają korelację różnokierunkową, a dodatnie jednokierunkową. Im wyższa wartość bezwzględna wskaźników, tym korelacja silniejsza.

Można przyjąć, że wartość wskaźnika przekraczająca, co do wartości bezwzględnej, \(0.7\) oznacza silną korelację.

Do policzenia wskaźników wykorzystamy instrukcje języka programowania R.

# Definiujemy zbiór danych

lr  <- c(1, 1, 3, 3, 4, 5, 6, 6, 7, 8, 8, 8, 9, 10, 10, 1, 1, 2, 2, 3)
rel <- c(1, 2, 3, 4, 5, 5, 5, 6, 8, 8, 9, 10, 10, 9, 10, 4, 3, 6, 0, 2)


# Wyznaczamy współczynnik korelacji rangowej rho Spearmana

cor.test(lr, rel, method="spearman") # Wywołanie funkcji liczącej wskaźnik
## Warning in cor.test.default(lr, rel, method = "spearman"): Cannot compute exact p-value with ties
## 
##  Spearman's rank correlation rho
## 
## data:  lr and rel
## S = 162.64, p-value = 3.695e-07
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##       rho 
## 0.8777174
# data:  lr and rel
# S = 162.64, p-value = 3.695e-07
# alternative hypothesis: true rho is not equal to 0
# sample estimates:
#       rho 
# 0.8777174


# Wyznaczamy współczynnik korelacji tau Kendalla

cor.test(lr, rel, method="kendall") # Wywołanie funkcji liczącej wskaźnik
## Warning in cor.test.default(lr, rel, method = "kendall"): Cannot compute exact p-value with ties
## 
##  Kendall's rank correlation tau
## 
## data:  lr and rel
## z = 4.3882, p-value = 1.143e-05
## alternative hypothesis: true tau is not equal to 0
## sample estimates:
##       tau 
## 0.7535683
# data:  lr and rel
# z = 4.3882, p-value = 1.143e-05
# alternative hypothesis: true tau is not equal to 0
# sample estimates:
#       tau 
# 0.7535683

Raport, który język R drukuje po wywołaniu instrukcji corr.test można zinterpretować następująco.

Po pierwsze, R zwraca wartości wskaźników korelacji \(\rho\) i \(\tau\), które odpowiednio wynoszą, w przybliżeniu: 0.88 i 0.75, czyli wskazują silną korelację dodatnią (jednokierunkową).

Ponadto, R zwraca tzw. p-value. Pojęcie p-wartości (p-value) lub tzw. prawdopodobieństwa testowego nie będzie tutaj wyjaśniane, ale trzeba zapamiętać, że, zwykle, gdy p-wartość przyjmuje wartość co najmniej 0.05 (jest to tzw. poziom istotności testu weryfikującego tzw. hipotezę zerową), to wówczas uprawdopodabnia się prawdziwość tzw. hipotezy alternatywnej, która zakłada, że prawdziwa wartość wskaźnika korelacji (\(\tau\) lub \(\rho\)) jest istotnie różna od zera (istotna statystycznie). Co to oznacza?

Otóż, jednym z działów wnioskowania statystycznego (statystyka matematyczna) jest tzw. testowanie hipotez statystycznych.

Testuje się układ dwóch hipotez (zerową i alternatywną):

  • np. wartość wskaźnika korelacji \(\rho\) jest równa 0 (nieistotna)
  • np. wartość wskaźnika korelacji \(\rho\) jest istotnie różna od zera (istotna statystycznie)

Zagadnienie testowania hipotez będzie omówione dalej, ale na tym etapie należy pamiętać, że p-value wskazuje, czy możemy odrzucić hipotezę zerową. Jeżeli H0 jest odrzucana, to wówczas można stwierdzić, że uogólnienie wartości wskaźnika korelacji obliczonego na podstawie próby, na jego wartość w populacji jest uprawnione - tak właśnie jest w powyższym przykładzie, gdyż wartość prawdopodobieństwa testowego jest mniejsza od 0.05.

3.47.2 Test niezależności chi-kwadrat \(\chi^2\)

Test niezależności chi-kwadrat jest relatywnie prostą metodą weryfikowania istotności związku między zmiennymi mierzonymi na skali nominalnej.

Załóżmy, że chcemy zbadać zależność między zmienną identyfikacja z partią polityczną i zmienną stosunek do demokracji.

Wskazane zmienne to zmienne jakościowe, przy czym zmienna identyfikacja z partią jest zmienną nominalną, a zmienna stosunek do demokracji może być potraktowana jako zmienna nominalna lub porządkowa (gdy przyjmiemy, że w zbiorze wszystkich wartości zmiennej można określić relację porządku). Ponieważ co najmniej jedna ze zmiennych jest zmienną nominalną, to musimy użyć metody, która jest adekwatna do badania związków między zmiennymi tego typu. Jedną z nich jest test niezależności \(\chi^2\). Można by też użyć wielomianowej regresji logistycznej, ale jest to metoda zbyt skomplikowana, aby omawiać ją w trakcie podstawowego kursu statystyki.

Przeprowadzenie testu chi-kwadrat wymaga utworzenia tzw. tabeli kontyngencji (tabeli krzyżowej). Tabela kontyngencji przedstawia zależność między dwiema zmiennymi. Dla przykładu:

Załóżmy, że przebadano wyborców, którzy deklarowali identyfikację z jedną z dwóch głównych partii politycznych w Polsce (PO lub PiS) w kontekście ich stosunku do demokracji. Tak więc, mamy dwie zmienne jakościowe w bazie danych zawierającej wyniki (dwie kolumny danych): 1) Partia polityczna (PO albo PiS); 2) Stosunek do demokracji (Demokracja jest najlepszą formą rządów, …). Następnie budujemy tabelę krzyżową podsumowującą związek miedzy tymi zmiennymi. Czy w świetle danych z próby istnieje istotna statystycznie zależność między stosunkiem do demokracji i identyfikacją z partią? Aby to sprawdzić, trzeba policzyć wartość tzw. statystyki testowej chi-kwadrat i zweryfikować, czy hipotezę, że zależność między zmiennymi jest nieistotna w sensie statystycznym można odrzucić.

Demokracja jest najlepszą formą rządów Są lepsze formy rządów Forma rządów jest nieistotna Nie mam zdania \(f_j\)
35 17 39 9
59 24 14 3
\(f_i\) 94 41 53 12 \(\Sigma f_{ij} =\)

Stosunek do demokracji a identyfikacja z PO lub PIS - dane z fikcyjnej próby Polaków

Procedura testu chi-kwadrat przedstawiona będzie w wykładzie dotyczącym testowania hipotez statystycnzych.