Coefficiente di correlazione e relazione causale: formule e loro interpretazione

12/04/2019

Il coefficiente di correlazione è il grado di connessione tra due variabili. Il suo calcolo dà un'idea di se esiste una dipendenza tra due array di dati. A differenza della regressione, la correlazione non consente di prevedere i valori delle grandezze. Tuttavia, il calcolo del coefficiente è un passo importante in un'analisi statistica preliminare. Ad esempio, abbiamo riscontrato che il coefficiente di correlazione tra il livello degli investimenti diretti esteri e il tasso di crescita del PIL è elevato. Questo ci dà l'idea che per garantire il benessere, è necessario creare un clima favorevole specifico per gli imprenditori stranieri. Conclusione non così scontata a prima vista!

coefficiente di correlazione

Correlazione e causalità

Forse non c'è una singola area di statistiche che sarebbe così saldamente stabilita nella nostra vita. Il coefficiente di correlazione è utilizzato in tutte le aree di conoscenza pubblica. Il suo principale pericolo sta nel fatto che i suoi alti valori sono spesso speculati al fine di convincere le persone e far credere loro in alcune conclusioni. Tuttavia, in effetti, una forte correlazione non indica affatto una relazione causale tra le quantità.

Esiste una relazione tra due variabili?

Coefficiente di correlazione: formula di Pearson e Spearman

Ci sono diversi indicatori chiave che caratterizzano la relazione tra due variabili. Storicamente, il primo è il coefficiente di correlazione lineare di Pearson. È ancora a scuola. È stato sviluppato da C. Pearson e J. Yul sulla base delle opere di p. Galton. Questo coefficiente ti consente di vedere la relazione tra numeri razionali che cambiano razionalmente. È sempre maggiore di -1 e inferiore a 1. Un numero negativo indica una dipendenza inversamente proporzionale. Se il coefficiente è zero, non vi è alcuna connessione tra le variabili. Uguale a un numero positivo: esiste una relazione direttamente proporzionale tra le quantità studiate. Il coefficiente di correlazione di rango di Spearman consente di semplificare i calcoli costruendo una gerarchia di valori variabili.

formula del coefficiente di correlazione

Relazione tra variabili

La correlazione aiuta a trovare la risposta a due domande. Innanzitutto, la relazione tra le variabili è positiva o negativa. In secondo luogo, quanto è forte la dipendenza. Analisi di correlazione è un potente strumento grazie al quale puoi ottenere queste importanti informazioni. È facile vedere che le entrate e le uscite familiari diminuiscono e crescono proporzionalmente. Questa relazione è considerata positiva. Al contrario, con la crescita dei prezzi per i beni, la domanda per esso cade. Tale connessione è chiamata negativa. I valori del coefficiente di correlazione sono compresi tra -1 e 1. Zero significa che non esiste alcuna relazione tra i valori in esame. Più vicino è l'indicatore ai valori estremi, più forte è la connessione (negativa o positiva). L'assenza di dipendenza è indicata da un coefficiente compreso tra -0,1 e 0,1. È necessario capire che un tale valore indica solo l'assenza di una connessione lineare.

Coefficiente di correlazione e il suo valore

Caratteristiche dell'applicazione

L'uso di entrambi gli indicatori è soggetto a determinati presupposti. Primo, la presenza di una connessione forte non implica il fatto che una quantità ne determina un'altra. Potrebbe esserci una terza quantità che definisce ciascuno di essi. In secondo luogo, l'alto coefficiente di correlazione di Pearson non indica una relazione causale tra le variabili studiate. In terzo luogo, mostra solo dipendenza lineare. La correlazione può essere utilizzata per stimare dati quantitativi significativi (ad esempio, pressione atmosferica, temperatura dell'aria) e non categorie come il sesso o il colore preferito.

Coefficiente di correlazione multipla

Pearson e Spearman hanno studiato la relazione tra le due variabili. Ma come comportarsi nell'eventualità che ce ne siano tre o anche di più. Questo è dove il coefficiente di correlazione multipla viene in soccorso. Ad esempio, il prodotto nazionale lordo non è influenzato solo da diretto investimento straniero ma anche monetario e politica fiscale stato, così come il livello delle esportazioni. Il tasso di crescita e il volume del PIL sono il risultato dell'interazione di una serie di fattori. Tuttavia, va inteso che il modello di correlazione multipla si basa su una serie di semplificazioni e ipotesi. Innanzitutto, è esclusa la multicollinearità tra le quantità. In secondo luogo, si presume che la relazione tra il dipendente e le variabili che la influenzano sia lineare.

coefficiente di correlazione multipla

Aree di utilizzo della correlazione e analisi di regressione

Questo metodo per trovare la relazione tra le quantità è ampiamente utilizzato nelle statistiche. Solitamente si ricorre a tre casi principali:

  1. Per testare la relazione causale tra i valori di due variabili. Di conseguenza, il ricercatore spera di trovare una relazione lineare e ricavare una formula che descriva queste relazioni tra le quantità. Le unità delle loro misure possono essere diverse.
  2. Per verificare la connessione tra i valori. In questo caso, nessuno determina quale variabile dipende. Potrebbe risultare che il valore di entrambe le quantità causi qualche altro fattore.
  3. Per derivare l'equazione. In questo caso, puoi semplicemente sostituire i numeri al suo interno e scoprire i valori della variabile sconosciuta.

Uomo che cerca la causalità

La coscienza è organizzata in modo tale che abbiamo sicuramente bisogno di spiegare gli eventi che stanno accadendo intorno. Una persona è sempre alla ricerca di una connessione tra l'immagine del mondo in cui vive e le informazioni che riceve. Spesso il cervello crea ordine dal caos. Può facilmente vedere una relazione causale dove non ce n'è. Gli scienziati devono imparare specificamente a superare questa tendenza. La capacità di valutare la relazione tra i dati è oggettivamente necessaria in una carriera accademica.

Pregiudizi dei media

Considera come la presenza di un legame di correlazione possa essere male interpretata. A un gruppo di studenti britannici con cattivo comportamento è stato chiesto se i loro genitori fumavano. Quindi il test è stato pubblicato sul giornale. Il risultato ha mostrato una forte correlazione tra i genitori che fumano e le offese dei loro figli. Il professore che ha condotto lo studio ha anche suggerito di mettere un avvertimento sui pacchetti di sigarette. Tuttavia, ci sono una serie di problemi con questa conclusione. Innanzitutto, la correlazione non mostra quale delle quantità è indipendente. Pertanto, si può presumere che la dipendenza dei genitori sia causata dalla disobbedienza dei bambini. In secondo luogo, è impossibile affermare con certezza che entrambi i problemi non sono apparsi a causa di un terzo fattore. Ad esempio, famiglie a basso reddito. Va notato l'aspetto emotivo dei risultati iniziali del professore che ha condotto lo studio. Era un ardente avversario del fumo. Pertanto, non sorprende che abbia interpretato i risultati della sua ricerca in questo modo.

Grado di correlazione

risultati

L'errata interpretazione della correlazione come relazione causale tra due variabili può causare errori vergognosi nella ricerca. Il problema è che si trova nel cuore stesso della coscienza umana. Molti trucchi di marketing si basano su questa particolare caratteristica. Comprendere la differenza tra causalità e correlazione consente di analizzare razionalmente le informazioni sia nella vita di tutti i giorni che in una carriera professionale.