| {{ 'ml-lesson-number-slides' | message : article.intro.bblockCount }} |
| {{ 'ml-lesson-number-exercises' | message : article.intro.exerciseCount }} |
| {{ 'ml-lesson-time-estimation' | message }} |
Ett spridningsdiagram är ett sätt att visualisera mätdata med två parametrar i ett koordinatsystem. Om man t.ex. mäter höjden på tomatplantor vid olika tidpunkter får man ett antal datapunkter som kan markeras i ett koordinatsystem med tiden som x-koordinat och höjden som y-koordinat. Då har man gjort ett spridningsdiagram.
Om det finns ett samband mellan två eller fler faktorer säger man att de korrelerar. Det finns t.ex. en korrelation mellan längd och ålder (fram till att man slutar växa): ju äldre man är, desto längre är man. Detta kallas för positiv korrelation och innebär att om en variabel ökar så ökar även den andra. Om den ena variabeln däremot minskar när den andra ökar kallas det negativ korrelation.
Ju mer datapunkterna ser ut att följa en viss trend, desto mer korrelerade säger man att de är. Om de ligger nästan exakt på en linje säger man att variablerna är starkt korrelerade medan om de är mer utspridda är de svagt korrelerade.
Korrelationskoefficienten, r, är ett mått på hur stark en korrelation är. Den varierar mellan −1 och 1. Värden nära −1 innebär att korrelationen är stark och negativ, medan en korrelation nära 1 är stark och positiv. Har den värdet 0 finns det ingen korrelation.
I koordinatsystemen visas spridningsdiagram mellan två parametrar.
Värden nära −1 innebär att korrelationen är stark och negativ, medan en korrelation nära 1 är stark och positiv. Har den värdet 0 finns det ingen korrelation.
Vi tittar på diagrammen ett i taget.
Diagram A visar en positiv korrelation, eftersom lutningen är positiv. Det är även en stark korrelation, eftersom punkterna ligger nära en tänkt rät linje. Därför är det korrelationskoefficienten r≈1 som passar bäst.
Spridningsdiagram B verkar inte ha någon positiv eller negativ trend. Därför är korrelationskoefficienten ungefär 0.
Både C och D visar på en negativ korrelation, eftersom det är en negativ lutning. Diagram D har en starkare korrelation än C, eftersom det visar på en tydligare trend. Därför hör C ihop med r≈−0,85 och D med r≈−1.
Diagram | r |
---|---|
A | ≈1 |
B | ≈0 |
C | ≈−0,85 |
D | ≈−1 |
På vintern går både antalet villabränder och bilolyckor upp — de är korrelerade. Däremot kan man inte säga att villabränder får bilar att krocka. Anledningen är att vintern är en gemensam faktor som orsakar både halare väglag och att fler ljus tänds, vilket leder till fler eldsvådor. Det finns en korrelation mellan villabränder och bilolyckor, men ingen kausalitet.
Bestäm om en parameter orsakar den andra.
Analysera fallen ett i taget.
Den första situationen föreslår att det finns en korrelation mellan de arbetade timmarna och den mängd pengar som tjänas. Vanligtvis beror mängden pengar någon tjänar på antalet arbetade timmar. Detta innebär att det finns ett kausalt samband.
Den andra situationen föreslår att det finns en korrelation mellan en students höjd och deras favoritmat. När det gäller favoritmat beror det på personlig preferens. Å andra sidan beror höjden på genetik, inte på maten. Detta innebär att det inte finns ett kausalt samband.
Målen kan referera till många sporter. Låt oss överväga fotboll. Traditionellt bär anfallare och offensiva spelare lägre nummer som 7, 9, 10, och 11. Dock har numret på tröjan ingen effekt på de mål som görs. Då finns det inte något kausalt samband.
När man gör träning som att springa, förbränner vi kalorier. Dessutom, ju mer tid som spenderas på träning, desto fler kalorier förväntas förbrännas. Detta indikerar ett kausalt samband.