Logga in
| 5 sidor teori |
| 14 Uppgifter - Nivå 1 - 3 |
| Varje lektion är menad motsvara 1-2 lektioner i klassrummet. |
Om det finns ett samband mellan två eller fler faktorer säger man att de korrelerar. Det finns t.ex. en korrelation mellan längd och ålder (fram till att man slutar växa): ju äldre man är, desto längre är man. Detta kallas för positiv korrelation och innebär att om en variabel ökar så ökar även den andra. Om den ena variabeln däremot minskar när den andra ökar kallas det negativ korrelation.
Ju mer datapunkterna ser ut att följa en viss trend, desto mer korrelerade säger man att de är. Om de ligger nästan exakt på en linje säger man att variablerna är starkt korrelerade medan om de är mer utspridda är de svagt korrelerade.
Korrelationskoefficienten, r, är ett mått på hur stark en korrelation är. Den varierar mellan −1 och 1. Värden nära −1 innebär att korrelationen är stark och negativ, medan en korrelation nära 1 är stark och positiv. Har den värdet 0 finns det ingen korrelation.
I koordinatsystemen visas spridningsdiagram mellan två parametrar.
Vi tittar på diagrammen ett i taget.
A
Diagram A visar en positiv korrelation, eftersom lutningen är positiv. Det är även en stark korrelation, eftersom punkterna ligger nära en tänkt rät linje. Därför är det korrelationskoefficienten r≈1 som passar bäst.
B
Spridningsdiagram B verkar inte ha någon positiv eller negativ trend. Därför är korrelationskoefficienten ungefär 0.
C och D
Både C och D visar på en negativ korrelation, eftersom det är en negativ lutning. Diagram D har en starkare korrelation än C, eftersom det visar på en tydligare trend. Därför hör C ihop med r≈−0.85 och D med r≈−1.
Diagram | A | B | C | D |
---|---|---|---|---|
r | ∼185 | ∼085 | ∼−0.85 | ∼−185 |
På vintern går både antalet villabränder och bilolyckor upp — de är korrelerade. Däremot kan man inte säga att villabränder får bilar att krocka. Anledningen är att vintern är en gemensam faktor som orsakar både halare väglag och att fler ljus tänds, vilket leder till fler eldsvådor. Det finns en korrelation mellan villabränder och bilolyckor, men ingen kausalitet.
Anta att det finns en korrelation mellan följande parametrar.
Diskutera om det även finns en kausalitet.
Vi går igenom fallen ett i taget.
Skostorlek och antal länder man besökt
Personer med stor skostorlek har inte nödvändigtvis besökt fler länder. En större skostorlek handlar antagligen snarare om att man är äldre och därmed hunnit med fler utlandsresor. Det råder alltså ingen kausalitet mellan skostorlek och hur många länder man besökt.
Vikt och klädstorlek
Människor som väger mer har generellt en större kropp och behöver därför köpa större klädstorlekar. Det råder alltså kausalitet mellan vikt och klädstorlek.
Temperatur och antal människor på stranden
Det är nog fler som blir badsugna när det är varmt. Det råder alltså kausalitet mellan dagstemperatur och antal människor på stranden.
Mattebetyg och antal engelskglosor man kan
Elever som kan många glosor i engelska är sannolikt ambitiösa och pluggar även mycket matematik. Men enbart kunskaper i engelska gör inte att man blir bättre i matematik. Det råder alltså ingen kausalitet mellan mattebetyg och antalet engelska glosor man kan.
Antag att det finns en korrelation mellan följande variabler. Kan det även vara en kausalitet?
Hur många kalorier man bränner är en direkt följd av bland annat hur mycket man tränar. Även om andra faktorer även påverkar förbränningen finns det en kausalitet mellan träning och kaloriförbränning.
Glass orsakar inte hudcancer. Däremot leder den gemensamma faktorn sol både till ökad glassförsäljning och fler hudcancerfall. Det ger en korrelation men inte kausalitet.
Det finns inget som tyder på att man lever längre om man åker utomlands mycket, så det finns ingen kausalitet. Men personer med god ekonomi gör i allmänhet fler utlandsresor, och har råd att satsa mer på hälsa och mediciner.
Den gemensamma faktorn regn leder både till blöta skor och att fler plockar fram paraplyet. Men om du tar fram paraplyet leder inte det till att skor blöts ned, så det finns inget direkt orsakssamband. Alltså råder ingen kausalitet.
Rökning orsakar cancer. Det finns en direkt påverkan, alltså finns det en kausalitet.
I koordinatsystemen visas fyra spridningsdiagram.
Datapunkterna följer en tydlig rät linje med negativ lutning så korrelationen måste vara negativ. Vi har två negativa korrelationskoefficienter att välja på: - 1 och - 0.7. Punkterna har väldigt liten spridning vilket innebär att vi har stark korrelation, och då måste den lämpliga korrelationskoefficienten vara -1.
Det verkar inte finnas någon trend bland punkterna vilket innebär att det antagligen inte finns någon korrelation. Det betyder att korrelationskoefficienten är 0.
Här ser vi en negativ trend, men den är inte lika tydlig som i A. Därför blir riktningskoefficienten -0.7.
Här är korrelationen positiv eftersom datapunkterna har en positiv lutning, men det är en viss spridning kring en tänkt rät linje. Alternativen som vi har kvar för korrelationskoefficienten är 1 och 0.7, och eftersom vi har en viss spridning kan den inte vara 1. Vi får alltså 0.7.
I figuren finns fyra olika spridningsdiagram.
Para ihop graferna med det alternativ som diagrammet bäst skulle kunna representera:
Diagram A visar en tydlig uppåtgående trend, och är därför en stark positiv korrelation. Både diagram B och C visar nedåtgående trender som inte är helt tydliga. De visar därför svaga negativa trender. Datapunkterna i diagram D ligger inte på någon tydlig linje, alltså ingen korrelation.
Diagram | Typ av korrelation |
---|---|
A | Stark, positiv |
B | Svag, negativ |
C | Svag, negativ |
D | Ingen |
Vi går igenom diagrammen ett i taget.
Den enda situationen som visar en positiv trend, dvs. två faktorer som ökar tillsammans, är tid och sträcka från start vid en tågresa. Alltså hör det ihop med situation 3.
Diagrammet visar att faktorn på x-axeln kan vara negativ. Det enda som passar in på det är utomhustemperaturen. Det stämmer bra med trenden, eftersom y-axeln visar elkostnad. Ju kallare det blir, desto högre kostnad, dvs. situation 1.
Vilken enhet på y-axeln kan vara negativ? Hur mycket pengar man har på ett bankkonto kan bli negativt, om man handlat på kredit. Då ska x-axeln visa hur många dagar det gått efter lön. Det stämmer, eftersom saldot går ner med antal dagar. Situation 4 passar bäst här.
Vi letar efter en situation där det inte finns något samband mellan faktorerna. Eftersom man inte lär dricka mer eller mindre te om man är född senare eller tidigare på året passar situation 2 bäst för att beskriva denna situation utan korrelation.
Diagram | Situation |
---|---|
A | 3 |
B | 1 |
C | 4 |
D | 2 |
Samira har undersökt månadslön och ålder för tio anställda på ett företag. Resultatet visas i tabellen.
Ålder (år) | Månadslön (kr) |
---|---|
23 | 22000 |
30 | 28000 |
31 | 27000 |
54 | 39000 |
18 | 19000 |
21 | 59000 |
63 | 41000 |
28 | 30000 |
20 | 19000 |
42 | 32000 |
Vi markerar åldern och månadslönen i ett spridningsdiagram. Majoriteten av punkterna följer en uppåtgående trend, men en av dem hamnar långt från de andra.
Kan Samira ha antecknat fel, eller har något annat hänt? När man får en datapunkt som kraftigt avviker från de andra bör man undersöka den för att försäkra sig om att den inte är fel. Det visar sig kanske att personen som tjänar 59 000 kr är chefens son. Då är han inte representativ för företaget, och då kan man argumentera för att denna punkt inte ska tas med. Då blir korrelationen ganska stark.
Å andra sidan kanske detta är en person som jobbat extremt hårt och belönats med hög lön och då kan man argumentera för att punkten ska tas med. Månadslön och ålder är då fortfarande korrelerade, men inte lika starkt eftersom det finns andra faktorer som kan ha en stor inverkan på lönen.
Tar man med den avvikande punkten blir korrelationen alltså inte lika stark.
En ekonomielev ska göra ett reportage i skoltidningen om att kommunen satsar allt mindre av skattepengarna på skolan. På kommunens hemsida hittar hon statistik över hur pengarna fördelats de senaste åren.
År | Skola | Äldre | Infrastr. | Övrigt |
---|---|---|---|---|
2010 | 45% | 31% | 7% | 17% |
2011 | 44% | 32% | 7% | 17% |
2012 | 42% | 34% | 8% | 16% |
2013 | 41% | 33% | 9% | 17% |
2014 | 40% | 32% | 9% | 19% |
2015 | 39% | 31% | 9% | 21% |
2016 | 38% | 35% | 10% | 17% |
Hon skriver artikeln som får rubriken Skolans resurser minskar på bekostnad av de äldre. Har hon rätt, eller finns det något annat mer korrekt att beskriva det på? Motivera ditt svar.
Eleven menar att andelen av skatten till de äldre har ökat i samma takt som skolans andel minskat. Vi undersöker om detta stämmer genom att använda räknaren för att plotta skolans andelar (här i rött) och de äldres (här med blått).
De ser inte riktigt ut som att de blå prickarna ökar i takt med att de röda minskar. För att undersöka det mer noggrant kan vi plotta skolan mot äldre direkt. Vi sätter skolan på x-axeln och de äldre på y-axeln.
x | 45 | 44 | 42 | 41 | 40 | 39 | 38 |
---|---|---|---|---|---|---|---|
y | 31 | 32 | 34 | 33 | 32 | 31 | 35 |
Finns det en korrelation bör vi få en tydlig trend.
Vi ser inget uppenbart samband. Vi testar på motsvarande sätt att plotta skolan mot infrastruktur.
Här verkar det finnas en tydligare korrelation. Vi testar även att se vad som händer om vi plottar skolan mot övrigt.
Om det är något område som verkar öka i takt med att skolan minskar så är det infrastrukturen. En mer korrekt rubrik i skoltidningen skulle vara: Skolans resurser minskar på bekostnad av infrastrukturen. Dock vet vi fortfarande inte om det finns någon kausalitet bakom förändringarna eller om det bara är en slump. Vi vet inte hur politikerna tänkte när de lade budgeten.
Melker ritar upp funktionen y=2x+1.
Korrelation används för att undersöka om det finns ett samband mellan två variabler. Här finns ett samband: y=2x+1. Freja har alltså rätt – x och y är korrelerade. Däremot saknar det mening att prata om korrelation mellan x och y i funktioner. Det finns ett samband för att man ger dem det.
Det är ungefär som att säga "Den här triangeln har vinkelsumman 180^(∘)." Det är inte fel att säga så, men det säger ingenting om triangeln, eftersom alla trianglar har den vinkelsumman. På samma sätt säger det ingenting att x och y är korrelerade eftersom funktioner alltid anger ett samband mellan två variabler.