Regression

{{ 'ml-heading-theory' | message }}

Regression innebär att man anpassar matematiska funktioner till mätdata. Det används bland annat för att skapa modeller av verkliga förlopp.
Slumpa punkter

Förstagrads- polynom

Andragrads- polynom

Tredjegrads- polynom

Begrepp

Spridningsdiagram

Ett spridningsdiagram är ett sätt att visualisera mätdata med två parametrar i ett koordinatsystem. Om man t.ex. mäter höjden på tomatplantor vid olika tidpunkter får man ett antal datapunkter som kan markeras i ett koordinatsystem med tiden som xx-koordinat och höjden som yy-koordinat. Då har man gjort ett spridningsdiagram.

Varje punkt i diagrammet motsvaras av höjden på en planta efter en viss tid.
Begrepp

Linjär regression

Linjär regression är den form av regression som används när man anpassar en rät linje till kända datapunkter. Detta kan antingen göras för hand, med hjälp av en linjal och ögonmått, eller med hjälp av räknare. Räknaren använder matematiska metoder som den s.k. minsta kvadratmetoden. Nedan har linjär regression använts för att anpassa en rät linje till ett antal datapunkter.

Uppgift
Använd ögonmått för att anpassa en rät linje till datapunkterna i spridningsdiagrammet och ange dess ekvation.
Lösning

Har man inte möjlighet att använda en räknare för att anpassa en rät linje får man göra så gott man kan med ögonmått. Det enklaste sättet är att använda en linjal och testa sig fram tills man hittar en linje som passar så bra som möjligt med så många punkter som möjligt. I det här fallet kan en sådan linje exempelvis se ut på följande sätt.

Linjen skär yy-axeln vid 1,1, vilket innebär att mm-värdet för den räta linjen är 1.1. Vi ser också att linjen stiger med ett steg i yy-led för varje två steg i xx-led, vilket ger riktningskoefficienten k=ΔyΔx=12=0.5. k = \dfrac{\Delta y}{\Delta x} = \dfrac{1}{2} = 0.5. Den räta linjen vi har anpassat till datapunkterna har alltså ekvationen y=0.5x+1. y = 0.5x + 1. Beroende på hur man har ritat sin linje är det möjligt att man får en lite annorlunda ekvation än denna, men den kan vara precis lika rätt.

Visa lösning Visa lösning
Begrepp

Icke-linjär regression

Icke-linjär regression innebär att man anpassar en funktion som inte är linjär. Det kan t.ex. röra sig om andragradsfunktioner eller exponentialfunktioner. Till skillnad från linjär regression kan detta vara svårt att göra för hand och för det mesta används den s.k. minsta kvadratmetoden. Nedan har en andragradskurva anpassats till mätpunkterna.

På de flesta grafritande räknare kan man göra regression, dvs. anpassa funktioner till datapunkter.

Digitala verktyg

Skriv in värden

Det första steget är att skriva in datapunkterna i räknaren. På en TI-räknare görs detta genom att först trycka på knappen STAT och sedan välja alternativet Edit genom att markera det och trycka på knappen ENTER.

Fönster i räknaren som visar Stat och sedan Edit

När man gör detta visas ett antal kolumner markerade L11, L22, L33 osv.

Räknare som visar två tomma listor

Med hjälp av piltangenterna kan man markera var i listorna man vill fylla i värden. Punkterna som funktionen ska anpassas till matas in med xx-värdena i listan L1_1 och motsvarande yy-värden i L2._2. Skriv in värdena med sifferknapparna följt av ENTER.

Räknare som visar två listor där man matat in värden

Det går att ta bort värden med DEL och det går även att skjuta in värden med INS (2nd + DEL).

Digitala verktyg

Gör regression

När värdena är införda kan regressionen utföras genom att igen trycka på knappen STAT, följt av piltangenten åt höger för att välja menyalternativet CALC. I denna meny listas de olika regressioner som finns tillgängliga.

Räknare som visar listan CALC och där man valt LinReg

Bland annat finns

Genom att pila ned till något alternativ och trycka på ENTER, följt av ENTER igen, utförs den valda regressionen. T.ex. kan man välja linjär regression.

Räknare som visar en anpassad linjär funktion
Räknaren skriver ut det generella uttrycket för funktionen och de konstanter som den har anpassat. Här blev den anpassade funktionen y=5.92x6.72.y=5.92x-6.72.

Uppgifter

Nivå 1
1.1
{{ 'ml-btn-focusmode-tooltip' | message }} settings_overscan

Anpassa en linjär funktion till datapunkterna i nedanstående koordinatsystem.

1.2
{{ 'ml-btn-focusmode-tooltip' | message }} settings_overscan

Magda ska anpassa funktioner till datapunkterna i ett antal spridningsdiagram. Avgör vilka hon bör anpassa linjära funktioner, andragradsfunktioner och exponentiella funktioner till.


a


b



c
1.3
{{ 'ml-btn-focusmode-tooltip' | message }} settings_overscan

Anpassa en andragradsfunktion till nedanstående data.

xx 00 33 66 99 1212
yy 146146 192192 149149 5353 -135\text{-} 135
1.4
{{ 'ml-btn-focusmode-tooltip' | message }} settings_overscan
a

Använd din räknare för att anpassa en linjär funktion till följande värden.

xx 11 22 44 66 88
yy 33 3.753.75 6.56.5 7.57.5 99
b

Använd din räknare för att anpassa en andragradsfunktion till följande värden.

xx 22 55 77 99 1010
yy 3.93.9 2828 4747 8080 110110
1.5
{{ 'ml-btn-focusmode-tooltip' | message }} settings_overscan

Tabellen visar världsrekordet för 200200 meter fjärilssim för några olika årtal.

År 1960 1970 1980 1990 2000 2010
Tid (s) 133.2 125.7 118.3 115.2 114.7 112.8


a

Låt xx vara antal år efter 19601960 och yy världsrekordtiden i sekunder. Anpassa en exponentialfunktion till datamängden.

b

Har modellen någon begränsning?

Nivå 2
2.1
{{ 'ml-btn-focusmode-tooltip' | message }} settings_overscan

Undersök vilken sorts funktion som kan vara lämplig att anpassa till följande datapunkter och gör sedan anpassningen.

xx 44 7.37.3 1717 1616 10.410.4 13.113.1 4.74.7 8.28.2 14.114.1
yy -5\text{-} 5 7.87.8 -5\text{-} 5 -0.2\text{-} 0.2 11.911.9 9.29.2 -1.6\text{-} 1.6 9.89.8 6.76.7
2.2
{{ 'ml-btn-focusmode-tooltip' | message }} settings_overscan

Lina ska skapa en modell som uppskattar hur mycket nyfödda flickor väger under första halvåret. Hon får lite statistik från en stressad sköterska på ett sjukhus som precis vägt sju bebisar i olika åldrar.

Månader 00 11 22 33 44 55 66
Gram 31813181 35783578 79857985 47974797 53215321 61276127 68326832


a

Anpassa en linjär funktion till datan.

b

Lina är inte riktigt nöjd med modellen. Hjälp henne att anpassa en ny funktion som ger en bättre uppskattning av flickors vikt under första halvåret.

2.3
{{ 'ml-btn-focusmode-tooltip' | message }} settings_overscan

Ett experiment har genomförts för att mäta reaktionssträckan vid inbromsningen av en bil, alltså den sträcka bilen färdas innan föraren hinner reagera och börja bromsa, och hur den beror av bilens hastighet. Testerna finns införda i nedanstående koordinatsystem, där avståndet ss anger reaktionssträckan i antal meter och hastigheten vv anges i km/h.


a

Anpassa en linjär funktion s(v)s(v) som beskriver reaktionssträckan vid olika hastigheter.

b

Tolka s(40)s(40).

c

Finns det några fel i din modell?

d

Om man uppmäter reaktionssträckan till 4040 m när en bil bromsar, hur snabbt körde den?

2.4
{{ 'ml-btn-focusmode-tooltip' | message }} settings_overscan

Johan och Magnus ska undersöka hur populationstillväxten för en utrotningshotad fågelart ser ut i framtiden. Till sin hjälp har de information om hur stor populationen har varit under ett antal år. Det gav nedanstående spridningsdiagram, där varje steg på xx-axeln anger ett år efter att mätningarna började och de på yy-axeln anger antalet djur i tusental.

Graf som beskriver hur en population växer över tid


a

Johan menar att tillväxten är linjär medan Magnus, som har studerat hur populationer växer, säger att en exponentiell modell är att föredra. De gör två olika regressioner och får följande resultat.

Tolka aa i Johans modell och bb i Magnus modell.

b

För att se hur väl deras funktioner passar in på datapunkterna ritar Johan och Magnus ut dem i spridningsdiagrammet.

Två spridningsdiagram med anpassade linjära och exponentiella funktioner

Johan påstår att det inte spelar någon roll vilken modell man väljer eftersom skillnaden är så liten. Magnus påpekar att eftersom modellen ska användas för att uppskatta framtida populationer bör man även titta på större värden än de som finns utritade. Hur skiljer sig modellerna åt efter 1010 år och 5050 år?

2.5
{{ 'ml-btn-focusmode-tooltip' | message }} settings_overscan

Dylan sparar pengar för att köpa en gitarr som kostar 23002\,300 kr. Varje vecka skriver han ner hur mycket pengar han har samlat ihop.

Vecka 1 2 3 4 5
Summa 523 619 752 861 999

Uppskatta hur lång tid det kommer att ta innan han har råd att köpa gitarren.

2.6
{{ 'ml-btn-focusmode-tooltip' | message }} settings_overscan

Antalet bakterier i en cellodling av E-coli ökar exponentiellt. Tabellen nedan visar hur många bakterier som fanns i odlingen vid olika tidpunkter.

Tid (min) 00 2020 4040 6060 8080
Antal bakterier 66 1414 2525 5151 9898

Uppskatta hur lång tid det tar innan det finns en miljard bakterier i odlingen om de får möjligheten att fortsätta tillväxa på samma sätt.

Nivå 3
3.1
{{ 'ml-btn-focusmode-tooltip' | message }} settings_overscan

Kompisarna David och Anton driver varsitt företag. Under det senaste halvåret har de sammanställt omsättningen för sina företag i tusentals kr.

Månad 1 2 3 4 5 6
Davids företag 102 117 135 165 182 195
Antons företag 197 213 234 256 258 278

Även om Antons företag har en större omsättning så är tillväxten bättre för Davids företag. Om hur lång tid kan man vänta sig att företagen omsätter lika mycket om vi förutsätter att företagen växer likartat framöver?

3.2
{{ 'ml-btn-focusmode-tooltip' | message }} settings_overscan

I tabellen och diagrammet visas längd och vikt för tio män från samma arbetsplats.

Lista med namn, vikt och längd från uppgift i nationella provet VT12 kurs 2c
NP-längddiagram.svg
a

Bestäm ett linjärt samband mellan vikten yy kg och längden xx cm.

b

Utgå från det linjära samband du bestämde i a). Tolka vad riktningskoefficienten betyder i detta sammanhang.

Nationella provet VT12 2b/2c
Nivå 4
4.1
{{ 'ml-btn-focusmode-tooltip' | message }} settings_overscan

Ett av de vanligaste sätten att göra den faktiska anpassningen av funktioner till datapunkter är minsta kvadratmetoden. För en samling med nn datapunkter, (x1,y1),(x2,y2)(xn,yn), (x_1,y_1),\,(x_2,y_2)\,\ldots(x_n,y_n), räknar man ut hur det vertikala avståndet mellan datapunkterna och funktionen. Man kvadrerar sedan alla dessa avstånd och summerar dem. För funktionen ff får man då (y1f(x1))2+(y2f(x2))2++(ynf(xn))2. \left(y_1 - f(x_1)\right)^2 + \left(y_2 - f(x_2)\right)^2 + \ldots + \left(y_n - f(x_n)\right)^2. Den funktion som gör att denna summa blir så liten som möjligt är den som enligt minsta kvadratmetoden passar bäst in på datapunkterna. Använd minsta kvadratmetoden för att bestämma den linjära funktion f(x)=axf(x) = ax som bäst passar in på följande värden: (1,2)(2,3)(4,5). (1,2)\quad (2,3) \quad (4,5). Svara exakt.

Test
{{ 'mldesktop-selftest-notests' | message }} {{ article.displayTitle }}!
{{ tests.error }}

{{ 'ml-heading-exercise' | message }} {{ focusmode.exercise.exerciseName }}

keyboard_backspace
{{ section.title }} keyboard_backspace {{ 'ml-btn-previous' | message }} {{ 'ml-btn-previous-exercise' | message }} {{ 'ml-btn-next-exercise' | message }} keyboard_backspace {{ 'ml-btn-next-exercise' | message }}