Logga in
| | 5 sidor teori |
| | 20 Uppgifter - Nivå 1 - 3 |
| | Varje lektion är menad motsvara 1-2 lektioner i klassrummet. |
I den här lektionen går vi igenom följande begrepp:
Beroende på vad man undersöker kommer ett statistiskt material att fördela sig på olika sätt. En av de vanligaste fördelningarna kallas normalfördelning och kan ofta användas för att beskriva t.ex. längder och vikter. Nedan har man gjort ett histogram med uppmätta vikter av en viss typ av godispåsar med medelvärdet 112,5 g.
Ju fler observationer man gör desto mer kommer histogrammet likna en kulle med sin högsta punkt vid medelvärdet. Observationerna fördelar sig symmetriskt kring medelvärdet och bredden bestäms av standardavvikelsen. De flesta värdena hamnar nära medelvärdet och blir mer ovanliga längre ut i "svansarna." En kurva med det här utseendet kallas för normalfördelningskurva eller Gausskurva.
my) och standardavvikelsen med σ (
sigma). Procenttalen anger hur stor andel av observationerna som hamnar i de markerade intervallen. De två 2,3 %-intervallen i
svansarnainkluderar samtliga observationer längre bort än 2σ från medelvärdet. Observationer längre än 3σ från medelvärdet är mycket sällsynta, men inte omöjliga.
Allt material som är normalfördelat fördelar sig på samma sätt. Exempelvis ligger alltid ca 68,2 % alltså ungefär två tredjedelar, av observationerna inom en standardavvikelse från medelvärdet, oavsett vad medelvärdet μ och standardavvikelsen σ är.
Utseendet på själva kurvan ändras med olika värden på standardavvikelsen. Om standardavvikelsen ökar eller minskar blir kurvan bredare respektive smalare. Procentsatserna ändras dock inte – man hittar ändå samma andel av värdena i de olika intervallen och summan av dem blir alltid 100 %.
Reaktionstiden för ett visst test är normalfördelad med medelvärdet 250 ms och standardavvikelsen 50 ms. Hur många av testresultaten kan man förvänta sig hamnar mellan 200 och 350 ms?
För att bestämma den totala färgade andelen lägger vi ihop procentsatserna för delområdena: 34,1 % + 34,1 % + 13,6 % = 81,8 %. Det innebär alltså att ca 82 %, lite mer än fyra femtedelar, av de personer som gör testet förväntas få ett resultat mellan 200 och 350 ms.
Födelsevikten för kattungar är normalfördelad runt medelvärdet 100 g, med standardavvikelsen 15 g. Hur stor andel av kattungarna kan man förvänta sig väger mellan 70 g och 130 g?
Medelvärdet är 100 g, så μ = 100 g, och standardavvikelsen, σ, är 15 g. Det betyder att&μ - σ = 100 - 15 = 85g och & μ + σ = 100 + 15 = 115g.
På samma sätt räknar vi även ut att μ - 2σ=70 g och μ + 2σ=130 g och skriver in i skissen.
Vi är intresserade av hur många kattungar som väger mellan 70 g och 130 g när de föds, så vi markerar det intervallet i normalfördelningen.
Nu lägger vi ihop de markerade procentsatserna: 13,6 %+ 34,1 % + 34,1 % + 13,6 % = 95,4 %. Man kan alltså förvänta sig att 95,4 % av kattungarna väger mellan 70 g och 130 g när de föds.
Vi tittar på hur materialet alltid fördelar sig i en normalfördelning.
Genom att summera procentsatserna i de blå områdena får vi den totala andelen: \gathered{ 2 \t 34,1 \per +13,6 \per +2,3 \per =84,1\per. }
Vi gör på samma sätt och markerar intervallen.
Det blå området svarar alltså mot
\gathered{
13,6 \per +34,1 \per =47,7\per
}
av värdena.
I en normalfördelning delar alltid medelvärdet materialet i två lika stora delar. Det blå området motsvarar därför hälften av observationerna.
Det är alltså $50\per.$
Normalfördelningen är markerad upp till $\mu + \sigma,$ alltså en standardavvikelse ovanför medelvärdet. Andelarna mellan varje standardavvikelse är känd, så vi slår upp dem och för in dem i figuren.
Vi lägger ihop de markerade delarna, vilket ger \gathered{ 2,3\per + 13,6\per + 2 \t 34,1\per = 84,1\per. }
Avståndet från medelvärdet $7$ till $19$ är $12,$ vilket är två standardavvikelser, $\frac{12}{2}=6 =\sigma.$ Vi sätter in andelarna för dessa två intervall.
Vi adderar dem sedan för att få totala andelen som är markerad, vilket ger \gathered{ 34,1\per + 13,6\per = 47,7\per. }
För denna normalfördelning är allt ovanför medelvärdet $26$ markerat samt från $24$ och neråt. Värdet $24$ ligger en standardavvikelse nedanför medelvärdet eftersom $26 - 24 = 2 = \sigma.$
Summerar vi dessa får vi \gathered{ 2,3\per + 13,6\per + 34,1\per + 13,6\per + 2,3\per = 65,9\per. }
Vi hade lika gärna kunnat bestämt den omarkerade delen, som utgör $34,1\per$ av fördelningen, och subtraherat den från helheten, som är $100\per.$ Då får man samma sak, alltså $100\per - 34,1\per = 65,9\per.$
Vi tittar på den generella normalfördelningskurvan, t.ex. på formelbladet.
Vi ser direkt att de procentsatser som saknas är $2,3\per,$ $13,6\per$ och $34,1\per.$ Vi inser även att intervallet mellan värdena $24$ och $26$ är har längden en standardavvikelse, vilket innebär att \gathered{ \sigma=2. } Vi avslutar med att sätta in de värden som fattas genom att dra ifrån en standardavvikelse för varje intervall vi går åt vänster.
Medelvärdet $\mu$ är $22$ och standardavvikelsen $\sigma$ är $2.$
Eftersom det är tre intervall som skiljer värdena $515$ och $530$ åt måste avståndet mellan dem vara $3$ standardavvikelser. Det innebär att en standardavvikelse är
\gathered{
\sigma=\dfrac{530-515}{3}=5.
}
Ökar vi med $5$ för varje intervallgräns ser vi att medelvärdet är $\mu=525.$ Procentsatserna är alltid samma vid normalfördelningar, så de blir samma som i föregående deluppgift.
Här ser vi att det skiljer $4$ standardavvikelser mellan de kända värdena, så en standardavvikelse är \gathered{ \sigma=\dfrac{97,5-87,5}{4}=2,5. } Ökar vi med $2,5$ för varje intervallgräns ser vi att medelvärdet hamnar på $92,5.$ Procentsatserna ändras inte.
Medelvärdet är i mitten på normalfördelningskurvan. Mitten på den blå kurvan är mer till höger än den gröna. Därför har $B$ ett större medelvärde.
Ju större standardavvikelsen är, desto bredare blir normalfördelningskurvan. Det betyder att $B$ har störst standardavvikelse.
Under en normalfördelningskurva finns alla observationer representerade. Det finns dock inget sätt att avgöra hur många "alla" är. Vi vet alltså inte hur stora datamängderna är och kan därför inte avgöra vilken som är störst.
Falskt, det är precis tvärtom. I ett lådagram visas hur ett statistiskt material sprider ut sig runt medianen, och normalfördelning visar hur det sprider ut sig symmetriskt runt medelvärdet.
Falskt. Normalfördelade material är alltid symmetriska kring medelvärdet, och för ett lådagram är visserligen alltid hälften av materialet ovanför medianen och hälften under men fördelningarna inom dessa halvor kan vara helt olika.
Sant. I en normalfördelning befinner sig hälften av observationerna på varsin sida om medelvärdet på grund av symmetrin i fördelningen. Det innebär att medelvärdet är i mitten, och alltså även är median för materialet.
Enligt uppgiftstexten är medelvärdet $38$ g för kycklingarnas vikt. Eftersom en normalfördelning är symmetrisk runt medelvärdet måste $50\per$ av kycklingarna väga mer än $38$ gram.
Mellan $33$ och $38$ är differensen $5$ och mellan $38$ och $48$ är differensen $10$. Dessa vikter ligger alltså en respektive två standardavvikelser från medelvärdet i vänstra respektive högra delen av kurvan.
Vi adderar procentsatserna i de markerade intervallen för att bestämma hur stor andel av kycklingarna som väger mellan $33$ och $48$ gram: \gathered{ 34,1\per + 34,1\per + 13,6\per \approx 82 \per. }
Kycklingar som väger mer än $48$ gram ligger två standardavvikelser höger om medelvärdet. Sådana observationer utgör $2,3\per$ av hela populationen.
Av $10\,000$ kycklingar förväntas alltså ca $2,3\per$ vara feta. Det skrivs i decimalform som $0,023,$ vilket ger oss att $2,3\per$ av $10\,000$ kycklingar är detsamma som \gathered{ 0,023 \t 10\,000=230 \text{ st.} } $230$ av kycklingarna förväntas alltså vara feta.
Vi börjar med att rita upp en normalfördelning för att kunna ställa upp en modell som vi kan använda i de olika deluppgifterna.
Medelvärdet $\mu$ är $5100$ och standardavvikelsen $\sigma$ är $120,$ så vi bestämmer intervallgränserna för vår fördelning. \begin{aligned} &\mu - \sigma = 5100 - 120 =& 4980,\\ &\mu + \sigma = 5100 + 120 =& 5220,\\[1em] &\mu - 2\sigma = 5100 - 2 \t 120 =& 4860,\\ &\mu + 2\sigma = 5100 + 2 \t 120 =& 5340. \end{aligned} Sätter vi in gränserna tillsammans med $\mu = 5100$ i normalfördelningen får vi en bra överblick.
Vi markerar nu den andel av normalfördelningen som ligger mellan $5\,100$ och $5\,220.$
Eftersom $34,1\per$ av lamporna håller mellan $5\,100$ och $5\,220$ timmar, är det också sannolikheten för att en slumpvis vald lampa har denna brinntid.
Nu vill vi veta sannolikheten att en lågenergilampa håller minst $4\,980$ timmar. Vi markerar intervallen från $4\,980$ och uppåt.
Summan av andelarna ger den totala sannolikheten att en lampa faller inom intervallet: \begin{aligned} 2\t 34,1\per + 13,6\per + 2,3\per = 84,1\per. \end{aligned}
Hur stor är då sannolikheten att en lågenergilampa går sönder efter mindre än $4\,980$ timmar? Vi börjar med att markera detta intervall i figuren.
Adderar vi intervallen får vi $2,3\per + 13,6\per = 15,9\per$ vilket alltså är sannolikheten att en lampa går sönder innan den brunnit $4\,980$ timmar.
Från förra deluppgiften vet vi att sannolikheten att en lampa håller längre än $4\,980$ timmar är $84,1\per.$ Vi hade därför även kunnat räkna ut svaret på denna deluppgift som \gathered{ 100\per - 84,1\per = 15,9\per, } alltså hela fördelningen minus sannolikheten att den håller längre än $4\,980$ timmar.
Att brinntiden för en lågenergilampa är under $4\,860$ eller över $5\,340$ timmar motsvaras av två intervall.
Tillsammans utgör de $2,3\per + 2,3\per = 4,6\per$ av fördelningen, vilket alltså är sannolikheten att brinntiden är under $4\,860$ eller över $5\,340$ timmar.