Logga in
| 10 sidor teori |
| 26 Uppgifter - Nivå 1 - 3 |
| Varje lektion är menad motsvara 1-2 lektioner i klassrummet. |
I den här lektionen går vi igenom följande begrepp:
En percentil är ett värde i en datamängd som delar in materialet i olika storlekar. Man tillskriver alltid percentiler ett index mellan 1 och 99. Exempelvis är den 10:e percentilen (P10) det värde som delar in materialet så att 10% av värdena befinner sig under P10 och 90% över.
Medianen delar in ett statistiskt material i två lika stora delar. Kvartiler (från ordet kvart som betyder fjärdedel) delar in ett material i fyra
lika stora delar. Kvartilerna är de tre tal som avgränsar delarna, och betecknas Q1,Q2 och Q3. Exempelvis delas 12 värden in i fyra delar med 3 stycken i varje.
nya medianerför de värden som är mindre respektive större än medianen.
Kvartilavståndet är ett spridningsmått som anger avståndet mellan den undre och övre kvartilen. Man beräknar det genom att subtrahera Q1 från Q3.
Kvartilavsta˚nd=Q3−Q1
För att illustrera spridningen i ett statistiskt material använder man sig ibland av ett så kallat lådagram. I detta kan man läsa av medianen (skrivs Med eller Q2), kvartiler (Q1 och Q3) samt största och minsta värde.
Medianen delar in materialet i två delar med 13 tal i varje halva. Den undre kvartilen är mittenvärdet i den första delen, dvs. den sjunde observationen som är 8,5. Den övre kvartilen beräknas genom att bestämma medianen för den övre halvan, dvs. den tjugonde observationen som är 13,5. Även kvartilerna markeras i diagrammet och slutligen ritas en låda mellan dem.
För att beräkna värdena måste man först mata in de värden man vill rita lådagrammet för i räknaren. Det gör man genom att trycka på knappen STAT och sedan välja Edit... i menyn. Där kan man sedan skriva in sina datapunkter i en av listorna, t.ex. lista L1.
Om man vill ta bort ett värde kan man göra det med knappen DEL.
När värdena är inmatade trycker man på STAT igen och går sedan åt höger till CALC-menyn.
Välj alternativet 1-Var Stats, som används för att beräkna diverse statistiska mått för en datamängd, och tryck på ENTER. Kommandot 1-Var Stats visas då på skärmen och för att köra det, tryck på ENTER en gång till. När resultatet sedan visas, tryck nedåt för att läsa av värdena minX
(minsta värde), Q1
(undre kvartil), Med
(median), Q3
(övre kvartil) respektive maxX
(största värde).
Använd nu dessa värden för att rita ett lådagram för hand.
Bossebageriet har gjort mätningar av temperaturen på 800 koppar cappuccino. Lådagrammet visar resultatet i ∘C.
En bra cappuccino ska enligt experterna ligga mellan 55 och 60 grader. Ungefär hur många av kopparna hade denna temperatur, och vad säger lådagrammet om temperaturspridningen på de koppar som var kallare respektive varmare än så?
Se lösning.
Kvartiler delar in data i fyra lika stora delar, där varje del innehåller 25% av värdena. Hur många av dessa delar omfattar den ideala temperaturen för en cappuccino? Vilken sida av diagrammet täcker ett större intervall — de kallare eller de varmare kopparna?
I varje del av lådagrammet finns 25% av värdena. Det betyder att 50% av värdena ligger i lådan.
Det vi kan säga om övriga koppar är att spridningen i temperatur är mycket större bland de 200 kallaste kopparna (54−39=15∘C skillnad) än bland de 200 varmaste kopparna (5∘C skillnad).
Använd det givna lådagrammet för att hitta värdet på ett mått. Måttet som ska bestämmas kan vara minimum, maximum, Q1, medianen (Q2), Q3, variationsbredden eller kvartilavståndet.
En percentil är ett mått inom statistiken som beskriver det värde som en viss procentuell andel av observationerna i ett statistiskt material befinner sig nedanför. Till exempel anger den tionde percentilen (P10) det värde som delar in materialet i två delar, där den undre innehåller 10% av observationerna och den övre innehåller 90%.
Medianen delar in en datamängd i två lika stora halvor och den övre kvartilen delar i sin tur in den övre halvan i ytterligare två lika stora halvor. Vi visar för en godtycklig datamängd.
Eftersom 50 % av observationerna är nedanför medianen och 25 % är mellan medianen och Q_3 så måste den övre kvartilen ha 75 % av värdena under sig. Den är alltså den sjuttiofemte percentilen, vilken kan skrivas P_(75).
P_(35) innebär att vi ska bestämma det värde som delar observationerna så att 35 % av dem är under värdet och 65 % är över värdet. Vi börjar med att bestämma hur många observationer som borde finnas i den nedre delen, alltså 35per av 40.
0,35 * 40 = 14
De 14 första observationerna utgör alltså 35 % av datamängden, vilket innebär att det sista värdet av den undre delen är tal 14 och det första talet i den övre delen är tal 15. P_(35) kan då beräknas som medelvärdet av den 14:e och 15:e observationen.
På ett företag gör man en undersökning där man tittar på hur många km som kvinnor respektive män promenerar under en vecka. I undersökningen deltog lika många män som kvinnor och resultaten dokumenteras i följande lådagram.
Bertram får i uppdrag att sammanställa resultatet för både kvinnor och män och skapar nedanstående lådagram.
Medianen delar stickproven i två lika stora delar och kvartilerna delar dem sedan vidare så att man får fyra lika stora delar. Vi antar att varje sådan del innehåller x personer.
Vi vet inte hur observationerna fördelar sig inom dessa delar, men medianen för kvinnorna och undre kvartilen för männen ligger båda vid 10. Då vet vi att två fjärdedelar av kvinnorna, 2x, och en fjärdedel av männen, x, gick under 10km per vecka, vilket totalt ger 3x personer. Vi jämför detta med det sammanslagna lådagrammet, där varje del ska innehålla 2x personer.
Det visar att en fjärdedel, 2x, gick under 10km i veckan. Men vi kom ju precis fram till att detta antal skulle vara 3x genom att lägga ihop de individuella lådagrammen. Det givna lådagrammet kan alltså inte stämma.
Förklara hur man hittar femtalssammanfattningen av en datamängd.
Fem-nummer-sammanfattningen av en datamängd innehåller följande värden.
Låt oss förklara hur man hittar dessa värden med ett exempel på en datamängd. 9, 8, 10, 10, 9, 12, 15, 5, 6, 13, 7, 14, 8, 9, 11, 7, 8, 12, 16, 10, 17, 7, 8, 8, 9, 7, 11 Sortera datan från minsta till största. 5, 6, 7, 7, 7, 7, 8, 8, 8, 8, 8, 9, 9, 9, 9, 10, 10, 10, 11, 11, 12, 12, 13, 14, 15, 16, 17 Vi kommer nu att hitta de fem värdena.
Vi kan identifiera de minsta och största värdena med en ordnad datamängd genom att titta på värdena med lägsta respektive högsta värden. 5, 6, 7, 7, 7, 7, 8, 8, 8, 8, 8, 9, 9, 9, 9, 10, 10, 10, 11, 11, 12, 12, 13, 14, 15, 16, 17 Här är minimum 5 och maximum är 17.
Vi har 27 datavärden. Kom ihåg att medianen är värdet i mitten när det finns ett udda antal datavärden. Vi kan identifiera medianen för vår datamängd i enlighet därmed. 5, 6, 7, 7, 7, 7, 8, 8, 8, 8, 8, 9, 9, 9, 9, 10, 10, 10, 11, 11, 12, 12, 13, 14, 15, 16, 17 Medianen för vår datamängd är 9. Den delar datamängden i två halvor.
Betrakta den nedre halvan av vår datamängd. Det är en mindre datamängd med 13 värden. 5, 6, 7, 7, 7, 7, 8, 8, 8, 8, 8, 9, 9 Medianen för denna halva är den första kvartilen Q_1. Det är talet i mitten. 5, 6, 7, 7, 7, 7, 8, 8, 8, 8, 8, 9, 9 Den första kvartilen Q_1 för vår datamängd är 8.
Betrakta nu den övre halvan av vår datamängd. Det är en mindre datamängd med 13 värden. 9, 10, 10, 10, 11, 11, 12, 12, 13, 14, 15, 16, 17 Medianen för denna halva är den tredje kvartilen Q_3. Det är talet i mitten. 9, 10, 10, 10, 11, 11, 12, 12, 13, 14, 15, 16, 17 Den tredje kvartilen Q_3 för vår datamängd är 12.
Vi kan rita ett lådagram genom att använda fem-nummer-sammanfattningen. Skala och etikettera en axel som passar fem-nummer-sammanfattningen. Rita en låda från Q_1 till Q_3 och en vertikal linje genom medianen.
Rita en "whisker" från Q_1 till det minsta värdet och från Q_3 till det största värdet.
Vi vill hitta andelen av datan som är större än den första kvartilen Q_1 i ett lådagram. Kom ihåg att medianen av den nedre halvan ger oss den första kvartilen Q_1. Hur kan vi hitta den nedre halvan? Låt oss betrakta en godtycklig datamängd i stigande ordning.
Medianen av denna datamängd är värdet som delar datamängden i två halvor.
Halvan som är mindre än medianen kallas den nedre halvan. Halvan som är större än medianen kallas den övre halvan. Varje halva innehåller ungefär 1/2 av datamängden.
Betrakta nu den nedre halvan. Värdet i mitten av denna halva är den första kvartilen Q_1.
Den första kvartilen Q_1 delar den nedre halvan i två halvor. Varje halva blir ungefär 1/2 av den nedre halvan. Detta innebär att varje halva blir ungefär 1/4 av hela datamängden.
Observera att ungefär 1/4 av datan är mindre än den första kvartilen Q_1. Vi kan hitta andelen data som är större än den första kvartilen Q_1 genom att subtrahera 1/4 från 1. Här representerar 1 helheten.
Vi fann att ungefär 3/4 av datan är större än den första kvartilen Q_1.
Skapa en lista med data som har minst sex nummer och en interkvartilavstånd på 15 samt två avvikare.
Vi vill skapa en datauppsättning med minst sex tal.
Vi får två villkor.
Låt oss börja med att titta på hur man uppfyller det första villkoret.
Kom ihåg vad ett interkvartilavstånd betyder.
Interkvartilavstånd (IQR) |- Interkvartilavståndet (IQR) är skillnaden mellan den tredje kvartilen Q_3 och den första kvartilen Q_1. IQR = Q_3 - Q_1
Dela in datauppsättningen i två halvor — den nedre halvan och den övre halvan. Bestäm sedan positionerna för den första kvartilen Q_1 och den tredje kvartilen Q_3.
Medelvärdet av den nedre halvan ger oss den första kvartilen Q_1. Med andra ord är talet i mitten av den nedre halvan den första kvartilen Q_1. Låt oss visa dess plats i vår datauppsättning.
På liknande sätt är talet i mitten av den övre halvan den tredje kvartilen Q_3.
Vi vill att skillnaden mellan Q_3 och Q_1 ska vara 15. Låt oss välja Q_3=30 och Q=15 för att uppfylla detta villkor.
Som synes kan vi uppfylla det givna villkoret när Q_3=30 och Q=15.
Låt oss nu gå vidare till hur man uppfyller det andra villkoret.
Vi vill att vår datauppsättning ska ha två extremvärden. Låt oss ordna vår datauppsättning på ett sätt som gör att den har ett litet extremvärde och ett stort extremvärde.
Litet extremvärde |- Varje värde som är mindre än Q_1 - 1,5(IQR) i datauppsättningen är ett litet extremvärde.
Ersätt Q_1= 15 och IQR= 15 i uttrycket Q_1 - 1,5(IQR) och beräkna det.
Varje värde som är mindre än - 7,5 kan vara ett litet extremvärde för vår datauppsättning. Låt oss godtyckligt välja - 10 som ett litet extremvärde och placera det i vår datauppsättning.
Kom sedan ihåg definitionen av ett stort extremvärde.
Stort extremvärde |- Varje värde som är större än Q_3 + 1,5(IQR) i datauppsättningen är ett stort extremvärde.
Ersätt Q_3= 30 och IQR= 15 i uttrycket Q_3 + 1,5(IQR) och beräkna det.
Varje värde som är större än 42,5 kan vara ett stort extremvärde för vår datauppsättning. Låt oss godtyckligt välja 45 som ett stort extremvärde och placera det i vår datauppsättning.
Vi uppfyllde de givna villkoren. Vi kan nu slutföra bildandet av vår datauppsättning.
Observera att två saknade datapunkter ska ligga mellan 15 och 30. Låt oss godtyckligt välja 20 och 25 för dessa punkter och slutföra bildandet av datauppsättningen.
Detta är ett exempel på en datauppsättning som uppfyller de önskade villkoren. Kom ihåg att vi kan skriva många olika datauppsättningar med minst sex tal som uppfyller de givna villkoren.
Vi vill skriva en uppsättning med sju värden för den givna medianen och interkvartilavståndet (IR). Median:& 6 Interkvartilavstånd:& 5 Låt oss för tillfället skriva denna uppsättning som sju okända ordnade värden. a, b, c, d, e, f, g Först kan vi betrakta medianen. Låt oss komma ihåg att medianen för ett ordnat dataset är dess mittersta värde. Vi beräknar detta mittersta värde baserat på antalet observationer i uppsättningen.
Eftersom vår uppsättning har ett udda antal datapunkter, bör det mittersta värdet vara lika med 6. Om vi har sju värden är det mittersta värdet det fjärde. Låt oss då skriva det fjärde värdet som 6. Median ↑ a b c 6 e f g Nu är IR för en datauppsättning skillnaden mellan den övre och nedre kvartilen. Låt oss komma ihåg att den övre kvartilen Q_1 är medianen för den nedre halvan av uppsättningen, och den övre kvartilen Q_3 är medianen för den övre halvan. align a b c^(Nedre halvan) 6 e f g^(Övre halvan) ↓ ↓ Q_1 Q_3 Vår IR är lika med 5, så skillnaden mellan Q_3 och Q_1 bör också vara lika med 5. Q_3 - Q_1 = 5 Observera att det finns oändligt många par av tal att välja mellan. Den enda begränsningen är att, eftersom detta är en ordnad uppsättning, måste Q_3 vara minst 6, och Q_1 får inte vara mer än 6. Till exempel har 8 och 3 en skillnad på 5. 8 - 3 = 5 Låt oss inkludera dem i vår uppsättning. a 3 c^(Nedre halvan) 6 e 8 g^(Övre halvan) ↓ ↓ Q_1 Q_3 Det finns inga andra villkor för att uppsättningen ska uppfylla. Det betyder att vi kan välja vilka tal som helst för a, c, e, och g, så länge vi ser till att uppsättningen förblir ordnad. Låt oss komplettera vår uppsättning! 1, 3, 4,5, 6, 7, 8, 13 Observera att detta bara är en exempellösning. Vi kan skriva oändligt många uppsättningar som har en median på 6 och interkvartilavstånd på 5.
Skapa två olika datamängder som har samma median och samma kvartiler, men olika intervall.
Vårt mål är att skapa två olika datamängder som uppfyller följande villkor.
Låt oss säga att var och en av mängderna kommer att ha sju element. Vi kommer också att skriva dem i ordnad form från minsta till största. & , , , , , , & , , , , , , Först, notera att medianen och kvartilerna alla handlar om placeringen av värden i en ordnad datamängd. Medianen är mittenvärdet i mängden. Median ↑ a b c^(Nedre halvan) d e f g^(Övre halvan) Om det fanns ett jämnt antal datapunkter, så skulle det vara genomsnittet av de två mittersta värdena. Nu är kvartilerna Q_1 och Q_3 mittenvärdena för den nedre respektive övre halvan av mängden. Median ↑ a b c^(Nedre halvan) d e f g^(Övre halvan) ↓ ↓ Q_1 Q_3 På samma sätt som tidigare, om halvorna bestod av ett jämnt antal punkter, skulle varje kvartil vara ett genomsnitt av de två mittersta värdena. Låt oss nu välja dessa tre värden. De kommer att vara desamma för båda mängderna, som krävs. & , 4, , 7, , 11, & , 4, , 7, , 11, Nu finns det oändligt många tal som vi kan skriva i de återstående luckorna. Den enda begränsningen är att mängdernas omfång ska vara olika. Låt oss fylla i luckorna! & , 4, 5, 7, 9, 11, 15 & 2, 4, 6, 7, 10, 11, 12 Omfånget för den första mängden är 15-0=15. Omfånget för den andra mängden är 12-2=10. Eftersom 15 ≠ 10, är omfången olika och våra mängder uppfyller alla villkor.
Givet att två datamängder har samma median, variationsbredd och interkvartilavstånd, blir vi tillfrågade om lådagrammet för datamängderna kan vara olika. För att göra det, låt oss betrakta två exempeldatamängder. Kom ihåg att det finns många möjliga exempel. Datamängd1: 0, 1, 3, 4, 4, 5, 6, 6, 7, 8 ,9 Datamängd2: 1,2,4,4,5,5,6,7,8,9,10 Låt oss hitta fem-nummer-sammanfattningen för varje datamängd och rita dess lådagram.
Låt oss ta en titt på datavärdena. 0, 1, 3, 4, 4, 5, 6, 6, 7, 8 ,9 Från datan kan vi se att det största värdet är 9 och det minsta värdet är 0. Dessutom är den första kvartilen 3, den tredje kvartilen är 7, och medianen är 5.
Vi kan nu hitta variationsbredden för datan. Kom ihåg att variationsbredden är skillnaden mellan det största värdet och det minsta värdet. Variationsbredd: 9- 0=9 Vi kan också beräkna interkvartilavståndet (IQR). IQR är skillnaden mellan den tredje kvartilen Q_3 och den första kvartilen Q_1. IQR: 7- 3=4 Låt oss nu rita lådagrammet för datan. Vi börjar med en tallinje som inkluderar de minsta och största värdena. Låt oss också rita punkter ovanför tallinjen för fem-nummer-sammanfattningen.
Slutligen kan vi rita en låda med hjälp av Q_1 och Q_3. Rita sedan en linje genom medianen och morrhåren från lådan till de minsta och största värdena.
Återigen, låt oss ta en titt på datan. 1,2,4,4,5,5,6,7,8,9,10 I det här fallet är det största värdet 10 och det minsta värdet är 1. Dessutom är den första kvartilen 4, den tredje kvartilen är 8, och medianen är 5.
Låt oss nu hitta variationsbredden och interkvartilavståndet för datan. Variationsbredd:& 10- 1=9 IQR:& 8- 4=4 På samma sätt som tidigare kan vi rita ett lådagram för datamängden.
Låt oss nu ta en titt på lådagrammen.
Vi har hittat två datamängder som har samma median, variationsbredd och interkvartilavstånd. Vi kan dock se att deras lådagram inte är lika. Därför, om två datamängder har dessa viktiga informationsbitar gemensamt, kan lådagrammen fortfarande vara olika.