Verklarende Statistiek: Toetsen __EXCLUSIVE__
Na de dataverzameling kun je de data organiseren, structureren en samenvatten met behulp van beschrijvende statistiek (ook wel descriptieve statistiek genoemd). Vervolgens kun je inferentiële (toetsende of verklarende) statistiek gebruiken om hypothesen te toetsen en inschattingen te maken over de populatie. Ten slotte kun je de resultaten interpreteren en generaliseren.
Verklarende Statistiek: Toetsen
Het is essentieel om het meetniveau van tevoren te bepalen, omdat je keuze ook direct bepaalt welke statistieken en toetsen je kunt gebruiken. Je kunt bijvoorbeeld wel een gemiddelde berekenen voor kwantitatieve data, maar niet voor categorische.
In theorie moet je een aselecte steekproef trekken om je bevindingen te kunnen generaliseren. Willekeurige selectie vermindert het risico op een steekproefbias (sampling bias) en zorgt ervoor dat de data daadwerkelijk representatief zijn voor de populatie. Je kunt parametrische toetsen gebruiken om sterke statistische conclusies te trekken, mits je de data verzamelt met een aselecte steekproef.
In de praktijk is het bijna nooit mogelijk om de ideale steekproef te verzamelen. Selecte steekproeven zorgen eerder voor vertekende data dan aselecte steekproeven, maar het is wel veel makkelijker om voldoende participanten te werven en data te verzamelen. Niet-parametrische toetsen zijn geschikter voor selecte steekproeven, maar ze resulteren wel in zwakkere conclusies over de populatie.
Als je parametrische toetsen gebruikt voor selecte steekproeven, is het van belang om in je discussiesectie uitgebreid in te gaan op de beperkingen van de externe validiteit (en dus de generaliseerbaarheid).
Vervolgens kun je een correlatiecoëfficiënt berekenen en een statistische analyse uitvoeren om te bepalen of de eventuele relatie tussen variabelen in de populatie significant blijkt te zijn.Stap 4: Toets je hypothesen of schat populatieparametersEen getal dat een steekproef beschrijft, wordt een statistiek genoemd, terwijl een getal dat de populatie beschrijft een parameter wordt genoemd. Met behulp van toetsende statistiek (ook wel verklarende of inferentiële statistiek genoemd) kun je conclusies trekken over de populatie-parameters op basis van de steekproefstatistieken.
Met behulp van steekproefdata kun je hypothesen toetsen over relaties tussen variabelen in de populatie. Het toetsen van hypothesen begint met de aanname dat de nulhypothese waar is. Vervolgens gebruik je statistische toetsen om te bepalen of de nulhypothese kan worden verworpen of niet.
Statistische toetsen bepalen waar de steekproefdata zich zouden bevinden op een verwachte verdeling van de steekproefdata als de nulhypothese waar zou zijn. Deze toetsen geven twee belangrijke resultaten:
Met parametrische toetsen kun je sterke conclusies trekken over de populatie op basis van steekproefdata. Je data moeten wel aan enkele assumpties of aannames voldoen om deze toetsen te kunnen gebruiken. Als je gegevens de aannames schenden, kun je datatransformaties uitvoeren of niet-parametrische toetsen gebruiken.
Met vergelijkingstoetsen vergelijk je meestal groepsgemiddelden. Dit kunnen de gemiddelden van verschillende groepen binnen één steekproef zijn (bijvoorbeeld een experimentele en controlegroep), maar ook de gemiddelden van één steekproefgroep op verschillende momenten (bijvoorbeeld pretest- en posttest-scores), of een vergelijking van een steekproefgemiddelde en een populatiegemiddelde.
Om te toetsen of de correlatie in de steekproef sterk genoeg is om van belang te zijn in de populatie, moet je ook een significantietoets uitvoeren op de correlatiecoëfficiënt om een p-waarde te verkrijgen. Deze toets maakt gebruik van de steekproefomvang om te berekenen hoeveel de correlatiecoëfficiënt van nul verschilt in de populatie.
Bij het toetsen van hypotheses, baseer je je conclusie voornamelijk op de statistische significantie. Je vergelijkt je p-waarde met een vooraf vastgesteld significantieniveau (meestal 0.05) om te bepalen of je resultaten statistisch significant zijn (of juist niet).
5 vi Voorwoord Met dit boek roei ik dus tegen de stroom in. Ik ben er immers van overtuigd dat studenten aangemoedigd moeten worden om hun wiskundige kennis toe te passen en dat dit hen helpt om de statistische concepten beter te begrijpen. Het gebruik van dit boek vergt hierdoor uiteraard enige wiskundige voorkennis. Gezien de aandacht die aan wiskunde besteed wordt in het secundair onderwijs en in inleidende vakken wiskunde aan de universiteit zou die voorkennis bij elke student handelsingenieur, bio-ingenieur, toegepaste economische wetenschappen, burgerlijk en industrieel ingenieur aanwezig moeten zijn. Een tweede drijfveer voor het schrijven van het boek is dat ik ervan overtuigd ben dat studenten moeten leren om de statistische concepten in de praktijk om te zetten. Daarom wordt in dit boek uitvoerig beschreven hoe alle hypothesetoetsen uitgevoerd kunnen worden en alle populatieparameters geschat kunnen worden met behulp van een gebruiksvriendelijk statistisch pakket, namelijk JMP (spreek uit als jump).ik heb gekozen voor JMP omdat het een krachtig softwarepakket is dat toch gebruiksvriendelijk is, dat beschikbaar is voor Windows en Mac, en dat voor een brede waaier aan statistisch getinte vakken gebruikt kan worden (beschrijvende statistiek, kansrekenen, regressie, variantieanalyse, multivariate statistiek, statistische proefopzet of experimenteel ontwerp,...). Ik ben van mening dat inleidende cursussen statistiek zoveel mogelijk gebruik dienen te maken van gebruiksvriendelijke software. Mits demonstraties in hoorcolleges en het gebruik ervan in werkcolleges kan een dergelijke software studenten enthousiasmeren voor statistiek, terwijl een ongebruiksvriendelijk pakket als R elk potentieel enthousiasme voor statistiek met grote waarschijnlijkheid in de kiem smoort. De kans dat een student in zijn latere beroepscarrière statistiek gebruikt zal veel groter zijn wanneer het gebruik van statistiek tijdens zijn opleiding een plezier was dan wanneer het een moeizaam traject was. DitboekbouwtvoortophetboekBeschrijvende Statistiek en Kansrekenen, dat in 2013 verscheen bij ACCO. Het boek Beschrijvende Statistiek en Kansrekenen volgt dezelfde filosofie als het huidige boek en gebruikt dezelfde software. De enorme grafische mogelijkheden van het pakket JMP worden in Beschrijvende Statistiek en Kansrekenen uitvoerig belicht. Aan veel onderwijsinstellingen is JMP vrij beschikbaar voor lesgevers en studenten, zowel voor thuisgebruik als in pc-klassen. Te allen tijde kan ook een gratis proefversie van JMP gedownload worden van U moet hiertoe wel eerst een korte registratieprocedure doorlopen. De proefversie werkt gedurende 30 dagen. Hoe gebruiksvriendelijk JMP ook is, het gebruik ervan zal enige oefening vergen. Om vertrouwd te raken met het softwarepakket kunt u enkele webcasts bekijken op De belangrijkstewebcasts zijn misschien wel de on-demand webcasts met als titel JMP for Students 1:NavigationandUse en JMPforStudents2:Basic Statistics. U kunt deze webcast zien door te klikken op News and Events, vervolgens op On-Demand Webcasts en ten slotte op het tabblad Academic te klikken. Voor docenten zijn er ook enkele interessante webcasts getiteld JMP for Professors: Tips for Teaching en JMP for Professors: Resources for Teaching JMP. Ook de webcast Getting Started with JMP is het bekijken waard.
7 Inhoudsopgave Deel I Schatters en toetsen 1 1 Hetschattenvanpopulatieparameters Inleiding:schatterversusschatting Hetschattenvaneengemiddelde Gemiddelde van een normaal verdeelde populatie Gemiddelde van een exponentieel verdeelde populatie Criteriavoorschatters Eenonvertekendeofzuivereschatter Precisieofefficiëntievaneenschatter Methodenvoorhetberekenenvanschatters Hetsteekproefgemiddelde Verwachtewaardeenvariantie Kansdichtheid van het steekproefgemiddelde uit een normaalverdeeldepopulatie Kansverdeling of -dichtheid van het steekproefgemiddelde uiteenniet-normaalverdeeldepopulatie Centralelimietstelling Illustratievandecentralelimietstelling Normaal verdeelde X Uniform verdeelde X Bernoulli-verdeelde X Desteekproefproportie Desteekproefvariantie
9 Inhoudsopgave xi Tweede benadering Derde benadering Tweezijdigetoets Eerstebenadering Tweedebenadering Derdebenadering Verband tussen een tweezijdige hypothesetoets eneenbetrouwbaarheidsinterval KansopeentypeII-foutenonderscheidingsvermogen Hetbepalenvandesteekproefgrootte Statistischeenpraktischesignificantie JMP Deel II Eén populatie 93 4 Hypothesetoetsen voor een populatiegemiddelde, -proportie en -variantie Hypothesetoetsvooreenpopulatiegemiddelde Rechtseenzijdigetoets Linkseenzijdigetoets Tweezijdigetoets Niet-normaalverdeeldegegevens Hetgebruikvanstandaard-JMP Hypothesetoetsvooreenpopulatieproportie Toets gebaseerd op de normale verdeling Rechts eenzijdige toets Links eenzijdige toets Tweezijdige toets Toets gebaseerd op de binomiale verdeling Rechts eenzijdige toets Links eenzijdige toets Tweezijdige toets Het toetsen van proporties in standaard-jmp Hypothesetoetsvooreenpopulatievariantie Rechtseenzijdigetoets Linkseenzijdigetoets Tweezijdigetoets Hetgebruikvanstandaard-JMP KansopeentypeII-foutenonderscheidingsvermogen Toetsvooreenpopulatiegemiddelde
10 xii Inhoudsopgave De niet-centrale t-verdeling Gebruik van de niet-centrale t-verdeling JMP Toetsvooreenpopulatieproportie Toets voor een populatievariantie en -standaarddeviatie Twee hypothesetoetsen voor de mediaan van een populatie Tekentoets Uitgangspuntvandetekentoets Exacte p-waarden Benaderende p-waarden op basis van de normale verdeling RangtekentoetsvanWilcoxon Het gebruik van rangnummers Uitgangspunt van de rangtekentoets Exacte p-waarden Rechts eenzijdige toets Links eenzijdige toets Tweezijdige toets Exacte p-waardenbijexaequo s Benaderende p-waarden op basis van de normale verdeling Rechts eenzijdige toets Links eenzijdige toets Tweezijdige toets Benaderende p-waarden op basis van de t-verdeling Rechts eenzijdige toets Links eenzijdige toets Tweezijdige toets Hypothesetoetsen voor de verdeling van een populatie Hettoetsenvankansverdelingen Bekendeparameters Onbekendeparameters χ 2 -toetsvoorkwalitatievevariabelen Hettoetsenvankansdichtheden De normale kansdichtheid Een elementair kwantieldiagram Een verbeterd kwantieldiagram Kwantieldiagrammen in JMP Het interpreteren van kwantieldiagrammen De Shapiro-Wilk-toets De Lilliefors-toets 041b061a72