Julie Colas |8 november 2020
Nadat u een lineair model hebt aangepast met behulp van regressieanalyse, ANOVA of ontwerp van experimenten (DOE), moet u bepalen hoe goed het model bij de gegevens past. Om u te helpen, deMinitab statistische softwarepresenteert een verscheidenheid aan goodness-of-fit-statistieken. In dit artikel zullen we de R-kwadraat (R²) statistiek, enkele van zijn beperkingen, verkennen en onderweg een paar verrassingen ontdekken. Lage R-kwadraatwaarden zijn bijvoorbeeld niet altijd slecht en hoge R-kwadraatwaarden zijn niet altijd goed!
Wat isgeschiktheidgeschikt voor een lineair model?
Definitie: Restwaarde en waargenomen waarde - Gecorrigeerde waarde
Lineaire regressie berekent een vergelijking die de afstand tussen de aangepaste lijn en alle gegevenspunten minimaliseert. Technisch gezien minimaliseert OLS-regressie (Ordinary Least Squares) de som van de gekwadrateerde residuen.
Over het algemeen past een model goed bij de gegevens als de verschillen tussen de waargenomen waarden en de voorspelde waarden van het model klein en onbevooroordeeld zijn.
Voordat u de statistische maatstaven voor goedheid van pasvorm onderzoekt, zou u dat moeten doencontroleer de restwaardegrafieken. Grafieken van residuen kunnen ongewenste patronen/trends onthullen die op een effectievere manier vertekende resultaten aangeven dan getallen. Wanneer uw grafieken van residuen de verschillende aannames van het model valideren, kunt u uw numerieke resultaten vertrouwen en goodness-of-fit-statistieken verifiëren
Wat is R-kwadraat?
De R-kwadraat is een statistische maat voor hoe dicht de gegevens bij de aangepaste regressielijn liggen. Het is ook bekend als de determinatiecoëfficiënt of de meervoudige determinatiecoëfficiënt voor meervoudige regressie.
De definitie van R-kwadraat is vrij eenvoudig; het is het variatiepercentage van de responsvariabele dat wordt verklaard door een lineair model. Of:
R-kwadraat = Verklaarde variatie / Totale variatie
De R-kwadraat ligt altijd tussen 0 en 100%:
- 0% geeft aan dat het model niets van de variabiliteit van de responsgegevens rond het gemiddelde verklaart.
- 100% geeft aan dat het model alle variabiliteit in de responsgegevens rond zijn gemiddelde verklaart.
Over het algemeen geldt: hoe hoger de R-kwadraat, hoe beter het model bij uw gegevens past. Er zijn echter belangrijke voorwaarden aan deze aanbeveling die ik zowel in dit artikel als in mijn volgende artikel zal bespreken.
Grafische weergave van R-vierkant
Het uitzetten van passende waarden tegen waargenomen waarden illustreert grafisch verschillende R-kwadraatwaarden voor regressiemodellen.
Het regressiemodel aan de linkerkant is verantwoordelijk voor 46,1% van de variantie, terwijl het model aan de rechterkant 71,7% vertegenwoordigt. Hoe groter de variantie verklaard door het regressiemodel, hoe dichter de gegevenspunten bij de gepaste regressielijn zullen liggen. Theoretisch, als een model 100% van de variantie zou kunnen verklaren, zouden de gepaste waarden altijd gelijk zijn aan de waargenomen waarden, en daarom zouden alle datapunten op de gepaste regressielijn vallen.
Klaar voor een demo van Minitab data-analysesoftware?Schrijf ons >
Belangrijkste beperkingen van R-kwadraat
R-kwadraat kan uitwijzen of schattingen en voorspellingen van coëfficiënten vertekend zijn, dus u moet residuplots evalueren.
R-kwadraat geeft niet aan of een regressiemodel adequaat is. U kunt een lage R-kwadraatwaarde hebben voor een goed model, of een hoge R-kwadraatwaarde voor een model dat niet bij de gegevens past!
De R-kwadraat in uw resultaten is een vertekende schatting van de populatie R-kwadraat.
Zijn lage waarden van R-kwadraat inherent slecht?
Neen ! Er zijn twee hoofdredenen waarom het heel goed kan zijn om lage R-kwadraatwaarden te hebben.
In sommige gebieden wordt verwacht dat uw R-kwadraatwaarden laag zijn. Elk veld dat menselijk gedrag probeert te voorspellen, zoals psychologie, heeft bijvoorbeeld doorgaans R-kwadraatwaarden van minder dan 50%. Mensen zijn nu eenmaal moeilijker te voorspellen dan bijvoorbeeld fysieke processen.
Ook als uw R-kwadraatwaarde laag is maar u statistisch significante voorspellers heeft, kunt u nog steeds belangrijke conclusies trekken over hoe veranderingen in voorspellende waarden verband houden met veranderingen in responswaarde. Ongeacht R-kwadraat vertegenwoordigen de significante coëfficiënten altijd de gemiddelde verandering in respons voor één eenheidsverandering in de voorspeller, terwijl de andere voorspellers in het model constant worden gehouden. Uiteraard kan dit soort informatie zeer waardevol zijn.
Een lage R-kwadraat is problematischer wanneer u prognoses wilt produceren die redelijk nauwkeurig zijn (die een vrij kleinevoorspellingsinterval). Wat moet de R-kwadraatwaarde voor de prognose zijn? Welnu, het hangt af van uw behoeften voor de breedte van het voorspellingsinterval en de hoeveelheid variabiliteit in uw gegevens. Hoewel een hoge R-kwadraat noodzakelijk is voor nauwkeurige voorspellingen, is het op zichzelf niet voldoende, zoals we zullen zien.
Zijn hoge waarden van R-kwadraat intrinsiek goed?
Neen! Een hoge R-kwadraat geeft niet noodzakelijkerwijs aan dat het model goed past. Dit komt misschien als een verrassing, maar kijk eens naar de tabel met aangepaste curven en residuen hieronder. De aangepaste curve toont de relatie tussen halfgeleiderelektronenmobiliteit en de natuurlijke logaritme van de dichtheid voor echte experimentele gegevens.
De gepaste curve laat zien dat deze gegevens een mooie kubieke functie volgen en dat de R-kwadraat 98,5% is, wat er best goed uitziet. Kijk echter eens goed om te zien hoe de regressielijn consequent over en onder de gegevens (biases) voorspelt op verschillende punten langs de lijn. U kunt ook trends in de residuen zien op basis van de gepaste waarden, in plaats van de willekeur die u wilt observeren. Dit duidt op een slechte pasvorm en dient als herinnering waarom u altijd de residugrafieken moet controleren.
Dit voorbeeld komt uit mijn artikel over kiezen tussenlineaire en niet-lineaire regressie. In dit geval is het antwoord om niet-lineaire regressie te gebruiken, omdat lineaire modellen niet kunnen passen in de specifieke curve die deze gegevens volgen.
Vergelijkbare vooroordelen kunnen echter optreden wanneer uw lineaire model geen belangrijke voorspellers, polynoomtermen en interactietermen bevat. Statistici noemen dit specificatiebias en het wordt veroorzaakt door een ondergespecificeerd model. Voor dit type vertekening kunt u de residuen corrigeren door de juiste termen aan het model toe te voegen.
Lees mijn artikel voor meer informatie over hoe een hoge R-kwadraat niet altijd een goede zaak isVijf redenen waarom uw R-kwadraat mogelijk te hoog is.
Laatste gedachten over R-kwadraat
R-kwadraat is een handige, schijnbaar intuïtieve maat voor hoe goed uw lineaire model past bij een reeks waarnemingen. Zoals we hebben gezien, vertelt de R-kwadraat ons echter niet het hele verhaal. U moet R-kwadraatwaarden evalueren in combinatie met residuen, andere modelstatistieken en praktische/fysieke kennis van het onderwerp om het verhaal te voltooien.
Hoewel de R-kwadraat een schatting geeft van de sterkte van de relatie tussen uw model en de responsvariabele, biedt het geen formele hypothesetest voor die relatie. DEF-test van algemeen belangbepaalt of deze relatie statistisch significant is.
In mijn volgende artikel gaan we verder met het thema dat het R-vierkant op zichzelf onvolledig is en zien we nog twee soorten R-vierkant:Aangepaste R-kwadraat en voorspelde R-kwadraat. Deze twee maatregelen overwinnen specifieke problemen om aanvullende informatie te verschaffen om u te helpen de verklarende kracht van uw regressiemodel te beoordelen.
Ontdek het antwoord op deze eeuwige vraag om meer te weten te komen over R-kwadraat:Wat moet de minimale R-kwadraatwaarde zijn?
Ontdek en probeer gratis30 dagen proefversie van Minitab data-analysesoftware >