Hoe u het beste lineaire regressiemodel kiest — Een uitgebreide gids voor beginners (2023)

Hoe u het beste lineaire regressiemodel kiest — Een uitgebreide gids voor beginners (3)

Als u een beginner bent in datawetenschap of statistiek met enige achtergrond in lineaire regressie en op zoek bent naar manieren om uw modellen te evalueren, dan is deze gids misschien iets voor u.

Dit artikel bespreekt de volgende statistieken voor het kiezen van het 'beste' lineaire regressiemodel: R-Squared (R²), Mean Absolute Error (MAE), Mean Squared Error (MSE), Root-Mean Square Error (RMSE), Akaike Information Criterion (AIC), en gecorrigeerde varianten hiervan die vooroordelen verklaren. Kennis van lineaire regressie wordt verondersteld. Ik hoop dat je dit artikel met plezier leest, nuttig vindt en iets nieuws leert :)

R-kwadraat (R²)

Hoe u het beste lineaire regressiemodel kiest — Een uitgebreide gids voor beginners (4)

De R²-waarde, ook wel bekend alsdeterminatiecoëfficiënt,vertelt ons hoeveel de voorspelde gegevens, aangeduid met y_hat,legt uitde feitelijke gegevens, aangeduid met y. Met andere woorden, het vertegenwoordigt de sterkte van de fit, maar het zegt niets over het model zelf - het vertelt je niet of het model goed is, of de gegevens die je hebt gekozen vertekend zijn, of zelfs als je de juiste modelleringsmethode¹ gekozen. Ik zal dit aan de hand van onderstaande voorbeelden laten zien.

De R²-waarde varieert van 0 tot 1, waarbij hogere waarden duiden op een sterke fit en lagere waarden op een zwakke fit. Meestal wordt afgesproken dat:

R² < 0,5 → Zwakke pasvorm

0,5 ≤ R² ≤ 0,8 → Gemiddelde pasvorm

R² > 0,8 → Sterke pasvorm

Opmerking: het is theoretisch mogelijk om R² < 0 te hebben, hoe die ook ontstaanzichtbaarvreselijke toevallen en zullen als zodanig niet in dit artikel worden besproken.

Je zou kunnen denken, als R² niet weergeeft hoe goed het model is, wat betekent 'fitness' dan eigenlijk? Het betekent dat,gemiddeld, wijken uw voorspelde waarden (y_hat) niet veel af van uw werkelijke gegevens (y). Onderstaande voorbeelden illustreren dit.

Hoe u het beste lineaire regressiemodel kiest — Een uitgebreide gids voor beginners (5)

Beide bovenstaande modellen hebben voorspelde lijnen die een 'sterke' pasvorm geven, in die zin dat ze hoge R²-waarden hebben en ook de kleine afwijking van de werkelijke gegevenspunten van de gepaste lijn vastleggen. Het is echter duidelijk dat, ondanks dat het linkermodel een hogere R²-waarde heeft, het rechtermodel een beter model is. In feite is het meest linkse model verschrikkelijk, omdat het de kromming van de gegevens niet vastlegt.Daarom betekent een hoge R² niet dat de pasvorm goed of passend is, het betekent gewoon dat de afwijking van de werkelijke punten van de gemonteerde punten gemiddeld klein is.

Soms kan een model een lage R²-waarde hebben, maar in feite een goed model zijn voor de gegevens. Overweeg de volgende voorbeelden:

Hoe u het beste lineaire regressiemodel kiest — Een uitgebreide gids voor beginners (6)

Net als het vorige voorbeeld past het model aan de linkerkant vreselijk, maar met een matige 'fitness', dus vergeleken met het model aan de rechterkant zou men kunnen denken, uitsluitend op basis van de R²-waarden, dat het meest linkse model is beter. Dit is onjuist, zoals blijkt uit de grafieken. Hoe zit het met het middelste model? Het heeft een R² die drie keer zo groot is als die van het model aan de rechterkant, en visueel lijkt het er niet helemaal naast te zitten. Dus je zou kunnen concluderen dat het middelste model veel beter is dan het juiste model?

Fout.

De gegevenspunten in het middelste en rechter model zijn gebaseerd op dezelfde lijn,y=x+e, waarezijn willekeurig gegenereerde fouten van een normale verdeling. Het enige verschil tussen beide is dat de foutmagnitudes worden versterkt in de meest rechtse grafiek. Het middelste model isslechterdan die aan de rechterkant, omdat ik het met opzet scheefgetrokken heb, zodat de vergelijking er ongeveer zo uitziet:

y_hoed = 1,25*x-25

Het model rechts is echter correct: het isy_hoed = x, precies hetzelfde als de lijn waaruit de gegevenspunten zijn gegenereerd. Om dit visueel te bevestigen, kun je de scheefheid op het middelste model zien, terwijl het rechtermodel precies in het midden van de datapunten lijkt te zitten, precies zoals je zou verwachten.Daarom kan een model met een lage R² de vorm van de gegevens nog steeds correct voorspellen, maar heeft het last van grote variantie in de gegevens.

Desondanks, als de aard van het probleem het voorspellen van waarden is, zou het middelste model beter kunnen presteren vanwege de lagere variatie in de datapunten, maar dit maakt het niet noodzakelijkerwijs een beter model.

R² Samenvatting

De R²-statistiek geeft een indicatie van hoe goed een model bij uw gegevens past, maar kan niet verklaren of uw model goed is of niet

Voordelen:

  1. Geeft een indicatie hoe goed de pasvorm van het model is

Nadelen:

  1. Door voorspellers aan het model toe te voegen, kan de waarde van R² door toeval toenemen, waardoor de resultaten misleidend worden (zieAangepaste R²)
  2. Het toevoegen van voorspellers aan het model kan 'overfitting' veroorzaken, waarbij het model de 'ruis' in de data probeert te voorspellen. Dit vermindert het vermogen om beter te presteren op 'nieuwe' gegevens die het nog niet eerder heeft gezien².
  3. R² heeft geen betekenis voor niet-lineaire modellen

Aangepaste R² (Adj. R²)

Hoe u het beste lineaire regressiemodel kiest — Een uitgebreide gids voor beginners (7)

Zoals eerder vermeld,het toevoegen van voorspellers aan een model zorgt ervoor dat R² toeneemt, zelfs als de prestaties van het model niet verbeteren.Een oplossing hiervoor is het gebruik van de aangepaste R² in plaats van de R² als maat voor hoe het model presteert.

Zoals blijkt uit de bovenstaande vergelijking, zijn er twee extra variabelen:N Enk.De eerste vertegenwoordigt het aantal gegevenspunten in het model, terwijl de laatste het aantal variabelen in het model vertegenwoordigt, exclusief de constante term.

Als uw model bijvoorbeeld de volgende vorm heeft:

y_hat =a0 + a1*x1 + a2*x2

Dan heb jek = 2,aangezien je twee voorspellers hebt,een1Ena2.

Dus waarom is de aangepaste R-kwadraat beter dan R-kwadraat?

Beschouw de volgende twee modellen:

y_hoed = x

y_hat = a0+a1*x1+a2*x²²+a3*x³³+a4*x⁴⁴+a5*x⁵⁵+a6*x⁶⁶+a7*x⁷⁷

Dezelfde gegevens, gebaseerd opy=x+ewerd voorspeld door de modellen, de uitkomst is hieronder weergegeven:

Hoe u het beste lineaire regressiemodel kiest — Een uitgebreide gids voor beginners (8)

Zoals weergegeven is de R² van het linkermodel (dat meer termen heeft) hoger dan dat van het rechtermodel, wat zou suggereren dat het een beter model is. We weten dat dit niet waar is, aangezien er op de gegevens is voortgebouwdy=x+e.

Wanneer we de aangepaste R²-waarden bekijken, zien we dat die voor het meest rechtse model min of meer hetzelfde is gebleven, terwijl die van het meest linkse model aanzienlijk is veranderd, wat de impact laat zien die het verhogen van het aantal termen kan hebben op de R²-waarde . In dit specifieke geval zou men het meest linkse model kunnen kiezen, aangezien het, zelfs na rekening te houden met de extra termen, een hogere aangepaste R² heeft. We weten dat dit onjuist is, het kan gewoon een gevolg zijn van de willekeurige fouten.We weten ook uit het eerste deel van dit artikel dat een hogere R² niet betekent dat het model beter is!

We kunnen dit verder onderzoeken door hetzelfde model te gebruiken om een ​​‘nieuwe dataset’ te passen, zodat de ‘trainingsbias’ wordt weggenomen.

Hoe u het beste lineaire regressiemodel kiest — Een uitgebreide gids voor beginners (9)

We zien hier dat het lineaire model aanzienlijk beter past dan dat van het polynoommodel (links), met R²- en aangepaste R²-waarden die vergelijkbaar zijn met die van de vorige dataset. Het polynoommodel, dat alleen goed presteerde omdat het de fouten en ruis 'past', presteert echter verschrikkelijk, met een nog sterkere afname van de R² gecorrigeerd voor het aantal variabelen.

Zoals altijd, met zowel R² als Adj. R², het is een goede gewoonte om de resulterende modellen te schetsen om visueel te controleren of het resultaat klopt, en in gevallen waarin het resultaat niet klopt, kan het toevoegen van extra datapunten of het gebruik van een andere 'test'-dataset meer inzicht geven.

Aangepaste R²-samenvatting

De aangepaste R² verbetert de R² door inzicht te geven of de R²-waarde van een model te danken is aan hoe goed de pasvorm is, of eerder aan de complexiteit ervan

Voordelen:

  1. Geeft meer inzicht in de problematiek van overfitting
  2. Verlaagt het effect van willekeur op de waarde van R² (d.w.z. als het hoog is vanwege willekeur, zal Aangepaste R² dat weerspiegelen)

Nadelen:

  1. Heeft nog steeds de andere problemen die verband houden met R²

Gemiddelde absolute fout (MAE)

Hoe u het beste lineaire regressiemodel kiest — Een uitgebreide gids voor beginners (10)

De MAE is de som van alle foutgrootheden gedeeld door het aantal punten, dus in wezen de gemiddelde fout.

Dus hoe lager de MAE, hoe minder fouten in uw model.

Gemiddelde kwadratische fout (MSE)

Hoe u het beste lineaire regressiemodel kiest — Een uitgebreide gids voor beginners (11)

De MSE is de som van devierkantenvan alle fouten gedeeld door het aantal punten. Merk op dat, aangezien de fout in elk geval feitelijk in het kwadraat is, deze niet direct kan worden vergeleken met de MAE, omdat deze altijd van een hogere orde zal zijn.

Dus, net als bij MAE, hoe lager de MSE, hoe minder fouten in het model.

Root Mean Squared Error (RMSE)

Hoe u het beste lineaire regressiemodel kiest — Een uitgebreide gids voor beginners (12)

RMSE is de vierkantswortel van de MSE. Dit is in zekere zin een nuttiger statistiek, en nu zowel MAE als RMSE dezelfde 'foutvolgorde' hebben, kunnen ze met elkaar worden vergeleken.

Zoals bij zowel MAE als MSE, lagere MSAE → lagere fout.

Dus, hoe is dit in de praktijk?

Ik heb hier twee voorbeelden.

De eerste is heel eenvoudig, ik heb een regel gemaakty_hat = 2x +5, en eentje met ruis dusy = 2x + 5 + e.

Hoe u het beste lineaire regressiemodel kiest — Een uitgebreide gids voor beginners (13)

Hier zien we dat de MAE en RMSE erg dicht bij elkaar liggen, wat beide aangeeft dat het model een vrij lage fout heeft (onthoud, hoe lager MAE of RMSE, hoe minder fout!).

Maar dus vraag je je misschien af, wat is het verschil tussen MAE en RMSE? Waarom is de MAE lager?

Hier is een antwoord op.

Als we naar de vergelijkingen voor MAE en RMSE kijken, zien we dat RMSE een gekwadrateerde term heeft... dus: grote fouten worden gekwadrateerd, en zouden dus de waarde van RMSE verhogen. Als zodanig kunnen we concluderen dat RMSE beter is in het vastleggen van grote fouten in de data, terwijl MAE gewoon de gemiddelde fout geeft.Aangezien de RMSE ook de kwadraten optelt voordat een gemiddelde wordt genomen, zal deze altijd inherent hoger zijn dan de MAE.

Om dit in een voorbeeld te zien, overweeg dit:

Hoe u het beste lineaire regressiemodel kiest — Een uitgebreide gids voor beginners (14)

De oranje lijn stelt de vergelijking voory_hoed = 2x + 5die ik eerder beschreef... de 'y' heeft nu echter de vorm:

y = y + sin(x)*exp(x/20) + e

waarexp()vertegenwoordigt de exponentiële functie (en daarom zien we een toename in de afwijking van de punten.

Zoals u kunt zien, is de RMSE bijna tweemaal de MAE-waarde, omdat deze de 'grootheid' van de fouten heeft vastgelegd (vooral die vanX = 80en verder).

Dus je denkt misschien: is het niet beter om altijd RMSE te gebruiken?

Nee.

MAE heeft enkele voordelen.

Ten eerste willen we misschien kleine fouten op dezelfde manier behandelen als grote fouten. Stel bijvoorbeeld dat u gegevens aanpast die over het algemeen geen grote fouten bevatten, behalve één groot afwijkend gegevenspunt.Als u uw lineaire regressiemodel kiest op basis van de minimale RMSE, kan uw model een overfit zijn, aangezien uproberenom de anomalie vast te leggen.

In een dergelijk geval, aangezien uw gegevens over het algemeen uniform zijn met weinig tot geen zichtbaar grote fouten, is het wellicht geschikter om het regressiemodel met de laagste MAE te kiezen.

Daarnaast wordt het vergelijken van RMSE voor modellen met verschillende steekproefomvang een beetje problematisch en inconsistent³.

Samenvatting van MAE, MSE en RMSE:

MAE is de gemiddelde fout in de pasvorm; MSE is het gemiddelde van kwadratische fouten; RMSE is de vierkantswortel van MSE en wordt gebruikt voor vergelijkingsdoeleinden. RMSE bestraft grote fouten.

Voordelen van MAE / RMSE:

  1. Beide vangen de ‘fout’ in het model op
  2. MAE is een 'echt' gemiddelde in die zin dat het een maat is voor de gemiddelde fout; RMSE is een beetje genuanceerder, aangezien het isscheefdoor factoren zoals de grootte van de fout

Nadelen van MAE / RMSE:

  1. MAE pakt hele grote fouten niet op; RMSE pikt grote fouten op en is dus gevoelig voor uitschieters die het misschien niet wil vastleggen
  2. Beideneigen tottoenemen naarmate de modelcomplexiteit toeneemt (d.w.z. vatbaar voor overfitting), vergelijkbaar met hoe R² toeneemt met de complexiteit

Merk op dat hier ook gecorrigeerde varianten van zijn, bijvoorbeeld MSec, waarbij de c staat voor gecorrigeerd. De vergelijking verschilt alleen doordat het gemiddelde niet meer is1/N, maar liever1/(N+k+1),waarkis het aantal voorspellers (exclusief het snijpunt). Dit is analoog aan de aangepaste R², in die zin dat het het model straft voor hoe complex het is.

Akaike's informatiecriterium (AIC)

Hoe u het beste lineaire regressiemodel kiest — Een uitgebreide gids voor beginners (15)

De AIC is wat lastiger uit te leggen: het is een maat voorbeidehoe goed de gegevens in het model passen en hoe complex het is. Dus in zekere zin is het een mix van de R² en de aangepaste R². Wat is doet isbestraffeneen model voor zijn complexiteit, maarprijshoe goed het bij de gegevens past.

Deze waarde is bijna altijd negatief.

In wezen, delagerde AIC (d.w.z. negatiever), debeterhet model in hoe hetpast bijde gegevens, en hoe hetvermijdtoverfitting⁴ (onthoud, complexiteit → overfitting, dus als AIC complexiteit bestraft, dan straft het overfitting).

Laten we naar een voorbeeld kijken.

Denk aan het voorbeeld dat we gebruikten voor aangepaste R², waar we een waanzinnig complex model hadden om een ​​lineaire lijn met ruis te modelleren.

Ik heb het model opnieuw uitgevoerd, deze keer ook met een AIC-score: laten we de resultaten bekijken.

Hoe u het beste lineaire regressiemodel kiest — Een uitgebreide gids voor beginners (16)

We kunnen hier meerdere dingen zien, wat ook een goede herziening zal zijn.

De R² van de linker grafiek is hoger dan die van de rechter, maar wijwetendat de meest rechtse de juiste is. Dit is een symptoom dat R² groter wordt voor complexere modellen.

In dit geval laat onze aangepaste R² zien dat het eenvoudige model beter is (onthoud dat dit vanwege willekeur niet altijd het geval zal zijn, maar we kunnen nog steeds een indicatie krijgen van hoe goed het model is door het verschil te meten tussen R² aangepaste en R² → het eenvoudigere model zal een lager verlies lijden)

We hebben ook de AIC om ons te helpen: hoe negatiever de AIC, hoe beter fit en hoe minder overfit. Dus alleen al op basis van de AIC-parameter kunnen we concluderen dat het eenvoudigere model beter is (dat gezegd hebbende, vergeet niet om altijd je plots te schetsen en ze te beredeneren, vertrouw niet alleen op cijfers!).

Laten we eens kijken hoe de modellen zich gedragen voor testgegevens:

Hoe u het beste lineaire regressiemodel kiest — Een uitgebreide gids voor beginners (17)

Zoals voorspeld is de R² van het complexere model hoger. Hier merkten we ook dat de aangepaste R² ook hoger is. We hebben ook onze prachtige AIC, die weer eens heeft aangetoond dat het eenvoudigere model beter is.

AIC-samenvatting:

Hoe lager de AIC, hoe beter het model is qua fit en het vermijden van overfit.

Voordelen:

  1. AIC is een goede indicator voor de kwaliteit van het model, aangezien het rekening houdt met zowel de pasvorm, maar ook hoe weinig het model overfit is

Nadelen:

  1. Wiskundig gezien is AIC alleen geldig voor een oneindige dataset. Computationeel kan de fout worden gecompenseerd door een zeer grote steekproefomvang te hebben. Voor kleinere monsters moet een correctiefactor worden toegevoegd.

Conclusie:

Ik hoop dat je de verschillende parameters, hun use cases en hoe ze misleidend kunnen zijn, hebt geleerd.

Ik wil dit artikel beëindigen door u een voorbeeld uit de praktijk te laten zien.

Voor dit project probeerde ik de onderhoudskosten per lengte-eenheid van een brug (Y) te voorspellen als functie van de ouderdom (X1) en lengte (X2).

Hoe u het beste lineaire regressiemodel kiest — Een uitgebreide gids voor beginners (18)

Ik had een aantal verschillende modellen bedacht, waarvan sommige erg complex waren.

Hoe u het beste lineaire regressiemodel kiest — Een uitgebreide gids voor beginners (19)

Zoals u kunt zien, zijn hier een aantal verschillende dingen bij betrokken, maar meestal zien we dat de modellen zeer vergelijkbare statistieken hebben. Dit is waar het handig is om een ​​combinatie van verschillende statistieken samen te gebruiken. Daarom is het goed om ze allemaal te kennen, of zoveel mogelijk.

Uiteindelijk werd aangenomen dat het slechtste model het 'kwadratische' type is omdat het de hoogste AIC heeftEnde laagste R² aangepast.

Het beste model werd beschouwd als het 'lineaire' model, omdat het de hoogste AIC heeft en een vrij lage R²-aanpassing (in feite is het binnen 1% van dat van model 'poly31' met de hoogste R²-aanpassing).

Noot voor de lezer:

Ik hoop dat je dit artikel met plezier hebt gelezen en dat je de beschreven statistieken beter begrijpt. Aangezien dit mijn eerste artikel is, zou ik het op prijs stellen als je me feedback zou kunnen geven: wat was goed? wat was slecht? Wat ontbreekt er? Wat had ik anders kunnen uitleggen?

Heel erg bedankt, en ik hoop dat je je leerreis voortzet :)

bronnen:

  1. https://www.investopedia.com/terms/r/r-squared.asp#:~:text=R-squared%20(R2),variabelen%20in%20a%20regressie%20model.
  2. https://machinelearningmastery.com/overfitting-and-underfitting-with-machine-learning-algorithms/#:~:text=Overfitting%20refers%20to%20a%20model%20that%20models%20the%20training%20data%20too% 20wel.&text=Dit%20betekent%20dat%20het%20lawaai,de%20modellen%20%20kunnen%20generaliseren.
  3. https://medium.com/human-in-a-machine-world/mae-and-rmse-which-metric-is-better-e60ac3bde13d
  4. https://towardsdatascience.com/the-akaike-information-criterion-c20c8fd832f2

Alle afbeeldingen verstrekt door de auteur, tenzij anders vermeld.

References

Top Articles
Latest Posts
Article information

Author: Manual Maggio

Last Updated: 30/07/2023

Views: 5283

Rating: 4.9 / 5 (69 voted)

Reviews: 92% of readers found this page helpful

Author information

Name: Manual Maggio

Birthday: 1998-01-20

Address: 359 Kelvin Stream, Lake Eldonview, MT 33517-1242

Phone: +577037762465

Job: Product Hospitality Supervisor

Hobby: Gardening, Web surfing, Video gaming, Amateur radio, Flag Football, Reading, Table tennis

Introduction: My name is Manual Maggio, I am a thankful, tender, adventurous, delightful, fantastic, proud, graceful person who loves writing and wants to share my knowledge and understanding with you.