Si të zbuloni largësitë: 10 hapa (me fotografi)

Përmbajtje:

Si të zbuloni largësitë: 10 hapa (me fotografi)
Si të zbuloni largësitë: 10 hapa (me fotografi)

Video: Si të zbuloni largësitë: 10 hapa (me fotografi)

Video: Si të zbuloni largësitë: 10 hapa (me fotografi)
Video: How To Turn Articles Into Videos & Make $28K/Mo With A.I Software For FREE (3 Easy Steps) 2024, Mund
Anonim

Në statistika, një dalje ose "më e largët" është një e dhënë që devijon shumë larg nga çdo e dhënë tjetër brenda një mostre ose grupi të dhënash (grupi i të dhënave quhet të dhëna). Shpesh, një tejkalim në një grup të dhënash mund të shërbejë si një paralajmërim për statistikuesin e një anomalie ose gabimi eksperimental në matjet e marra, gjë që mund të bëjë që statistiçani të heqë pjesën më të madhe nga grupi i të dhënave. Nëse statistikuesi heq më të ndryshmet nga grupi i të dhënave, përfundimet e nxjerra nga studimi mund të jenë shumë të ndryshme. Prandaj, të dish se si të llogaritësh dhe analizosh largësitë është shumë e rëndësishme për të siguruar kuptimin e saktë të një grupi të dhënash statistikore.

Hapi

Llogaritni largësitë Hapi 1
Llogaritni largësitë Hapi 1

Hapi 1. Mësoni si të identifikoni të dhëna potencialisht më të mëdha

Para se të vendosim nëse do të heqim të dhënat më të largëta nga grupi i të dhënave ose jo, natyrisht që duhet të identifikojmë se cilat të dhëna kanë potencialin të bëhen më të lartë. Në përgjithësi, një dalje e jashtme është një e dhënë që devijon shumë larg nga të dhënat e tjera në një grup të dhënash - me fjalë të tjera, një përjashtues është "jashtë" të dhënave të tjera. Zakonisht është e lehtë të zbulosh largësi në një tabelë të të dhënave ose (në veçanti) një grafik. Nëse një grup i të dhënave përshkruhet vizualisht me një grafik, të dhënat e jashtme do të duken të jenë "shumë larg" nga të dhënat e tjera. Nëse, për shembull, shumica e të dhënave në një grup të dhënash formojnë një vijë të drejtë, e dhëna më e largët nuk do të interpretohet në mënyrë të arsyeshme se formon atë linjë.

Le të shikojmë një grup të dhënash që përfaqësojnë temperaturat e 12 objekteve të ndryshme në një dhomë. Nëse 11 objekte kanë një temperaturë prej rreth 70 gradë Celsius (21 gradë Celsius), por objekti i 12 -të, një furrë, ka një temperaturë prej 300 Fahrenheit (150 gradë Celsius), mund të shihet menjëherë se temperatura e furrës ka shumë të ngjarë të jetë nje perjashtim

Llogaritni largësitë Hapi 2
Llogaritni largësitë Hapi 2

Hapi 2. Organizoni të dhënat në një grup të dhënash nga më i ulëti tek më i larti

Hapi i parë për llogaritjen e largësive në një grup të dhënash është gjetja e mesatares (vlera e mesme) e atij grupi të dhënash. Kjo detyrë bëhet shumë e thjeshtë nëse të dhënat në një grup të dhënash janë të renditura nga më të vogla në më të mëdhatë. Pra, para se të vazhdoni, rregulloni datat në një grup të tillë të dhënash.

Le të vazhdojmë shembullin e mësipërm. Ky është grupi ynë i të dhënave që përfaqësojnë temperaturat e disa objekteve në një dhomë: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Nëse i rregullojmë të dhënat nga më të ultat në më të lartat, rendi i të dhënave bëhet: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}

Llogaritni largësitë Hapi 3
Llogaritni largësitë Hapi 3

Hapi 3. Llogaritni mesataren e grupit të të dhënave

Mesatarja e një grupi të dhënash është një e dhënë ku gjysma tjetër e datumit është mbi atë të dhëna dhe gjysma e mbetur është nën të - në thelb, ajo është data që është në "mesin" e grupit të të dhënave. Nëse numri i të dhënave në një grup të dhënash është tek, është shumë e lehtë për tu gjetur - mesatarja është ajo që ka të njëjtin numër mbi dhe poshtë saj. Sidoqoftë, nëse numri i të dhënave në grupin e të dhënave është i barabartë, atëherë, sepse asnjë e dhënë nuk përshtatet në mes, 2 të dhënat në mes janë mesatarisht për të gjetur mesataren. Duhet të theksohet se, kur llogariten largësitë, mesatares zakonisht i caktohet variabla Q2-ni sepse Q2 është midis Q1 dhe Q3, kuartili i poshtëm dhe i sipërm, për të cilin do të diskutojmë më vonë.

  • Për të mos u ngatërruar me një grup të dhënash ku numri i të dhënave është i barabartë-mesatarja e 2 të dhënave të mesme shpesh do të kthejë një numër që nuk është në grupin e të dhënave vetë-kjo është në rregull. Sidoqoftë, nëse 2 të dhënat e mesme janë i njëjti numër, mesatarisht, natyrisht, do të jetë gjithashtu i njëjti numër, i cili është gjithashtu i mirë.
  • Në shembullin e mësipërm, ne kemi 12 të dhëna. 2 të dhënat e mesme janë përkatësisht të dhënat e 6-ta dhe të 7-ta-70 dhe 71. Pra, mesatarja e grupit tonë të të dhënave është mesatarja e këtyre 2 numrave: ((70 + 71) / 2), = 70.5.
Llogaritni Outlier Hapi 4
Llogaritni Outlier Hapi 4

Hapi 4. Llogarit kuartilin e poshtëm

Kjo vlerë, të cilës i japim ndryshoren Q1, është e dhëna që përfaqëson 25 përqind (ose një të katërtën) e të dhënave. Me fjalë të tjera, është e dhëna që ndan përgjysmë të dhënat që janë nën mesataren. Nëse numri i të dhënave nën mesataren është i barabartë, ju duhet përsëri të mesatarizoni 2 të dhëna në mes për të gjetur Q1, ashtu siç do të bënit për të gjetur vetë median.

Në shembullin tonë, ka 6 të dhëna që shtrihen mbi mesataren, dhe 6 të dhëna që shtrihen nën mesataren. Kjo do të thotë se, për të gjetur kuartilin e poshtëm, do të na duhet të mesatarizojmë 2 të dhëna në mes të 6 të dhënave nën mesataren. Të dhënat e 3 -ta dhe të 4 -ta të 6 të dhënave nën mesataren janë të dyja 70. Pra, mesatarja është ((70 + 70) / 2), = 70Me 70 bëhet Q1 -i ynë.

Llogaritni largësitë Hapi 5
Llogaritni largësitë Hapi 5

Hapi 5. Llogarit kuartilin e sipërm

Kjo vlerë, të cilës i japim ndryshoren Q3, është e dhëna në të cilën ka 25 përqind të të dhënave në grupin e të dhënave. Gjetja e Q3 është pothuajse e njëjtë me gjetjen e Q1, përveç se, në këtë rast, ne po shikojmë të dhënat mbi mesataren, jo nën mesataren.

Duke vazhduar shembullin tonë më sipër, 2 të dhënat në mes të 6 të dhënave mbi mesataren janë 71 dhe 72. Mesatarja e këtyre 2 të dhënave është ((71 + 72)/2), = 71, 5Me 71, 5 është Q3 -ja jonë.

Llogaritni Outlier Hapi 6
Llogaritni Outlier Hapi 6

Hapi 6. Gjeni distancën ndërkuartile

Tani që kemi gjetur Q1 dhe Q3, duhet të llogarisim distancën midis këtyre dy variablave. Distanca nga Q1 në Q3 gjendet duke zbritur Q1 nga Q3. Vlerat që merrni për distancat ndërkuartile janë shumë të rëndësishme për përcaktimin e kufijve të të dhënave jo të mëdha në grupin tuaj të të dhënave.

  • Në shembullin tonë, vlerat tona të Q1 dhe Q3 janë 70 dhe 71, 5. Për të gjetur distancën ndërkuartile, ne zbresim Q3 - Q1 = 71.5 - 70 = 1, 5.
  • Duhet të theksohet se kjo është gjithashtu e vërtetë edhe nëse Q1, Q3, ose të dy janë numra negativë. Për shembull, nëse vlera jonë Q1 ishte -70, distanca jonë e saktë ndërkuartile do të ishte 71.5 -(-70) = 141, 5.
Llogaritni largësitë Hapi 7
Llogaritni largësitë Hapi 7

Hapi 7. Gjeni "gardhin e brendshëm" në grupin e të dhënave

Largësitë gjenden duke kontrolluar nëse të dhënat bien brenda kufijve të numrave të quajtur "gardh i brendshëm" dhe "gardh i jashtëm". Një e dhënë që bie jashtë gardhit të brendshëm të grupit të të dhënave referohet si një "shpërndarje e vogël", ndërsa një e dhënë që bie jashtë gardhit të jashtëm quhet "një shpërndarje kryesore". Për të gjetur gardhin e brendshëm në grupin tuaj të të dhënave, së pari shumëzoni distancën interkartile me 1, 5. Pastaj, shtoni rezultatin me Q3 dhe gjithashtu zbriteni atë nga Q1. Dy vlerat që merrni janë kufijtë e gardhit të brendshëm të grupit tuaj të të dhënave.

  • Në shembullin tonë, distanca ndërkuartile është (71.5 - 70), ose 1.5. Shumëzoni 1.5 me 1.5 që rezulton në 2.25. Ne e shtojmë këtë numër në Q3 dhe zbresim Q1 me këtë numër për të gjetur kufijtë e gardhit të brendshëm si më poshtë:

    • 71, 5 + 2, 25 = 73, 75
    • 70 - 2, 25 = 67, 75
    • Pra, kufijtë e gardhit tonë të brendshëm janë 67, 75 dhe 73, 75.
  • Në grupin tonë të të dhënave, vetëm temperatura e furrës, 300 Fahrenheit - është jashtë këtyre kufijve dhe kështu kjo e dhënë është një përjashtim i vogël. Sidoqoftë, ne ende nuk kemi llogaritur nëse kjo temperaturë është një largim i madh, kështu që mos nxitoni të nxirrni përfundime derisa të kemi bërë llogaritjet tona.

    Llogaritni largësitë Hapi 7Bulleta2
    Llogaritni largësitë Hapi 7Bulleta2
Llogaritni Outlier Hapi 8
Llogaritni Outlier Hapi 8

Hapi 8. Gjeni "gardhin e jashtëm" në grupin e të dhënave

Kjo bëhet në të njëjtën mënyrë si gjetja e gardhit të brendshëm, përveç se distanca ndërkuartile shumëzohet me 3 në vend të 1.5. Rezultati pastaj shtohet në Q3 dhe zbritet nga Q1 për të gjetur kufijtë e sipërm dhe të poshtëm të gardhit të jashtëm.

  • Në shembullin tonë, shumëzimi i distancës ndërkuartile me 3 jep (1, 5 x 3), ose 4, 5. Ne gjejmë kufijtë e gardhit të jashtëm në të njëjtën mënyrë si më parë:

    • 71, 5 + 4, 5 = 76
    • 70 - 4, 5 = 65, 5
    • Kufijtë e gardhit të jashtëm janë 65.5 dhe 76.
  • Të dhënat që shtrihen jashtë kufirit të gardhit të jashtëm quhen largues të mëdhenj. Në këtë shembull, temperatura e furrës, 300 Fahrenheit, është qartë jashtë gardhit të jashtëm, kështu që kjo e dhënë është "padyshim" një përjashtim kryesor.

    Llogaritni largësitë Hapi 8Bulleta2
    Llogaritni largësitë Hapi 8Bulleta2
Llogaritni Outlier Hapi 9
Llogaritni Outlier Hapi 9

Hapi 9. Përdorni gjykimin cilësor për të përcaktuar nëse do të "hidhni" ose jo të dhënat e jashtme

Duke përdorur metodën e përshkruar më sipër, mund të përcaktohet nëse një e dhënë është një e dhënë e vogël, një e dhënë e madhe, apo aspak një dalëse. Sidoqoftë, mos bëni asnjë gabim - gjetja e një të dhëne si një dalje e jashtme vetëm shënon atë të dhëna si një "kandidat" për t'u hequr nga grupi i të dhënave, jo si një të dhënë që "duhet" të hidhet poshtë. "Arsyeja" që shkakton që një e dhënë e jashtme të devijojë nga të dhënat e tjera në një grup të dhënash është shumë e rëndësishme në përcaktimin nëse do ta hidhni atë apo jo. Në përgjithësi, një tejkalim i shkaktuar nga një gabim në matje, regjistrim ose planifikim eksperimental, për shembull-mund të hidhet poshtë. Nga ana tjetër, largimet që nuk janë shkaktuar nga gabimi dhe që tregojnë informacione të reja ose tendenca që nuk ishin parashikuar më parë, zakonisht "nuk" hidhen poshtë.

  • Një kriter tjetër për t'u marrë parasysh është nëse tejkaluesi ka një efekt të madh në mesataren e një grupi të dhënash, domethënë nëse tejkaluesi e ngatërron atë ose e bën atë të duket i gabuar. Kjo është shumë e rëndësishme të merret parasysh nëse keni ndërmend të nxirrni përfundime nga mesatarja e grupit tuaj të të dhënave.
  • Le të studiojmë shembullin tonë. Në këtë shembull, meqenëse duket "shumë" e pamundur që furra të arrijë 300 Fahrenheit përmes forcave natyrore të paparashikueshme, mund të konkludojmë me pothuajse siguri se furra është lënë rastësisht e ndezur, duke rezultuar në një anomali të të dhënave të temperaturës së lartë. Gjithashtu, nëse nuk heqim pjesët e jashtme, mesatarja e grupit tonë të të dhënave është (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300)/12 = 89.67 Fahrenheit (32 gradë Celsius), ndërsa mesatarja nëse heqim pjesët e jashtme është (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73)/11 = 70.55 Fahrenheit (21 gradë Celsius).

    Meqenëse këto të largëta u shkaktuan nga gabimi njerëzor dhe për shkak se do të ishte e pasaktë të thuhet se temperatura mesatare e dhomës arrin gati 90 Fahrenheit (32 gradë Celsius), ne jemi më mirë të zgjedhim të "hedhim" të jashtmit tanë

Llogaritni largësitë Hapi 10
Llogaritni largësitë Hapi 10

Hapi 10. Njihni rëndësinë (nganjëherë) të ruajtjes së largësive

Edhe pse disa elementë të jashtëm duhet të hiqen nga grupi i të dhënave sepse ato shkaktojnë gabime dhe/ose i bëjnë rezultatet të pasakta ose të gabuara, disa të veçanta duhet të ruhen. Nëse, për shembull, një tejkalim duket të jetë fituar natyrshëm (domethënë jo si rezultat i një gabimi) dhe/ose siguron një perspektivë të re mbi fenomenin në studim, pjesa më e lartë nuk duhet të hiqet nga grupi i të dhënave. Hulumtimi shkencor është zakonisht një situatë shumë e ndjeshme kur është fjala për tejkalimet - heqja e gabuar e të largëtave mund të nënkuptojë heqjen e informacionit që tregon një prirje ose zbulim të ri.

Për shembull, le të themi se ne po krijojmë një ilaç të ri për të rritur madhësinë e peshkut në një pellg peshku. Ne do të përdorim grupin tonë të vjetër të të dhënave ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), përveç kësaj radhe, çdo e dhënë do të përfaqësojë peshën e një peshku (në gram) pasi iu dha një ilaç i ndryshëm eksperimental që nga lindja. Me fjalë të tjera, ilaçi i parë bën që një peshk të peshojë 71 gram, ilaçi i dytë bën që një peshk tjetër të peshojë 70 gram, etj. Në këtë rast, 300 është "akoma" një largim i madh, por ne nuk duhet ta hedhim poshtë këtë të dhënë sepse, duke supozuar se është marrë pa asnjë gabim, ai përfaqëson një sukses në studim. Ilaçi që mund të bëjë peshkun të peshojë 300 gram funksionon më mirë se të gjitha barnat e tjera, kështu që kjo e dhënë është në të vërtetë "më e rëndësishmja" në grupin tonë të të dhënave, jo "më pak e rëndësishme"

Recommended: