Å komme inn
Alle datahemmeligheter for nybegynnere og profesjonelle
  • For en nybegynner: forskjeller mellom programvareprodukter i 1C:Enterprise-programsystemet
  • Program 1s 8.3 demoversjon. Mobilapplikasjon "UNF" NYHET
  • Sette opp 1C-administrasjon av selskapet vårt fra bunnen av
  • Warface gratis registrering
  • Registrering i spillet World Of Tanks – hva trenger du å vite?
  • Starcraft II strategi og taktikk
  • Sco formel. Statistiske parametere. Gjennomsnittlig lineært og kvadratisk avvik

    Sco formel.  Statistiske parametere.  Gjennomsnittlig lineært og kvadratisk avvik

    En omtrentlig metode for å vurdere variabiliteten til en variasjonsserie er å bestemme grensen og amplituden, men verdiene til varianten innenfor serien tas ikke i betraktning. Det viktigste generelt aksepterte målet på variabiliteten til en kvantitativ egenskap innenfor en variasjonsserie er standardavvik (σ - sigma). Jo større standardavvik, desto høyere grad av fluktuasjon av denne serien.

    Metoden for å beregne standardavviket inkluderer følgende trinn:

    1. Finn det aritmetiske gjennomsnittet (M).

    2. Bestem avvikene til individuelle alternativer fra det aritmetiske gjennomsnittet (d=V-M). I medisinsk statistikk er avvik fra gjennomsnittet betegnet som d (avvike). Summen av alle avvik er null.

    3. Kvaddra hvert avvik d 2.

    4. Multipliser kvadratene til avvikene med de tilsvarende frekvensene d 2 *p.

    5. Finn summen av produktene å(d 2 *p)

    6. Beregn standardavviket ved å bruke formelen:

    Når n er større enn 30, eller når n er mindre enn eller lik 30, hvor n er antallet av alle alternativer.

    Standardavviksverdi:

    1. Standardavviket karakteriserer spredningen av varianten i forhold til gjennomsnittsverdien (dvs. variasjonsseriens variasjon). Jo større sigma, jo høyere grad av mangfold i denne serien.

    2. Standardavviket brukes til en komparativ vurdering av graden av samsvar mellom det aritmetiske gjennomsnittet og variasjonsserien den ble beregnet for.

    Variasjoner av massefenomener følger loven om normalfordeling. Kurven som representerer denne fordelingen ser ut som en jevn klokkeformet symmetrisk kurve (gaussisk kurve). I følge sannsynlighetsteorien, i fenomener som følger loven om normalfordeling, er det et strengt matematisk forhold mellom verdiene til det aritmetiske gjennomsnittet og standardavviket. Den teoretiske fordelingen av en variant i en homogen variasjonsserie følger tre-sigma-regelen.

    Hvis i et system med rektangulære koordinater er verdiene til en kvantitativ karakteristikk (varianter) plottet på abscisseaksen, og frekvensen for forekomst av en variant i en variasjonsserie er plottet på ordinataksen, vil varianter med større og mindre verdiene er jevnt plassert på sidene av det aritmetiske gjennomsnittet.



    Det er fastslått at med en normal fordeling av egenskapen:

    68,3 % av variantverdiene er innenfor M±1s

    95,5 % av variantverdiene er innenfor M±2s

    99,7 % av variantverdiene er innenfor M±3s

    3. Standardavviket lar deg etablere normale verdier for kliniske og biologiske parametere. I medisin tas vanligvis intervallet M±1s som normalområdet for fenomenet som studeres. Avviket til den estimerte verdien fra det aritmetiske gjennomsnittet med mer enn 1s indikerer et avvik fra den studerte parameteren fra normen.

    4. I medisin brukes tre-sigma-regelen i pediatri for individuell vurdering av nivået av fysisk utvikling av barn (sigma-avviksmetoden), for utvikling av standarder for barneklær

    5. Standardavviket er nødvendig for å karakterisere graden av diversitet til karakteristikken som studeres og for å beregne feilen til det aritmetiske gjennomsnittet.

    Verdien av standardavviket brukes vanligvis til å sammenligne variabiliteten til serier av samme type. Hvis to serier med forskjellige egenskaper sammenlignes (høyde og vekt, gjennomsnittlig varighet av sykehusbehandling og sykehusdødelighet osv.), så er en direkte sammenligning av sigma-størrelser umulig , fordi standardavvik er en navngitt verdi uttrykt i absolutte tall. I disse tilfellene, bruk variasjonskoeffisient (Cv), som er en relativ verdi: prosentforholdet mellom standardavviket og det aritmetiske gjennomsnittet.

    Variasjonskoeffisienten beregnes ved hjelp av formelen:

    Jo høyere variasjonskoeffisient , jo større er variasjonen til denne serien. Det antas at en variasjonskoeffisient på mer enn 30% indikerer den kvalitative heterogeniteten til befolkningen.

    Ved statistisk testing av hypoteser, ved måling av en lineær sammenheng mellom tilfeldige variabler.

    Standardavvik:

    Standardavvik(estimat av standardavviket til den tilfeldige variabelen Gulv, veggene rundt oss og taket, x i forhold til dens matematiske forventning basert på et objektivt estimat av variansen):

    hvor er spredningen; - Gulvet, veggene rundt oss og taket, Jeg elementet i utvalget; - prøvestørrelse; - aritmetisk gjennomsnitt av prøven:

    Det skal bemerkes at begge estimatene er partiske. I det generelle tilfellet er det umulig å konstruere et objektivt estimat. Imidlertid er estimatet basert på det objektive variansestimatet konsistent.

    Tre sigma regel

    Tre sigma regel() - nesten alle verdier av en normalfordelt tilfeldig variabel ligger i intervallet. Mer strengt – med ikke mindre enn 99,7 % konfidens, ligger verdien av en normalfordelt tilfeldig variabel i det angitte intervallet (forutsatt at verdien er sann og ikke oppnådd som et resultat av prøvebehandling).

    Hvis den sanne verdien er ukjent, bør vi ikke bruke, men gulvet, veggene rundt oss og taket, s. Dermed blir regelen om tre sigma forvandlet til regelen om tre etasjer, vegger rundt oss og taket, s .

    Tolkning av standardavviksverdien

    En stor verdi av standardavviket viser en stor spredning av verdier i det presenterte settet med gjennomsnittsverdien til settet; En liten verdi viser følgelig at verdiene i settet er gruppert rundt den midterste verdien.

    For eksempel har vi tre tallsett: (0, 0, 14, 14), (0, 6, 8, 14) og (6, 6, 8, 8). Alle tre settene har middelverdier lik 7, og standardavvik, henholdsvis 7, 5 og 1. Det siste settet har et lite standardavvik, siden verdiene i settet er gruppert rundt middelverdien; det første settet har den største standardavviksverdien - verdiene innenfor settet avviker sterkt fra gjennomsnittsverdien.

    I en generell forstand kan standardavvik betraktes som et mål på usikkerhet. For eksempel, i fysikk, brukes standardavvik for å bestemme feilen til en serie påfølgende målinger av en viss mengde. Denne verdien er svært viktig for å bestemme plausibiliteten til fenomenet som studeres sammenlignet med verdien forutsagt av teorien: hvis gjennomsnittsverdien av målingene avviker sterkt fra verdiene forutsagt av teorien (stort standardavvik), Deretter bør de oppnådde verdiene eller metoden for å oppnå dem kontrolleres på nytt.

    Praktisk bruk

    I praksis lar standardavvik deg bestemme hvor mye verdiene i et sett kan avvike fra gjennomsnittsverdien.

    Klima

    Anta at det er to byer med samme gjennomsnittlige maksimale døgntemperatur, men den ene ligger ved kysten og den andre er i innlandet. Det er kjent at byer som ligger ved kysten har mange forskjellige maksimale dagtemperaturer som er lavere enn byer som ligger i innlandet. Derfor vil standardavviket for de maksimale døgntemperaturene for en kystby være mindre enn for den andre byen, til tross for at gjennomsnittsverdien på denne verdien er den samme, noe som i praksis betyr at sannsynligheten for at den maksimale lufttemperaturen på en gitt dag i året vil være høyere forskjellig fra gjennomsnittsverdien, høyere for en by som ligger i innlandet.

    Sport

    La oss anta at det er flere fotballag som er rangert på et sett med parametere, for eksempel antall mål scoret og sluppet inn, scoringssjanser osv. Det er mest sannsynlig at det beste laget i denne gruppen vil ha bedre verdier på flere parametere. Jo mindre teamets standardavvik for hver av de presenterte parameterne, jo mer forutsigbart er teamets resultat; slike team er balansert. På den annen side er et lag med stort standardavvik vanskelig å forutsi resultatet, noe som igjen forklares med en ubalanse, for eksempel et sterkt forsvar men et svakt angrep.

    Bruk av standardavviket til lagparametere gjør det mulig, i en eller annen grad, å forutsi resultatet av en kamp mellom to lag, vurdere styrker og svakheter til lagene, og derfor de valgte kampmetodene.

    Teknisk analyse

    se også

    Litteratur

    * Borovikov, V. STATISTIKK. Kunsten å analysere data på en datamaskin: For fagfolk / V. Borovikov. - St. Petersburg. : Peter, 2003. - 688 s. - ISBN 5-272-00078-1.

    Spredning er det aritmetiske gjennomsnittet av kvadrerte avvik for hver attributtverdi fra det totale gjennomsnittet. Avhengig av kildedataene kan variansen være uvektet (enkel) eller vektet.

    Variansen beregnes ved å bruke følgende formler:

    · for ugrupperte data

    · for grupperte data

    Fremgangsmåten for å beregne den vektede variansen:

    1. Bestem det aritmetiske vektede gjennomsnittet

    2. Variantens avvik fra gjennomsnittet bestemmes

    3. kvadrat avviket for hvert alternativ fra gjennomsnittet

    4. multipliser kvadratene av avvik med vekter (frekvenser)

    5. oppsummere de resulterende produktene

    6. den resulterende mengden deles på summen av skalaene

    Formelen for å bestemme varians kan konverteres til følgende formel:

    Enkel

    Prosedyren for å beregne varians er enkel:

    1. Bestem det aritmetiske gjennomsnittet

    2. kvadrat det aritmetiske gjennomsnittet

    3. kvadrat hvert alternativ i raden

    4. finn summen av kvadrater alternativet

    5. dividere summen av kvadrater med antallet deres, dvs. bestem gjennomsnittskvadratet

    6. bestem differansen mellom middelkvadrat for karakteristikken og kvadratet av gjennomsnittet

    Formelen for å bestemme den vektede variansen kan også konverteres til følgende formel:

    de. spredningen er lik forskjellen mellom gjennomsnittet av kvadrerte verdier av attributtet og kvadratet av det aritmetiske gjennomsnittet. Når du bruker den transformerte formelen, elimineres tilleggsprosedyren for å beregne avvik for individuelle verdier av en karakteristikk fra x, og feilen i beregningen knyttet til avrunding av avvik elimineres

    Dispersjon har en rekke egenskaper, hvorav noen gjør det lettere å beregne:

    1) variansen til en konstant verdi er null;

    2) hvis alle varianter av attributtverdier reduseres med samme tall, vil ikke variansen reduseres;

    3) hvis alle varianter av attributtverdier reduseres med samme antall ganger (fold), så vil variansen reduseres med en faktor

    Standardavvik- representerer kvadratroten av variansen:

    · for ugrupperte data:

    · for variantserien:

    Variasjonsområdet, lineært gjennomsnitt og standardavvik er navngitte mengder. De har samme måleenheter som de individuelle karakteristiske verdiene.

    Varians og standardavvik er de mest brukte målene for variasjon. Dette forklares med det faktum at de er inkludert i de fleste teoremer av sannsynlighetsteori, som fungerer som grunnlaget for matematisk statistikk. I tillegg kan variansen dekomponeres i dens komponentelementer, slik at man kan evaluere påvirkningen av ulike faktorer som bestemmer variasjonen til en egenskap.

    Beregningen av variasjonsindikatorer for banker gruppert etter resultatmargin er vist i tabellen.

    Fortjenestebeløp, millioner rubler. Antall banker beregnede indikatorer
    3,7 - 4,6 (-) 4,15 8,30 -1,935 3,870 7,489
    4,6 - 5,5 5,05 20,20 - 1,035 4,140 4,285
    5,5 - 6,4 5,95 35,70 - 0,135 0,810 0,109
    6,4 - 7,3 6,85 34,25 +0,765 3,825 2,926
    7,3 - 8,2 7,75 23,25 +1,665 4,995 8,317
    Total: 121,70 17,640 23,126

    Gjennomsnittlig lineært og standardavvik viser hvor mye verdien av en egenskap varierer i gjennomsnitt mellom enheter og populasjonen som studeres. Så i dette tilfellet er den gjennomsnittlige svingningen i overskuddet: i henhold til gjennomsnittlig lineært avvik, 0,882 millioner rubler; med standardavvik - 1,075 millioner rubler. Standardavviket er alltid større enn det gjennomsnittlige lineære avviket. Hvis fordelingen av karakteristikken er nær normalen, er det en sammenheng mellom S og d: S=1,25d, eller d=0,8S. Standardavviket viser hvordan hoveddelen av befolkningsenhetene er lokalisert i forhold til det aritmetiske gjennomsnittet. Uavhengig av formen på fordelingen faller 75 verdier av attributtet inn i intervallet x 2S, og minst 89 av alle verdier faller inn i intervallet x 3S (P.L. Chebyshevs teorem).

    gjennomsnittlig verdi- Dette er en generell indikator på en statistisk populasjon som eliminerer individuelle forskjeller i verdiene til statistiske mengder, slik at du kan sammenligne forskjellige populasjoner med hverandre.

    Finnes 2 klasser gjennomsnittsverdier: og .

    Strukturelle gjennomsnitt inkluderer mote Og median, men oftest brukt kraftgjennomsnitt forskjellige typer.

    Effektgjennomsnitt

    Effektgjennomsnitt kan være enkel Og vektet.

    Enkelt gjennomsnitt beregnes hvis det er to eller flere ugruppert statistiske mengder ordnet i tilfeldig rekkefølge i henhold til følgende generelle formel:

    Vektlagt gjennomsnitt beregnet av gruppert statistiske verdier ved å bruke følgende generelle formel:

    Hvor X er verdiene til individuelle statistiske verdier eller midten av grupperingsintervaller;
    m er en eksponent, hvis verdi bestemmer følgende typer effektgjennomsnitt:
    ved m = -1;
    ved m = 0;
    når m = 1;
    ved m = 2;
    ved m = 3.

    Ved å bruke generelle formler for enkle og vektede gjennomsnitt for forskjellige eksponenter m, får vi spesielle formler av hver type, som vil bli diskutert i detalj nedenfor.

    Aritmetisk gjennomsnitt

    Aritmetisk gjennomsnitt- dette er den mest brukte gjennomsnittsverdien, som oppnås ved å erstatte m=1 i den generelle formelen. Aritmetisk gjennomsnitt enkel har følgende form:

    Hvor X er verdiene for mengdene som gjennomsnittsverdien må beregnes for; N er det totale antallet X-verdier (antall enheter i populasjonen som studeres).

    For eksempel besto en student 4 eksamener og fikk følgende karakterer: 3, 4, 4 og 5. La oss regne ut den gjennomsnittlige poengsummen ved å bruke den enkle aritmetiske gjennomsnittsformelen: (3+4+4+5)/4 = 16/4 = 4.

    Aritmetisk gjennomsnitt vektet har følgende form:

    Hvor f er antall størrelser med samme verdi X (frekvens).

    For eksempel besto en student 4 eksamener og fikk følgende karakterer: 3, 4, 4 og 5. La oss beregne gjennomsnittsskåren ved å bruke den vektede aritmetiske gjennomsnittsformelen: (3*1 + 4*2 + 5*1)/4 = 16/4 = 4.

    Hvis X-verdiene er spesifisert som intervaller, brukes midtpunktene til X-intervallene for beregninger, som er definert som halvsummen av øvre og nedre grenser for intervallet. Og hvis intervallet X ikke har en nedre eller øvre grense (åpent intervall), så bruk området (forskjellen mellom øvre og nedre grense) for det tilstøtende intervallet X for å finne det.

    For eksempel har en bedrift 10 ansatte med opptil 3 års erfaring, 20 med 3 til 5 års erfaring, 5 ansatte med mer enn 5 års erfaring. Deretter beregner vi gjennomsnittlig tjenestetid for ansatte ved å bruke den vektede aritmetiske gjennomsnittsformelen, og tar som X midtpunktet av lengden på tjenesteintervallene (2, 4 og 6 år):
    (2*10+4*20+6*5)/(10+20+5) = 3,71 år.

    Det aritmetiske gjennomsnittet brukes oftest, men det er tider når det er nødvendig å bruke andre typer gjennomsnitt. La oss vurdere slike tilfeller videre.

    Harmonisk middel

    Harmonisk middel brukes når kildedataene ikke inneholder frekvenser f for individuelle X-verdier, men presenteres som deres produkt Xf. Etter å ha utpekt Xf=w, uttrykker vi f=w/X, og ved å erstatte disse notasjonene i formelen for det aritmetiske vektede gjennomsnittet, får vi formelen for det harmoniske vektede gjennomsnittet:

    Dermed brukes det vektede harmoniske gjennomsnittet når frekvensene f er ukjente og w=Xf er kjent. I tilfeller der alle w = 1, det vil si individuelle verdier av X forekommer én gang, brukes den gjennomsnittlige harmoniske primformelen:

    For eksempel kjørte en bil fra punkt A til punkt B med en hastighet på 90 km/t, og tilbake med en hastighet på 110 km/t. For å bestemme gjennomsnittshastigheten bruker vi formelen for den gjennomsnittlige harmoniske enkle, siden i eksemplet er avstanden w 1 =w 2 gitt (avstanden fra punkt A til punkt B er den samme som fra B til A), som er lik produktet av hastighet (X) og tid (f). Gjennomsnittlig hastighet = (1+1)/(1/90+1/110) = 99 km/t.

    Geometrisk gjennomsnitt

    Geometrisk gjennomsnitt brukes til å bestemme gjennomsnittlige relative endringer, som diskutert i emnet Dynamiske serier. Det geometriske gjennomsnittet gir det mest nøyaktige gjennomsnittsresultatet hvis oppgaven er å finne en verdi av X som vil være like langt fra både maksimums- og minimumsverdiene til X.

    For eksempel mellom 2005 og 2008 inflasjonsindeksen i Russland var: i 2005 - 1.109; i 2006 - 1 090; i 2007 - 1 119; i 2008 - 1.133. Siden inflasjonsindeksen er en relativ endring (dynamisk indeks), må gjennomsnittsverdien beregnes ved å bruke det geometriske gjennomsnittet: (1,109*1,090*1,119*1,133)^(1/4) = 1,1126, det vil si for perioden fra 2005 til 2008 årlig vokste prisene med et gjennomsnitt på 11,26%. En feilberegning med det aritmetiske gjennomsnittet vil gi et feil resultat på 11,28 %.

    Gjennomsnittlig firkant

    Gjennomsnittlig firkant brukes i tilfeller der startverdiene til X kan være både positive og negative, for eksempel ved beregning av gjennomsnittlige avvik.

    Hovedanvendelsen av det kvadratiske gjennomsnittet er å måle variasjonen av X-verdier, som vil bli diskutert.

    Gjennomsnittlig kubikk

    Gjennomsnittlig kubikk brukes ekstremt sjelden, for eksempel ved beregning av fattigdomsindekser for utviklingsland (TIN-1) og for utviklede (TIN-2), foreslått og beregnet av FN.

    Strukturelle gjennomsnitt

    Til de mest brukte strukturelt gjennomsnitt inkludere og .

    Statistisk modus

    Statistisk modus er den hyppigst gjentatte verdien av X i en statistisk populasjon.

    Hvis X er gitt diskret, så bestemmes modusen uten beregning som verdien av funksjonen med høyest frekvens. I en statistisk populasjon er det 2 eller flere moduser, da vurderes det bimodal(hvis det er to moduser) eller multimodal(hvis det er mer enn to moduser), og dette indikerer heterogeniteten til befolkningen.

    For eksempel sysselsetter selskapet 16 personer: 4 av dem har 1 års erfaring, 3 personer har 2 års erfaring, 5 har 3 års erfaring, og 4 personer har 4 års erfaring. Dermed modal erfaring Mo = 3 år, siden frekvensen av denne verdien er maksimal (f = 5).

    Hvis X er gitt med like intervaller, da defineres det modale intervallet først som intervallet med høyest frekvens f. Innenfor dette intervallet blir den betingede verdien av modusen funnet ved å bruke formelen:

    Hvor Mo er mote;
    X NMo – nedre grense for det modale intervallet;
    h Mo er rekkevidden til det modale intervallet (forskjellen mellom øvre og nedre grenser);
    f Mo – frekvensen til det modale intervallet;
    f Mo-1 – frekvensen til intervallet før det modale;
    f Mo+1 – frekvensen til intervallet etter det modale.

    For eksempel har en bedrift 10 ansatte med opptil 3 års erfaring, 20 med 3 til 5 års erfaring, 5 ansatte med mer enn 5 års erfaring. La oss beregne den modale arbeidserfaringen i det modale intervallet fra 3 til 5 år: Mo = 3 + 2*(20-10)/(2*20-10-5) = 3,8 (år).

    Hvis området av intervaller h er forskjellig, er det i stedet for frekvenser f nødvendig å bruke intervalltettheter, beregnet ved å dele frekvensene f med området til intervallet h.

    Statistisk median

    Statistisk median– dette er verdien av mengden X, som deler en statistisk populasjon ordnet i stigende eller synkende rekkefølge i 2 like deler. Som et resultat har den ene halvparten en verdi større enn medianen, og den andre halvparten har en verdi mindre enn medianen.

    Hvis X er gitt diskret, for å bestemme medianen, er alle verdier nummerert fra 0 til N i stigende rekkefølge, da vil medianen for et partall N ligge i midten mellom X med tallene 0,5N og (0,5N+1), og for et oddetall N vil den tilsvare verdien av X med tallet 0,5(N+1) .

    For eksempel er det data om alderen til deltidsstudenter i en gruppe på 10 personer - X: 18, 19, 19, 20, 21, 23, 23, 25, 28, 30 år. Disse dataene er allerede sortert i stigende rekkefølge, og tallet deres N=10 er partall, så medianen vil være mellom X med tallene 0,5*10=5 og (0,5*10+1)=6, som tilsvarer verdiene X 5 = 21 og X 6 = 23, så medianen: Me = (21+23)/2 = 22 (år).

    Hvis X er gitt i skjemaet like intervaller, deretter bestemmes først medianintervallet (intervallet der den ene halvdelen av frekvensene f slutter og den andre halvdelen begynner), der den betingede verdien av medianen er funnet ved å bruke formelen:

    Der Me er medianen;
    X НМе – nedre grense for medianintervallet;
    h Ме – området til medianintervallet (forskjellen mellom øvre og nedre grenser);
    f Ме – frekvensen av medianintervallet;
    f Ме-1 – summen av frekvenser av intervaller foran medianen.

    I det tidligere omtalte eksemplet, når vi beregner modal tjenestetid (bedriften har 10 ansatte med opptil 3 års erfaring, 20 med 3 til 5 års erfaring, 5 ansatte med mer enn 5 års erfaring), beregner vi medianen tjenestetid. Halvparten av det totale antallet arbeidere er (10+20+5)/2 = 17,5 og ligger i intervallet fra 3 til 5 år, og i det første intervallet opp til 3 år er det bare 10 arbeidere, og i de to første - (10+20) =30, som er mer enn 17,5, betyr at intervallet fra 3 til 5 år er medianen. Inne i den bestemmer vi den betingede verdien av medianen: Me = 3+2*(0,5*30-10)/20 = 3,5 (år).

    Akkurat som i tilfelle av modus, når du bestemmer medianen, hvis området av intervaller h er forskjellig, er det i stedet for frekvenser f nødvendig å bruke intervalltettheter, beregnet ved å dele frekvensene f med området til intervallet h.

    Variasjonsindikatorer

    Variasjon er forskjellen i verdiene til X-verdier for individuelle enheter i den statistiske populasjonen. For å studere variasjonsstyrken beregnes følgende indikatorer på variasjon: , , , , .

    Variasjonsområde

    Variasjonsområde er forskjellen mellom maksimums- og minimumsverdiene av X tilgjengelig i den statistiske populasjonen som studeres:

    Ulempen med H er at den kun viser maksimal forskjell i X-verdier og ikke kan måle variasjonsstyrken i hele populasjonen.

    Gjennomsnittlig lineært avvik

    Gjennomsnittlig lineært avvik er gjennomsnittsmodulen for avvik av X-verdier fra det aritmetiske gjennomsnittet. Det kan beregnes ved å bruke den aritmetiske gjennomsnittsformelen enkel- vi får :

    For eksempel besto en student 4 eksamener og fikk følgende karakterer: 3, 4, 4 og 5. = 4. La oss beregne det enkle gjennomsnittlige lineære avviket: L = (|3-4|+|4-4|+|4 -4|+| 5-4|)/4 = 0,5.

    Hvis kildedataene X er gruppert (det er frekvenser f), beregnes det gjennomsnittlige lineære avviket ved å bruke den aritmetiske gjennomsnittsformelen vektet- vi får :

    La oss gå tilbake til eksemplet med en student som besto 4 eksamener og fikk følgende karakterer: 3, 4, 4 og 5. = 4 og = 0,5. La oss beregne det vektede gjennomsnittlige lineære avviket: L = (|3-4|*1+|4-4|*2+|5-4|*1)/4 = 0,5.

    Lineær variasjonskoeffisient

    Lineær variasjonskoeffisient er forholdet mellom det gjennomsnittlige lineære avviket og det aritmetiske gjennomsnittet:

    Ved å bruke den lineære variasjonskoeffisienten kan du sammenligne variasjonen til forskjellige populasjoner fordi, i motsetning til det gjennomsnittlige lineære avviket, er verdien ikke avhengig av måleenhetene X.

    I eksemplet under vurdering om en student som besto 4 eksamener og fikk følgende karakterer: 3, 4, 4 og 5, vil den lineære variasjonskoeffisienten være 0,5/4 = 0,125 eller 12,5 %.

    Spredning

    Spredning er det gjennomsnittlige kvadratet av avvikene til X-verdiene fra det aritmetiske gjennomsnittet. Spredning kan beregnes ved å bruke den aritmetiske gjennomsnittsformelen enkel- vi får enkel varians:

    I eksemplet som allerede er kjent for oss om en student som besto 4 eksamener og fikk karakterer: 3, 4, 4 og 5, = 4. Da er variansen enkel D = ((3-4) 2 +(4-4) 2 +(4- 4) 2 +(5-4) 2)/4 = 0,5.

    Hvis de opprinnelige dataene X er gruppert (det er frekvenser f), beregnes variansen ved å bruke den aritmetiske gjennomsnittsformelen vektet- vi får variansvektet:

    I eksemplet under vurdering om en student som besto 4 eksamener og fikk følgende karakterer: 3, 4, 4 og 5, beregner vi den vektede variansen: D = ((3-4) 2 *1+(4-4) 2 *2+(5 -4) 2 *1)/4 = 0,5.

    Hvis du transformerer variansformelen (åpne parentesene i telleren, del ledd på ledd med nevneren og gir lignende), så kan du få en annen formel for å beregne den som forskjellen mellom gjennomsnittskvadrater og kvadratmiddelverdi:

    Det er enda lettere å finne standardavvik, hvis variansen er forhåndsberegnet som kvadratroten av den:

    I eksemplet om studenten, der ovenfor, finner vi standardavviket som kvadratroten av det: .

    Kvadratisk variasjonskoeffisient

    Kvadratisk variasjonskoeffisient er det mest populære relative målet for variasjon:

    Kriterieverdi Den kvadratiske koeffisienten for variasjon V er 0,333 eller 33,3 %, det vil si at hvis V er mindre enn eller lik 0,333, anses variasjonen som svak, og hvis den er større enn 0,333, anses den som sterk. Ved sterk variasjon vurderes den studerte statistiske populasjonen heterogen, og gjennomsnittsverdien er atypisk og den kan ikke brukes som en generell indikator på denne populasjonen.

    I eksempelet om en elev, hvor ovenfor finner vi den kvadratiske variasjonskoeffisienten V = 0,707/4 = 0,177, som er mindre enn kriterieverdien på 0,333, som betyr at variasjonen er svak og lik 17,7 %.

    Kvadratroten av variansen kalles standardavviket fra gjennomsnittet, som beregnes som følger:

    En elementær algebraisk transformasjon av standardavviksformelen fører den til følgende form:

    Denne formelen viser seg ofte å være mer praktisk i beregningspraksis.

    Standardavviket, akkurat som det gjennomsnittlige lineære avviket, viser hvor mye i gjennomsnitt spesifikke verdier av en karakteristikk avviker fra gjennomsnittsverdien. Standardavviket er alltid større enn det gjennomsnittlige lineære avviket. Det er følgende forhold mellom dem:

    Når du kjenner dette forholdet, kan du bruke de kjente indikatorene for å bestemme det ukjente, for eksempel, men (JEG beregne a og omvendt. Standardavviket måler den absolutte størrelsen på variabiliteten til en karakteristikk og uttrykkes i samme måleenheter som verdiene til karakteristikken (rubler, tonn, år, etc.). Det er et absolutt mål på variasjon.

    Til alternative tegn, for eksempel tilstedeværelse eller fravær av høyere utdanning, forsikring, formlene for spredning og standardavvik er som følger:

    La oss vise beregningen av standardavviket i henhold til dataene i en diskret serie som karakteriserer fordelingen av studenter på et av universitetsfakultetene etter alder (tabell 6.2).

    Tabell 6.2.

    Resultatene av hjelpeberegninger er gitt i kolonne 2-5 i tabellen. 6.2.

    Gjennomsnittsalderen til en student, år, bestemmes av den vektede aritmetiske gjennomsnittsformelen (kolonne 2):

    Kvadratavvikene til elevens individuelle alder fra gjennomsnittet finnes i kolonne 3-4, og produktene av kvadrerte avvik og tilsvarende frekvenser finnes i kolonne 5.

    Vi finner variansen til elevenes alder, år, ved hjelp av formel (6.2):

    Da er o = l/3,43 1,85 *oda, dvs. Hver spesifikk verdi av en elevs alder avviker fra gjennomsnittet med 1,85 år.

    Variasjonskoeffisienten

    I sin absolutte verdi avhenger standardavviket ikke bare av graden av variasjon av karakteristikken, men også av de absolutte nivåene av opsjoner og gjennomsnittet. Derfor er det umulig å direkte sammenligne standardavvikene til variasjonsserier med ulike gjennomsnittsnivåer. For å kunne gjøre en slik sammenligning må du finne andelen av gjennomsnittsavviket (lineært eller kvadratisk) i det aritmetiske gjennomsnittet, uttrykt i prosent, dvs. regne ut relative mål på variasjon.

    Lineær variasjonskoeffisient beregnet med formelen

    Variasjonskoeffisienten bestemt av følgende formel:

    I variasjonskoeffisienter elimineres ikke bare uforlignbarheten knyttet til ulike måleenheter av karakteristikken som studeres, men også uforlignbarheten som oppstår på grunn av forskjeller i verdien av aritmetiske middelverdier. I tillegg karakteriserer variasjonsindikatorene homogeniteten i befolkningen. Populasjonen anses som homogen dersom variasjonskoeffisienten ikke overstiger 33 %.

    I følge tabellen. 6.2 og beregningsresultatene oppnådd ovenfor, bestemmer vi variasjonskoeffisienten, %, i henhold til formel (6.3):

    Hvis variasjonskoeffisienten overstiger 33 %, indikerer dette heterogeniteten til befolkningen som studeres. Verdien oppnådd i vårt tilfelle indikerer at populasjonen av elever etter alder er homogen i sammensetning. En viktig funksjon ved å generalisere variasjonsindikatorer er således å vurdere påliteligheten til gjennomsnitt. Jo mindre c1, a2 og V, jo mer homogent det resulterende settet av fenomener og jo mer pålitelig er det resulterende gjennomsnittet. I henhold til "tre sigma-regelen" som vurderes av matematisk statistikk, i normalfordelte eller nærliggende serier, forekommer avvik fra det aritmetiske gjennomsnittet som ikke overstiger ±3. i 997 tilfeller av 1000. X og du kan få en generell innledende idé om variantserien. Hvis for eksempel gjennomsnittslønnen til en ansatt i et selskap er 25 000 rubler, og a er lik 100 rubler, kan vi med en sannsynlighet nær sikkerhet si at lønnen til selskapets ansatte svinger innenfor området (25 000 ± ± 3 x 100) dvs. fra 24 700 til 25 300 rubler.