Analiza de regresie EXEMPLU

Scopuri și obiective ale analizei de regresie

Principala Analiza de regresie obiectiv este de a defini o formă analitică de comunicare în care schimbarea caracteristicii eficientă datorită influenței uneia sau mai multor variabile ale factorului și o multitudine de alți factori afectează de asemenea atribut scorul este luat ca constantă și valorile medii.






Sarcini Analiza de regresie.
a) Stabilirea forme de dependență. Natura și forma relației dintre fenomenele distinge o liniară pozitivă și neliniare, și liniară negativă și regresie neliniară.
b) Determinarea unei funcții de regresie sub forma unor ecuații matematice ale unui anumit tip și pentru a stabili influența variabilelor explicative asupra variabilei dependente.
c) Măsurarea valorilor necunoscute ale variabilei dependente. Folosind o funcție de regresie poate reproduce valori ale variabilei dependente în intervalul de valori de variabile explicative (ex. E. rezolva problema de interpolare) sau estimată în timpul procesului este un interval predeterminat (t. E. Extrapolarea rezolva problema). Rezultatul este o valoare estimată a variabilei dependente.

regresie Steam - ecuația relației dintre două variabile y și x. În cazul în care y - variabila dependentă (scor simptom); x - o, variabilă explicativă independentă (trăsătură-factor).

Se face deosebirea între regresie liniare și neliniare.
Regresia liniară: y = a + bx + ε
regresie nelineară împărțită în două clase: regresie, neliniare în ceea ce privește incluse în analiza variabilelor explicative, dar liniare în parametrii estimați și regresia, neliniar în parametrii estimați.
Regresia, neliniare în variabilele explicative:
  • polinoame de grade diferite
  • hiperbolă echilateral.
Regresia, neliniară în parametrii estimați:
  • o putere
  • exponențială
  • exponențială
Construcția ecuației de regresie reduce la estimarea parametrilor săi. Pentru estimarea parametrilor de regresie, parametrii liniari utilizând metoda celor mai mici pătrate (OLS). OLS permite obținerea unor astfel de parametri de evaluare, pentru care suma abaterilor pătratele valorilor reale ale caracteristicii efective la minimul teoretic, adică
.
Pentru ecuații neliniare reductibile la liniare și neliniare, următorul sistem este rezolvată în ceea ce privește a și b:

Puteți folosi formule gata făcute, care sunt derivate din acest sistem:

Fenomene de comunicare Etanseitatea în studiu evaluează coeficientul de corelație liniară pentru perechea de regresie liniară:

și indicele de corelare - pentru regresie neliniară:

Evaluarea calității modelului construit va lua în calcul (indicele) de determinare, precum și eroarea medie de aproximare.
Eroarea medie aproximare - abaterea medie a valorilor calculate din real:
.
Valoarea limită admisibilă - nu mai mult de 8-10%.






Coeficientul mediu de elasticitate indică procentul mediu variația agregată în rezultatul valoarea medie a acestora în timpul schimbării factorului x la 1% din valoarea sa medie:
.

ANOVA sarcină analiză este dispersia variabilă dependentă:
,
unde - suma totală a pătratelor abaterilor;
- suma pătratului abaterilor datorate de regresie ( „explicație“ sau „factor“);
- suma reziduală a pătratelor abaterilor.
Fracțiunea dispersiei, regresia a explicat, o dispersie totală rezultantă y variabilă caracterizează determinarea raportul (indice) al R2.

Coeficientul de determinare - pătratul coeficientului de corelație sau index.

F-test - evaluarea calității ecuației de regresie - este de a testa ipoteza, dar o ecuație de regresie semnificativă statistic și indicele de apropiere a conexiunii. Pentru aceasta compară Ffakt reală și critică (tablespace) Ftabl valorile Fischer F-test. Ffakt determinat din raportul valorilor factorilor și varianțele reziduale calculate pentru un grad de libertate:
,
unde n - numărul de unități împreună; m - numărul de parametri la variabila x.
Ftabl - este valoarea maximă posibilă a criteriului sub influența factorilor accidentali în aceste grade de libertate și nivelul de semnificație a. Nivelul de semnificație a - probabilitatea de respingere a unei ipoteze corecte, cu condiția ca este adevărat. De obicei, o este luată egală cu 0,05 sau 0,01.
Dacă Ftabl Ffakt. Dar ipoteza nu este respinsă și recunoscută insignifianța statistică, lipsa de fiabilitate a ecuației de regresie.
Pentru a evalua semnificația statistică a coeficienților de regresie și t-criteriu de corelație calculat Student și intervalele de încredere pentru fiecare dintre indicatorii. Dar o ipoteză despre natura aleatorie a indicatorilor, și anume o diferență nesemnificativă de zero. Evaluarea semnificației coeficienților de regresie și corelare folosind testul t Student se realizează prin compararea valorilor lor cu valoarea erorii aleatoare:
; ; .
erori aleatorii Parametrii de regresie liniară și coeficientul de corelare sunt determinate de formulele:



Prin compararea (tabel) valorile reale și critice ale t-statistici - ttabl si tfakt - vom accepta sau respinge ipoteza Ho.
Comunicarea între criteriul F-Fisher și t-Student statistica este exprimată prin ecuația

Dacă ttabl Dar tfakt ipoteza nu este respinsă și a recunoscut natura aleatorie a formării a, b, sau.
Pentru calcularea intervalelor de încredere a determina limita de eroare pentru D fiecărui indice:
, .
Formula pentru calcularea intervalelor de încredere sunt după cum urmează:
; ;
; ;
În cazul în care limitele intervalului de încredere este semnalizat de zero, adică limita inferioară este negativ, iar partea de sus este pozitiv, parametrul estimat este zero, deoarece acesta nu poate primi simultan valori atât pozitive, cât și negative.
Valoarea predictivă este determinată prin substituirea în ecuația de regresie corespunzătoare valorilor (așteptate). Se calculează eroarea medie standard de predicție:
,
unde
și construiește interval de încredere de prognoza:
; ;
în cazul în care.

exemple de soluții

Sarcina №1. Șapte teritorii din districtul Ural pentru 199H valorilor celor două semne.
Tabelul 1.

Cheltuielile pentru achiziționarea de produse alimentare în totalul cheltuielilor,%, la

salariul mediu zilnic al unui angajat, RUR. x

Valorile parametrilor de regresie a și b sunt după cum urmează:

O ecuație:
indicele de corelație.

Conform ecuației echilateral hiperbolă cel mai mare scor îngustime obținut de comunicare (în comparație cu o liniară, exponențială și regresii exponențială). rămâne la un nivel acceptabil: 8,1%


unde F = Tabelul 6.6> F fapt, atunci când a = 0,05.
Prin urmare, ipoteza, dar parametrii statistic non-semnificative ale ecuației. Acest rezultat poate fi explicat prin dependențele etanșeității relativ scăzute identificate și un număr mic de observații.