analiza de regresie

De învățare automată.

analiza de regresie # 151; Metoda de măsurare de modelare a datelor și de a studia proprietățile lor. Datele constau din perechi de valori ale variabilei dependente (RTT variabilă) și variabila independentă (variabilă explicativă). Modelul de regresie este o funcție a variabilei independente și parametrii cu variabila aleatoare adăugată. Parametrii modelului sunt ajustate astfel încât modelul aproximează cel mai bine datele. Criteriul de abordare a calității (funcția obiectiv) este, de obicei eroarea medie pătrată. suma pătratelor modelului diferenței și variabila dependentă pentru toate valorile variabilei independente ca argument. analiza de regresie # 151; ramură a statisticii matematice și de învățare mașină. Se presupune că variabila dependentă este suma valorilor unui model și o variabilă aleatoare. În ceea ce privește această natură a distribuției se fac ipoteze, numite date de generare ipoteze. Pentru a confirma sau infirma această ipoteză, efectuat teste statistice. numita analiză a reziduurilor. Aceasta presupune că variabila independentă nu conține erori. Analiza de regresie este utilizată pentru a prognoza. analiza seriilor de timp. testarea ipotezelor și să identifice relații ascunse în date.







Analiza regresiei Determinarea

Proba poate fi o funcție, și de atitudine. De exemplu, datele pentru a construi o regresie poate fi :. „/> În această probă corespunde unei valori a unui număr variabil de valori variabile.

regresiune # 151; dependența așteptarea (de exemplu, media) a unei variabile aleatoare de la una sau mai multe alte variabile aleatoare (variabile libere), adică) = f (\ mathbf) „/>. Analiza regresiei se numește o căutare a unei astfel de funcții care descrie această relație. Regresia poate Acesta este reprezentat ca o sumă a componentelor aleatorii și non-aleatoare.

unde # 151; Funcția de dependență regresiv, și # 151; variabilă aleatoare aditiv cu speranța matematică zero. Presupunerea despre distribuirea acestei cantități se numește ipoteza de generare de date. Se presupune că, de obicei, valoarea are o distribuție gaussiană cu media zero și varianța.

Problema de a găsi un model de regresie a mai multor variabile disponibile formulate după cum urmează. set de eșantionare # 151; multe _1. \ Mathbf_N | \ mathbf \ în \ mathbb ^ M \> /> "/> Valorile variabilelor libere și multe din valorile variabilei dependente corespunzătoare Aceste seturi sunt denumite, o mulțime de date brute, y) _I \>.". Având în vedere modelul de regresie # 151; Familia parametru de funcții, \ mathbf) „/> în funcție de parametrii \ în \ mathbb“ /> și variabilele libere „/> este de a găsi cele mai probabile opțiuni>“ />.:

Funcția de probabilitate depinde de ipotezele de date și generarea date metoda de inferență Bayesiana sau probabilitatea maximă.

regresie liniară

regresie liniară presupune că funcția depinde de parametrii „/> liniar. Dependența liniară a variabilei libere“ /> nu este necesar,

În cazul în care funcția „/> regresie liniară este de forma

aici # 151; componente ale „/>.

Valorile parametrilor în cazul regresiei liniare se măsoară prin metoda celor mai mici pătrate. Folosind această metodă este justificată de ipoteza unei distribuții Gauss a variabilei aleatoare.

Diferența _I) „/> între valorile reale ale variabilei dependente și resturile recuperate sunt numite regresie (reziduuri) în literatura de specialitate ca sinonime: .. și eroarea reziduală Unul dintre important criteriu de evaluare a calității dependenței obținută este suma reziduurilor pătratelor:







aici # 151; Suma Erori Squared.

Reziduuri de dispersie se calculează cu formula:

aici # 151; Eroarea medie Square, eroarea medie pătrată.

În graficele eșantion prezentate marcate puncte albastre și funcția de regresie indicate prin linii solide. Abscisei Variabila liberă, iar axa verticală # 151; dependente. Toate trei sunt liniare, în funcție de parametrii.

regresie neliniară

Modele de regresie neliniare - vizualizarea modelului

care nu poate fi reprezentat ca un produs scalar

unde = [w_1, \ ldots, "/> - parametrii modelului de regresie" /> - variabila liberă de spațiu ^ n "/> - variabila dependentă - variabilă aleatoare = [g_1, \ ldots" /> - funcția dintr-un set dat.

Valorile parametrilor în cazul regresiei nelineare sunt folosind una dintre metodele de coborâre cu gradient precum Levenberg-Marquardt.

Despre termeni

Termenul „regresie“, a fost introdus de Francis Galton la sfârșitul secolului al 19-lea. Galton a constatat că copiii părinților cu o creștere mică sau mare nu este de obicei moștenesc creșterea restante și a numit fenomenul de „regresie la mediocritate.“ În primul rând, termenul a fost folosit doar într-un sens biologic. Ca urmare a activității Karla Pirsona, termenul a început să fie utilizat în statistici.

Apropierea funcții: o funcție continuă aproximează o funcție continuă sau discretă

În literatura de specialitate statistică distinge de regresie cu o singură variabilă liberă și cu mai multe variabile libere # 151; regresia univariată și multivariată. Noi ar trebui să folosească mai multe variabile libere, și anume, o variabilă liberă # 151; vector \ în \ ^ N „R />. În cazuri speciale, atunci când variabila liberă este un scalar, se va face referire la. Există regresie liniară și neliniară. În cazul în care modelul de regresie nu este o combinație liniară a parametrilor funcțiilor, vorbim de regresie non-lineară. În acest caz, modelul poate fi o funcție arbitrară a superpoziției unui set. modelele sunt neliniare, exponențială, trigonometrice, și altele (de exemplu, funcții de bază radiale sau perceptron Rosenblatt) considerând relația dintre parametrii și isimoy neliniară variabilă.

Distinge între parametri și regresie neparametrică. delimitare strictă între aceste două tipuri de regresii să dețină dificilă. Criterii de acum nu există nici un general acceptat distinge un tip de la un alt model. De exemplu, se crede că modelele liniare sunt parametrice și modelul, inclusiv medierea variabilă dependentă în spațiu liber variabil # 151; neparametrice. EXEMPLU regresionnoy model parametric: predictor liniar, multistrat perceptron. Exemple mixt de model de regresie: radial funcția de bază. modelul neparametrice # 151; o medie mobilă într-o anumită lățime fereastră. În general, diferit de parametrul de regresie neparametrică care depinde valori variabile care nu depind de o variabilă liberă, ci dintr-un cartier predeterminat de acea valoare.

funcție de valoarea de referință puncte nodale: Interpolarea

Există o diferență între termenii „apropierea funcțiilor“, „aproximare“, „interpolare“ și „regresie“. Acesta este după cum urmează.

Apropierea funcțiilor. Având în vedere funcția unui argument discret sau continuu. Găsiți o funcție de unele parametru al familiei, de exemplu, între setul de polinoame algebrice de grad. Parametrii trebuie să livreze cel puțin unele funcționale, de exemplu,

armonizare pe termen # 151; sinonim cu termenul „apropierea funcțiilor“. Este mai frecvent utilizat atunci când vorbim despre funcția dată ca funcție de argument discret. Există, de asemenea, trebuie să găsească o funcție care se execută cel mai aproape de toate punctele funcției specificate. Astfel, conceptul rezidual # 151; distanța dintre punctele de o funcție continuă și punctele discrete corespunzătoare ale funcției argument.

funcţii de interpolare # 151; problemă specială armonizare caz, în cazul în care este necesar, pentru a în anumite puncte, numite puncte de funcții de interpolare și se potrivesc cu valorile aproximează funcția sa. Într-un caz mai general, se impun restricții asupra valorii unor derivați ai instrumentelor derivate. Aceasta este, având în vedere funcția de un argument discret. Este necesar de a găsi o funcție care trece prin toate punctele. În acest caz, metrica nu este utilizat în mod obișnuit, dar de multe ori să introducă conceptul de „finețea“ a funcției necunoscute.

Regresia și clasificare sunt strâns legate între ele. Termenul în algoritmul de clasificare ar putea fi sinonim cu termenul în modelul de regresie, în cazul în care algoritmul nu este operat cu un set discret de răspunsuri-Class și modelul # 151; o variabilă continuu specifică liberă.

a se vedea, de asemenea,

literatură

link-uri externe