ecco a voi la regressione lineare.
x la cronaca il paisy sta studiando queste cose ( che sono solo una parte ) in vista del penultimo esame prima della laurea ;).
Stime dei parametri nel caso bivariato [modifica]
Generalizzando il problema a due variabili \ x e \ y, scriveremo:
\ y_{i}=a+bh(x_{i})+\varepsilon_{i}
\ h(x) è una generica funzione di \ x e comunemente si assume \ h(x)=x. Ponendo, senza perdita di generalità, tale condizione la formula diviene:
\ y_{i}=a+bx_{i}+\varepsilon_{i}
Quindi la variabile dipendente \ y viene "spiegata" attraverso una relazione lineare della variabile indipendente \ x (cioè: \ a + bx) e da una quantità casuale \ \varepsilon_i.
Il problema della regressione si traduce nella determinazione di \ a e \ b in modo da esprimere al ‘meglio’ la relazione funzionale tra \ y e \ x. Per avvalorare di un significato statistico la scelta dei coefficienti occorre realizzare alcune ipotesi sul modello lineare di regressione.
\ x è una variabile deterministica
\ \textrm{E}(\varepsilon_{i})=0
\ \textrm{var}(\varepsilon_{i}) costante per ogni \ i
\ \textrm{cov}(\varepsilon_{i};\varepsilon_{j})=0\ \forall j\neq i
Date queste ipotesi si calcolano i coefficienti \ a e \ b secondo il metodo dei minimi quadrati (in inglese Ordinary Least Squares, o OLS, da cui il riferimento agli stimatori di seguito ottenuti come agli stimatori OLS) proposto da Gauss; detta:
\ S = S(a,b)= \sum_{i=1}^{N} \varepsilon_{i}^{2} = \sum_{i=1}^{N} (y_{i} - a - bx_{i})^{2}
le stime si ottengono risolvendo:
\ \{a,b\}=\arg\min_{a,b}S(a,b)
Le soluzioni si ricavano uguagliando a zero le derivate parziali di \ S rispetto ad \ a e \ b:
\ \frac{\partial S}{\partial a} = -2 \sum_{i=1}^{N} (y_{i} - a - bx_{i}) = 0
\ \frac{\partial S}{\partial b} = -2 \sum_{i=1}^{N} (y_{i} - a - bx_{i})x_{i} = 0
Dove \ N denota il numero delle osservazioni; segue:
aN+b\sum_{i=1}^{N}x_i=\sum_{i=1}^{N}y_i
a\sum_{i=1}^{N}x_i+b\sum_{i=1}^{N}x_i^2=\sum_{i=1}^{N}x_iy_i
da cui si ricavano le soluzioni:
b=\frac{N\sum_ix_iy_i-\sum_ix_i\sum_iy_i}{N\sum_ix_i^2-(\sum_ix_i)^2}=\frac{S_{xy}}{S_{xx}}=\frac{\textrm{cov}(x,y)}{\textrm{var}(x)}
a=\frac{\sum_iy_i\sum_ix_i^2-\sum_ix_i\sum_ix_iy_i}{N\sum_ix_i^2-(\sum_ix_i)^2}=\bar{y}-b\bar{x}
Essendo la varianza osservata data da:
S_{xx}=\textrm{var}(x)=\frac{1}{N}\sum_{i=1}^{N}(x_i-\bar{x})^2
e la covarianza osservata da:
S_{xy}=\textrm{cov}(x,y)=\frac{1}{N}\sum_{i=1}^{N}(x_i-\bar{x})(y_i-\bar{y})
dove \ \bar{x},\ \bar{y} denotano le medie osservate, si possono scrivere i parametri nella forma:
\ b=S_{xy}/S_{xx}
\ a = \bar{y} -b\bar{x}
Giustificazione probabilistica del metodo di regressione con i minimi quadrati [modifica]
Si consideri il seguente problema teorico: date due variabili casuali \ X e \ Y, quale è il migliore stimatore per il valore atteso di \ Y, ossia quale stimatore presenta lo scarto quadratico medio (o MSE, dall'inglese Mean Squared Error) minimo?
Se si utilizza uno stimatore affine che sfrutta l'informazione relativa alla variabile casuale \ X, \ Y=a+bX, è possibile dimostrare che lo scarto quadratico medio \ \mbox{E}\left[\left(Y-a-bX\right)^{2}\right] è minimizzato se:
\ b = \frac{\mbox{cov}(X,Y)}{\mbox{var}(X)};\quad a = \mbox{E}[Y]-b\mbox{E}[X]= \mbox{E}[Y]-\frac{\mbox{cov}(X,Y)}{\mbox{var}(X)}\mbox{E}[X]
Tale osservazione fornisce una giustificazione di tipo probabilistico alle espressioni proposte sopra; si veda oltre per un'analisi formale, nel caso multivar
in canna
Iscriviti a:
Commenti sul post (Atom)
Nessun commento:
Posta un commento