venerdì, agosto 31, 2007

quanto odio la statistica

ecco a voi la regressione lineare.
x la cronaca il paisy sta studiando queste cose ( che sono solo una parte ) in vista del penultimo esame prima della laurea ;).


Stime dei parametri nel caso bivariato [modifica]

Generalizzando il problema a due variabili \ x e \ y, scriveremo:

\ y_{i}=a+bh(x_{i})+\varepsilon_{i}

\ h(x) è una generica funzione di \ x e comunemente si assume \ h(x)=x. Ponendo, senza perdita di generalità, tale condizione la formula diviene:

\ y_{i}=a+bx_{i}+\varepsilon_{i}

Quindi la variabile dipendente \ y viene "spiegata" attraverso una relazione lineare della variabile indipendente \ x (cioè: \ a + bx) e da una quantità casuale \ \varepsilon_i.

Il problema della regressione si traduce nella determinazione di \ a e \ b in modo da esprimere al ‘meglio’ la relazione funzionale tra \ y e \ x. Per avvalorare di un significato statistico la scelta dei coefficienti occorre realizzare alcune ipotesi sul modello lineare di regressione.

\ x è una variabile deterministica
\ \textrm{E}(\varepsilon_{i})=0
\ \textrm{var}(\varepsilon_{i}) costante per ogni \ i
\ \textrm{cov}(\varepsilon_{i};\varepsilon_{j})=0\ \forall j\neq i

Date queste ipotesi si calcolano i coefficienti \ a e \ b secondo il metodo dei minimi quadrati (in inglese Ordinary Least Squares, o OLS, da cui il riferimento agli stimatori di seguito ottenuti come agli stimatori OLS) proposto da Gauss; detta:

\ S = S(a,b)= \sum_{i=1}^{N} \varepsilon_{i}^{2} = \sum_{i=1}^{N} (y_{i} - a - bx_{i})^{2}

le stime si ottengono risolvendo:

\ \{a,b\}=\arg\min_{a,b}S(a,b)

Le soluzioni si ricavano uguagliando a zero le derivate parziali di \ S rispetto ad \ a e \ b:

\ \frac{\partial S}{\partial a} = -2 \sum_{i=1}^{N} (y_{i} - a - bx_{i}) = 0
\ \frac{\partial S}{\partial b} = -2 \sum_{i=1}^{N} (y_{i} - a - bx_{i})x_{i} = 0

Dove \ N denota il numero delle osservazioni; segue:

aN+b\sum_{i=1}^{N}x_i=\sum_{i=1}^{N}y_i

a\sum_{i=1}^{N}x_i+b\sum_{i=1}^{N}x_i^2=\sum_{i=1}^{N}x_iy_i

da cui si ricavano le soluzioni:

b=\frac{N\sum_ix_iy_i-\sum_ix_i\sum_iy_i}{N\sum_ix_i^2-(\sum_ix_i)^2}=\frac{S_{xy}}{S_{xx}}=\frac{\textrm{cov}(x,y)}{\textrm{var}(x)}

a=\frac{\sum_iy_i\sum_ix_i^2-\sum_ix_i\sum_ix_iy_i}{N\sum_ix_i^2-(\sum_ix_i)^2}=\bar{y}-b\bar{x}

Essendo la varianza osservata data da:

S_{xx}=\textrm{var}(x)=\frac{1}{N}\sum_{i=1}^{N}(x_i-\bar{x})^2

e la covarianza osservata da:

S_{xy}=\textrm{cov}(x,y)=\frac{1}{N}\sum_{i=1}^{N}(x_i-\bar{x})(y_i-\bar{y})

dove \ \bar{x},\ \bar{y} denotano le medie osservate, si possono scrivere i parametri nella forma:

\ b=S_{xy}/S_{xx}
\ a = \bar{y} -b\bar{x}

Giustificazione probabilistica del metodo di regressione con i minimi quadrati [modifica]

Si consideri il seguente problema teorico: date due variabili casuali \ X e \ Y, quale è il migliore stimatore per il valore atteso di \ Y, ossia quale stimatore presenta lo scarto quadratico medio (o MSE, dall'inglese Mean Squared Error) minimo?

Se si utilizza uno stimatore affine che sfrutta l'informazione relativa alla variabile casuale \ X, \ Y=a+bX, è possibile dimostrare che lo scarto quadratico medio \ \mbox{E}\left[\left(Y-a-bX\right)^{2}\right] è minimizzato se:

\ b = \frac{\mbox{cov}(X,Y)}{\mbox{var}(X)};\quad a = \mbox{E}[Y]-b\mbox{E}[X]= \mbox{E}[Y]-\frac{\mbox{cov}(X,Y)}{\mbox{var}(X)}\mbox{E}[X]

Tale osservazione fornisce una giustificazione di tipo probabilistico alle espressioni proposte sopra; si veda oltre per un'analisi formale, nel caso multivar


in canna

Nessun commento: