## Minimisation du risque empirique régularisé

On s'intéresse aux algorithmes d'apprentissage basées sur la minimisation du rsque empirique régularisé $$\min_f \sum_i \ell(y_i ,f(x_i)) + \alpha \Omega(f) $$

Télécharger le jeu de données `concrete` et paratger les données en données d'apprentissage et données test.

In [0]:
 from sklearn.model_selection import train_test_split 

data = pd.read_csv("concrete.csv")
X = data[[col for col in data.columns if col != "strength"]]
y = data["strength"]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, shuffle=True)

### Régression ridge

* $\ell(y_i,f(x_i)) = (y_i - \beta^T x_i)^2$
* $\Omega(f) = \|\beta\|_2^2$ (norme $L_2$)

In [0]:
from sklearn.linear_model import Ridge
from yellowbrick.features import FeatureImportances

model = FeatureImportances(Ridge(alpha=5), relative=False)
model.fit(X_train, y_train)
model.score(X_test, y_test)
model.poof()

### Régression Lasso

* $\ell(y_i,f(x_i)) = (y_i - \beta^T x_i)^2$
* $\Omega(f) = \|\beta\|_1$ (norme $L_1$)

In [0]:
from sklearn.linear_model import Lasso 

model = FeatureImportances(Lasso(alpha=5), relative=False)
model.fit(X_train, y_train)
model.score(X_test, y_test)
model.poof()


* Analyser et Expliquer les résultats obtenus

### Régression ElasticNet

* combine une régularization $L_1$ et une régularization $L_2$
* coefficients de régularisation $\alpha$ $(L_2)$ et $\rho$ $(L_1)$
* $\ell(y_i,f(x_i)) = (y_i - \beta^T x_i)^2$
* $\Omega(f) = \alpha \rho \|\beta\|_1 + \frac{\alpha(1-\rho)}{2}\|\beta\|_2$

In [0]:


from sklearn.linear_model import ElasticNet 

model = FeatureImportances(ElasticNet(alpha=15.5, l1_ratio=15.1), relative=False)
model.fit(X_train, y_train)
model.score(X_test, y_test)
model.poof()



### Sélection du paramètre $\alpha$

* Le choix de $\alpha$ est très important.

* On choisit $\alpha$ qui maximise l'erreur de cross validation parmi plusieurs valeurs définies dans une grille. 

In [0]:
from yellowbrick.regressor import AlphaSelection 
from sklearn.linear_model import RidgeCV, LassoCV, ElasticNetCV

alphas = np.logspace(-10, 1, 400)

viz = AlphaSelection(LassoCV(alphas=alphas))
viz.fit(X, y)
viz.poof()


# **To do **
* Appliquer et comparer la régression Ridge et la régression Lasso sur le jeu de données boston. 

* Afficher l'erreur de prédiction sur les données de test et les données d'apprentissage en fonction du paramètre de régularisation.

* Afficher l'erreur de prédiction sur les données de test et les données d'apprentissage en fonction du nombre de données d'apprentissage dans les deux cas : $\alpha =0$ et $\alpha$ optimal choisi par cross-validation.

* Lire les sections 3.1 et 3.2 du chapitre 3 du livre "Pattern Recognition and Machine Learning" (Bishop, 2006).
