Several contributions to the recent literature have shown that supervised learning is greatly enhanced when only the most relevant features are selected for building the discrimination rule. Unfortunately, outliers and wrongly labelled units may undermine the determination of relevant predictors, and almost no dedicated methodologies have been developed to face this issue. In the present paper, we in- troduce a new robust variable selection approach, that embeds a classifier within a greedy-forward procedure. An experiment on synthetic data is provided, to under- line the benefits of the proposed method in comparison with non-robust solutions.
Recenti risultati in letteratura hanno dimostrato che l’apprendimento su- pervisionato migliora notevolmente quando si scelgono le variabili pi`u rilevanti per la costruzione della regola discriminante. La presenza di valori anomali e di unit`a erroneamente classificate nel learning set pu`o severamente minare la deter- minazione dei predittori rilevanti e sfortunatamente quasi nessuna metodologia af- fronta questo problema. Il presente contributo propone un nuovo approccio robusto, che incorpora un classificatore all’interno di un metodo incrementale di selezione delle variabili. Risultati simulativi mostrano i vantaggi del nuovo metodo, in com- parazione con soluzioni non robuste.
Variable selection for robust model-based learning from contaminated data = Selezione di variabili nella stima robusta di modelli per dati contaminati / A. Cappozzo, F. Greselin, B. Murphy - In: Book of Short Papers SIS 2020[s.l] : Pearson, 2020. - pp. 1117-1122 (( convegno 50th Scientific Meeting of the Italian Statistical Society tenutosi a Pisa nel 50.
Variable selection for robust model-based learning from contaminated data = Selezione di variabili nella stima robusta di modelli per dati contaminati
A. Cappozzo;
2020
Abstract
Several contributions to the recent literature have shown that supervised learning is greatly enhanced when only the most relevant features are selected for building the discrimination rule. Unfortunately, outliers and wrongly labelled units may undermine the determination of relevant predictors, and almost no dedicated methodologies have been developed to face this issue. In the present paper, we in- troduce a new robust variable selection approach, that embeds a classifier within a greedy-forward procedure. An experiment on synthetic data is provided, to under- line the benefits of the proposed method in comparison with non-robust solutions.File | Dimensione | Formato | |
---|---|---|---|
SIS2020 CGM Robust variable selection REV.pdf
accesso riservato
Tipologia:
Publisher's version/PDF
Dimensione
145.07 kB
Formato
Adobe PDF
|
145.07 kB | Adobe PDF | Visualizza/Apri Richiedi una copia |
Pubblicazioni consigliate
I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.