Several contributions to the recent literature have shown that supervised learning is greatly enhanced when only the most relevant features are selected for building the discrimination rule. Unfortunately, outliers and wrongly labelled units may undermine the determination of relevant predictors, and almost no dedicated methodologies have been developed to face this issue. In the present paper, we in- troduce a new robust variable selection approach, that embeds a classifier within a greedy-forward procedure. An experiment on synthetic data is provided, to under- line the benefits of the proposed method in comparison with non-robust solutions.

Recenti risultati in letteratura hanno dimostrato che l’apprendimento su- pervisionato migliora notevolmente quando si scelgono le variabili pi`u rilevanti per la costruzione della regola discriminante. La presenza di valori anomali e di unit`a erroneamente classificate nel learning set pu`o severamente minare la deter- minazione dei predittori rilevanti e sfortunatamente quasi nessuna metodologia af- fronta questo problema. Il presente contributo propone un nuovo approccio robusto, che incorpora un classificatore all’interno di un metodo incrementale di selezione delle variabili. Risultati simulativi mostrano i vantaggi del nuovo metodo, in com- parazione con soluzioni non robuste.

Variable selection for robust model-based learning from contaminated data = Selezione di variabili nella stima robusta di modelli per dati contaminati / A. Cappozzo, F. Greselin, B. Murphy - In: Book of Short Papers SIS 2020[s.l] : Pearson, 2020. - pp. 1117-1122 (( convegno 50th Scientific Meeting of the Italian Statistical Society tenutosi a Pisa nel 50.

Variable selection for robust model-based learning from contaminated data = Selezione di variabili nella stima robusta di modelli per dati contaminati

A. Cappozzo;
2020

Abstract

Several contributions to the recent literature have shown that supervised learning is greatly enhanced when only the most relevant features are selected for building the discrimination rule. Unfortunately, outliers and wrongly labelled units may undermine the determination of relevant predictors, and almost no dedicated methodologies have been developed to face this issue. In the present paper, we in- troduce a new robust variable selection approach, that embeds a classifier within a greedy-forward procedure. An experiment on synthetic data is provided, to under- line the benefits of the proposed method in comparison with non-robust solutions.
Recenti risultati in letteratura hanno dimostrato che l’apprendimento su- pervisionato migliora notevolmente quando si scelgono le variabili pi`u rilevanti per la costruzione della regola discriminante. La presenza di valori anomali e di unit`a erroneamente classificate nel learning set pu`o severamente minare la deter- minazione dei predittori rilevanti e sfortunatamente quasi nessuna metodologia af- fronta questo problema. Il presente contributo propone un nuovo approccio robusto, che incorpora un classificatore all’interno di un metodo incrementale di selezione delle variabili. Risultati simulativi mostrano i vantaggi del nuovo metodo, in com- parazione con soluzioni non robuste.
Variable Selection; Model-Based Classification; Label Noise; Outliers Detection; Wrapper approach; Impartial Trimming; Robust Estimation
Settore SECS-S/01 - Statistica
2020
Book Part (author)
File in questo prodotto:
File Dimensione Formato  
SIS2020 CGM Robust variable selection REV.pdf

accesso riservato

Tipologia: Publisher's version/PDF
Dimensione 145.07 kB
Formato Adobe PDF
145.07 kB Adobe PDF   Visualizza/Apri   Richiedi una copia
Pubblicazioni consigliate

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/2434/1039358
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact