Variable selection for robust model-based learning from contaminated data = Selezione di variabili nella stima robusta di modelli per dati contaminati

Cappozzo, A.; Greselin, F.; Murphy, B.

Several contributions to the recent literature have shown that supervised learning is greatly enhanced when only the most relevant features are selected for building the discrimination rule. Unfortunately, outliers and wrongly labelled units may undermine the determination of relevant predictors, and almost no dedicated methodologies have been developed to face this issue. In the present paper, we in- troduce a new robust variable selection approach, that embeds a classifier within a greedy-forward procedure. An experiment on synthetic data is provided, to under- line the benefits of the proposed method in comparison with non-robust solutions.

Recenti risultati in letteratura hanno dimostrato che l’apprendimento su- pervisionato migliora notevolmente quando si scelgono le variabili pi`u rilevanti per la costruzione della regola discriminante. La presenza di valori anomali e di unit`a erroneamente classificate nel learning set pu`o severamente minare la deter- minazione dei predittori rilevanti e sfortunatamente quasi nessuna metodologia af- fronta questo problema. Il presente contributo propone un nuovo approccio robusto, che incorpora un classificatore all’interno di un metodo incrementale di selezione delle variabili. Risultati simulativi mostrano i vantaggi del nuovo metodo, in com- parazione con soluzioni non robuste.

Variable selection for robust model-based learning from contaminated data = Selezione di variabili nella stima robusta di modelli per dati contaminati / A. Cappozzo, F. Greselin, B. Murphy - In: Book of Short Papers SIS 2020[s.l] : Pearson, 2020. - pp. 1117-1122 (( convegno 50th Scientific Meeting of the Italian Statistical Society tenutosi a Pisa nel 50.

Variable selection for robust model-based learning from contaminated data = Selezione di variabili nella stima robusta di modelli per dati contaminati

A. Cappozzo;Francesca Greselin;Brendan Murphy

2020

Abstract

Several contributions to the recent literature have shown that supervised learning is greatly enhanced when only the most relevant features are selected for building the discrimination rule. Unfortunately, outliers and wrongly labelled units may undermine the determination of relevant predictors, and almost no dedicated methodologies have been developed to face this issue. In the present paper, we in- troduce a new robust variable selection approach, that embeds a classifier within a greedy-forward procedure. An experiment on synthetic data is provided, to under- line the benefits of the proposed method in comparison with non-robust solutions.

Scheda breve

Scheda completa

Scheda completa (DC)

	Abstract
	
				Recenti risultati in letteratura hanno dimostrato che l’apprendimento su-
pervisionato migliora notevolmente quando si scelgono le variabili pi`u rilevanti
per la costruzione della regola discriminante. La presenza di valori anomali e di
unit`a erroneamente classificate nel learning set pu`o severamente minare la deter-
minazione dei predittori rilevanti e sfortunatamente quasi nessuna metodologia af-
fronta questo problema. Il presente contributo propone un nuovo approccio robusto,
che incorpora un classificatore all’interno di un metodo incrementale di selezione
delle variabili. Risultati simulativi mostrano i vantaggi del nuovo metodo, in com-
parazione con soluzioni non robuste.
			
	Parole chiave
	
				Variable Selection; Model-Based Classification; Label Noise; Outliers Detection; Wrapper approach; Impartial Trimming; Robust Estimation
			
	Settori scientifico-disciplinari del contributo (sola visualizzazione)
	
				Settore SECS-S/01 - Statistica
			
	Data di pubblicazione
	
				2020
			
	Tipologia
	
				Book Part (author)
			
	Appare nelle tipologie:
	
				03 - Contributo in volume

File in questo prodotto:

File	Dimensione	Formato
SIS2020 CGM Robust variable selection REV.pdf accesso riservato Tipologia: Publisher's version/PDF Dimensione 145.07 kB Formato Adobe PDF Visualizza/Apri Richiedi una copia	145.07 kB	Adobe PDF	Visualizza/Apri Richiedi una copia

Pubblicazioni consigliate

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/2434/1039358

Citazioni

ND

ND

ND

ND

IRIS Institutional Research Information System - AIR Archivio Istituzionale della Ricerca