NOTE: non-parametric oversampling technique for explainable credit scoring

Han, S.; Jung, H.; Yoo, P.D.; Provetti, A.; Cali, A.

doi:10.1038/s41598-024-78055-5

Credit scoring models are critical for financial institutions to assess borrower risk and maintain profitability. Although machine learning models have improved credit scoring accuracy, imbalanced class distributions remain a major challenge. The widely used Synthetic Minority Oversampling TEchnique (SMOTE) struggles with high-dimensional, non-linear data and may introduce noise through class overlap. Generative Adversarial Networks (GANs) have emerged as an alternative, offering the ability to model complex data distributions. Conditional Wasserstein GANs (cWGANs) have shown promise in handling both numerical and categorical features in credit scoring datasets. However, research on extracting latent features from non-linear data and improving model explainability remains limited. To address these challenges, this paper introduces the Non-parametric Oversampling Technique for Explainable credit scoring (NOTE). The NOTE offers a unified approach that integrates a Non-parametric Stacked Autoencoder (NSA) for capturing non-linear latent features, cWGAN for oversampling the minority class, and a classification process designed to enhance explainability. The experimental results demonstrate that NOTE surpasses state-of-the-art oversampling techniques by improving classification accuracy and model stability, particularly in non-linear and imbalanced credit scoring datasets, while also enhancing the explainability of the results.

NOTE: non-parametric oversampling technique for explainable credit scoring / S. Han, H. Jung, P.D. Yoo, A. Provetti, A. Cali. - In: SCIENTIFIC REPORTS. - ISSN 2045-2322. - 14:1(2024 Oct 30), pp. 26070.1-26070.18. [10.1038/s41598-024-78055-5]

NOTE: non-parametric oversampling technique for explainable credit scoring

Han, Seongil;Jung, Haemin;Yoo, Paul D.;A. Provetti^Penultimo;Cali, Andrea

2024

Abstract

Credit scoring models are critical for financial institutions to assess borrower risk and maintain profitability. Although machine learning models have improved credit scoring accuracy, imbalanced class distributions remain a major challenge. The widely used Synthetic Minority Oversampling TEchnique (SMOTE) struggles with high-dimensional, non-linear data and may introduce noise through class overlap. Generative Adversarial Networks (GANs) have emerged as an alternative, offering the ability to model complex data distributions. Conditional Wasserstein GANs (cWGANs) have shown promise in handling both numerical and categorical features in credit scoring datasets. However, research on extracting latent features from non-linear data and improving model explainability remains limited. To address these challenges, this paper introduces the Non-parametric Oversampling Technique for Explainable credit scoring (NOTE). The NOTE offers a unified approach that integrates a Non-parametric Stacked Autoencoder (NSA) for capturing non-linear latent features, cWGAN for oversampling the minority class, and a classification process designed to enhance explainability. The experimental results demonstrate that NOTE surpasses state-of-the-art oversampling techniques by improving classification accuracy and model stability, particularly in non-linear and imbalanced credit scoring datasets, while also enhancing the explainability of the results.

Scheda breve

Scheda completa

Scheda completa (DC)

	Parole chiave
	
				Conditional Wasserstein generative adversarial networks; Credit scoring; Explainable AI; Imbalanced class; Oversampling; Stacked autoencoder
			
	Settori scientifico-disciplinari dell'articolo (validi dal 09/05/2024)
	
				Settore INFO-01/A - Informatica
			
	Data di pubblicazione
	
				30-ott-2024
			
	Rivista in ANCE
	
				SCIENTIFIC REPORTS
			
	DOI
	
				https://dx.doi.org/10.1038/s41598-024-78055-5
			
	URL
	
				https://www.nature.com/articles/s41598-024-78055-5
			
	Tipologia
	
				Article (author)
			
	Appare nelle tipologie:
	
				01 - Articolo su periodico

File in questo prodotto:

File	Dimensione	Formato
s41598-024-78055-5.pdf accesso aperto Tipologia: Publisher's version/PDF Dimensione 2.83 MB Formato Adobe PDF Visualizza/Apri	2.83 MB	Adobe PDF	Visualizza/Apri

Pubblicazioni consigliate

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/2434/1121717

Citazioni

ND

5

5

ND

IRIS Institutional Research Information System - AIR Archivio Istituzionale della Ricerca