In the Telecom context, the problem of Customer Churn Prediction (CCP), (or customer defection prediction) can be addressed by using not only well- established domain expert knowledge, but also by exploiting the potential wealth represented by customer-related data and applying Machine Learning Techniques. In this work, we used a TIM S.p.A. real-world dataset to train models that could predict which customers can defect. We compared the outcomes of a considerable number of classification algorithms on our real-world dataset. Furthermore, we applied the causal reasoning on the real dataset identifying actionable features by indirect confirmation of the domain experts. Another need of the telecom stakeholders is to understand the reasons why a customer might defect. This calls for the use of Causal Analysis: thanks to Causal Analysis – and more specifically to Causal Calculus – one can try to extract the direct and indirect causes from observational data. For such an analysis to be possible, one needs beforehand to count on the availability of a Structural Causal Model, or to extract causal graph and other information from the data. Causal discovery can be performed using a number of algorithms, based on different principles, which, when reconstructing sufficiently large graphs, can produce discordant outcomes. In this work, we contribute a causal discovery method that takes advantage of topology-related information generated by an ensemble of causal discovery algorithms to identify which topology is closest to the ground truth. The method relies on the results of the discovery algorithms, considered as a committee of experts, and on a supervised learning approach consisting of stacking of a multi-label classifier on the outcomes of the ensemble. Ideally, this discovery method could also be used on Telecom data; however, since for our data the ground truth (GT) was not available, we limited ourselves to validating the method on synthetic data, generated by a specialized library. Applying our method to the synthetic data we found that we could considerably improve the accuracy of the discovery with respect to the use of individual discovery algorithms.

Nel contesto delle telecomunicazioni, il problema della Customer Churn Prediction (CCP), (o previsione dell’ abbandono dei clienti), può essere affrontato utilizzando non solo conoscenze consolidate di esperti di dominio, ma anche sfruttando la potenziale ricchezza rappresentata dai dati relativi ai clienti e applicando tecniche di Machine Learning. In questo lavoro, abbiamo utilizzato un set di dati reali di TIM S.p.A. per addestrare modelli in grado di prevedere quali clienti possono abbandonare. Abbiamo confrontato i risultati di un numero considerevole di algoritmi di classificazione sul nostro set di dati reali. Inoltre, abbiamo applicato il ragionamento causale al set di dati reali, identificando le variabili azionabili attraverso la conferma indiretta degli esperti di dominio. Un'altra esigenza degli stakeholder delle compagnie di telecomunicazioni è quella di comprendere le ragioni per cui un cliente potrebbe abbandonare. Questo richiede l'uso dell'Analisi Causale: grazie all'Analisi Causale - e più precisamente al Calcolo Causale - si può cercare di estrarre le cause dirette e indirette dai dati osservazionali. Affinché tale analisi sia possibile, occorre prima contare sulla disponibilità di un Modello Causale Strutturale, oppure estrarre grafici causali e altre informazioni dai dati. La scoperta causale può essere effettuata utilizzando una serie di algoritmi, basati su principi diversi, che, quando ricostruiscono grafi sufficientemente grandi, possono produrre risultati discordanti. In questo lavoro, contribuiamo con un metodo di scoperta causale che sfrutta le informazioni relative alla topologia generate da un insieme di algoritmi di scoperta causale per identificare quale topologia è più vicina alla ground truth. Il metodo si basa sui risultati degli algoritmi di scoperta, considerati come un comitato di esperti e su un approccio di apprendimento supervisionato che consiste nello stacking di un classificatore multi-label sui risultati dell'ensemble. Idealmente, questo metodo di scoperta potrebbe essere utilizzato anche su dati Telecom; tuttavia, poiché per i nostri dati la ground truth (GT) non era disponibile, ci siamo limitati a validare il metodo su dati sintetici, generati da una libreria specializzata. Applicando il nostro metodo ai dati sintetici, abbiamo scoperto di poter migliorare notevolmente l'accuratezza della scoperta rispetto all'uso di algoritmi di scoperta individuali.

PREDICTION AND CAUSAL ANALYSIS OF CHURN IN THE TELECOMMUNICATION DOMAIN / A. Barsotti ; tutor: G. Gianini ; co-tutor: E. Damiani ; external tutor: L. Liverani ; PhD program coordinator: R. Sassi. - Milano. Università degli Studi di Milano, 2024 Apr 17. 36. ciclo, Anno Accademico 2023.

PREDICTION AND CAUSAL ANALYSIS OF CHURN IN THE TELECOMMUNICATION DOMAIN

A. Barsotti
2024

Abstract

In the Telecom context, the problem of Customer Churn Prediction (CCP), (or customer defection prediction) can be addressed by using not only well- established domain expert knowledge, but also by exploiting the potential wealth represented by customer-related data and applying Machine Learning Techniques. In this work, we used a TIM S.p.A. real-world dataset to train models that could predict which customers can defect. We compared the outcomes of a considerable number of classification algorithms on our real-world dataset. Furthermore, we applied the causal reasoning on the real dataset identifying actionable features by indirect confirmation of the domain experts. Another need of the telecom stakeholders is to understand the reasons why a customer might defect. This calls for the use of Causal Analysis: thanks to Causal Analysis – and more specifically to Causal Calculus – one can try to extract the direct and indirect causes from observational data. For such an analysis to be possible, one needs beforehand to count on the availability of a Structural Causal Model, or to extract causal graph and other information from the data. Causal discovery can be performed using a number of algorithms, based on different principles, which, when reconstructing sufficiently large graphs, can produce discordant outcomes. In this work, we contribute a causal discovery method that takes advantage of topology-related information generated by an ensemble of causal discovery algorithms to identify which topology is closest to the ground truth. The method relies on the results of the discovery algorithms, considered as a committee of experts, and on a supervised learning approach consisting of stacking of a multi-label classifier on the outcomes of the ensemble. Ideally, this discovery method could also be used on Telecom data; however, since for our data the ground truth (GT) was not available, we limited ourselves to validating the method on synthetic data, generated by a specialized library. Applying our method to the synthetic data we found that we could considerably improve the accuracy of the discovery with respect to the use of individual discovery algorithms.
17-apr-2024
Nel contesto delle telecomunicazioni, il problema della Customer Churn Prediction (CCP), (o previsione dell’ abbandono dei clienti), può essere affrontato utilizzando non solo conoscenze consolidate di esperti di dominio, ma anche sfruttando la potenziale ricchezza rappresentata dai dati relativi ai clienti e applicando tecniche di Machine Learning. In questo lavoro, abbiamo utilizzato un set di dati reali di TIM S.p.A. per addestrare modelli in grado di prevedere quali clienti possono abbandonare. Abbiamo confrontato i risultati di un numero considerevole di algoritmi di classificazione sul nostro set di dati reali. Inoltre, abbiamo applicato il ragionamento causale al set di dati reali, identificando le variabili azionabili attraverso la conferma indiretta degli esperti di dominio. Un'altra esigenza degli stakeholder delle compagnie di telecomunicazioni è quella di comprendere le ragioni per cui un cliente potrebbe abbandonare. Questo richiede l'uso dell'Analisi Causale: grazie all'Analisi Causale - e più precisamente al Calcolo Causale - si può cercare di estrarre le cause dirette e indirette dai dati osservazionali. Affinché tale analisi sia possibile, occorre prima contare sulla disponibilità di un Modello Causale Strutturale, oppure estrarre grafici causali e altre informazioni dai dati. La scoperta causale può essere effettuata utilizzando una serie di algoritmi, basati su principi diversi, che, quando ricostruiscono grafi sufficientemente grandi, possono produrre risultati discordanti. In questo lavoro, contribuiamo con un metodo di scoperta causale che sfrutta le informazioni relative alla topologia generate da un insieme di algoritmi di scoperta causale per identificare quale topologia è più vicina alla ground truth. Il metodo si basa sui risultati degli algoritmi di scoperta, considerati come un comitato di esperti e su un approccio di apprendimento supervisionato che consiste nello stacking di un classificatore multi-label sui risultati dell'ensemble. Idealmente, questo metodo di scoperta potrebbe essere utilizzato anche su dati Telecom; tuttavia, poiché per i nostri dati la ground truth (GT) non era disponibile, ci siamo limitati a validare il metodo su dati sintetici, generati da una libreria specializzata. Applicando il nostro metodo ai dati sintetici, abbiamo scoperto di poter migliorare notevolmente l'accuratezza della scoperta rispetto all'uso di algoritmi di scoperta individuali.
Settore INF/01 - Informatica
Telecom Customer Churn; Churn Prediction; Machine Learning Techniques; Causal Discovery; Causal Inference
GIANINI, GABRIELE
SASSI, ROBERTO
Doctoral Thesis
PREDICTION AND CAUSAL ANALYSIS OF CHURN IN THE TELECOMMUNICATION DOMAIN / A. Barsotti ; tutor: G. Gianini ; co-tutor: E. Damiani ; external tutor: L. Liverani ; PhD program coordinator: R. Sassi. - Milano. Università degli Studi di Milano, 2024 Apr 17. 36. ciclo, Anno Accademico 2023.
File in questo prodotto:
File Dimensione Formato  
phd_unimi_R12824.pdf

Open Access dal 27/06/2024

Descrizione: Tesi di Dottorato
Tipologia: Pre-print (manoscritto inviato all'editore)
Dimensione 3.11 MB
Formato Adobe PDF
3.11 MB Adobe PDF Visualizza/Apri
Pubblicazioni consigliate

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/2434/1041949
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact