CANCER MORTALITY DATA ANALYSIS AND PREDICTION

Carioli, G.

doi:10.13130/carioli-greta_phd2019-01-18

Descriptive epidemiology has traditionally only been concerned with the definition of a research problem’s scope. However, the greater availability and improvement of epidemiological data over the years has led to the development of new statistical techniques that have characterized modern epidemiology. These methods are not only explanatory, but also predictive. In public health, predictions of future morbidity and mortality trends are essential to evaluate strategies for disease prevention and management, and to plan the allocation of resources. During my PhD at the school of “Epidemiology, Environment and Public Health” I worked on the analysis of cancer mortality trends, using data from the World Health Organization (WHO) database, available on electronic support (WHOSIS), and from other databases, including the Pan American Health Organization database, the Eurostat database, the United Nation Population Division database, the United States Census Bureau and the Japanese National Institute of Population database. Considering several cancer sites and several countries worldwide, I computed age-specific rates for each 5-year age-group (from 0–4 to 80+ or 85+ years) and calendar year or quinquennium. I then computed age-standardized mortality rates per 100,000 person-years using the direct method on the basis of the world standard population. I performed joinpoint models in order to identify the years when significant changes in trends occurred and I calculated the corresponding annual percent changes. Moreover, I focused on projections. I fitted joinpoint models to the numbers of certified deaths in each 5-year age-group in order to identify the most recent trend slope. Then, I applied Generalized Liner Model (GLM) Poisson regressions, considering different link functions, to the data over the time period identified by the joinpoint model. In particular, I considered the identity link, the logarithmic link, the power five link and the square root link. I also implemented an algorithm that generated a “hybrid” regression; this algorithm automatically selects the best fitting GLM Poisson model, among the identity, logarithmic, power five, and square root link functions, to apply for each age-group according to Akaike Information Criterion (AIC) values. The resulting regression is a combination of the considered models. Thus, I computed the predicted age-specific numbers of deaths and rates, and the corresponding 95% prediction intervals (PIs) using the regression coefficients obtained previously from the four GLM Poisson regressions and from the hybrid GLM Poisson regression. Lastly, as a further comparison model, I implemented an average model, which just computes a mean of the estimates produced by the different considered GLM Poisson models. In order to compare the six different prediction methods, I used data from 21 countries worldwide and for the European Union as a whole, I considered 25 major causes of death. I selected countries with over 5 million inhabitants and with good quality data (i.e. with at least 90% of coverage). I analysed data for the period between 1980 and 2011 and, in particular, I considered data from 1980 to 2001 as a training dataset, and from 2002 to 2011 as a validation set. To measure the predictive accuracy of the different models, I computed the average absolute relative deviations (AARDs). These indicate the average percent deviation from the true value. I calculated AARDs on 5-year prediction period (i.e. 2002-2006), as well as for 10-year period (i.e. 2002-2011). The results showed that the hybrid model did not give always the best predictions, and when it was the best, the corresponding AARD estimates were not very far from the other methods. However, the hybrid model projections, for any combination of cancer site and sex, were never the worst. It acted as a compromise between the four considered models. The average model is also ranked in an intermediate position: it never was the best predictive method, but its AARDs were competitive compared to the other methods considered. Overall, the method that shows the best predictive performance is the Poisson GLM with an identity link function. Furthermore, this method, showed extremely low AARDs compared to other methods, particularly when I considered a 10-year projection period. Finally, we must take into account that predicted trends and corresponding AARDs derived from 5-year projections are much more accurate than those done over a 10-year period. Projections beyond five years with these methods lack reliability and become of limited use in public health. During the implementation of the algorithm and the analyses, several questions emerged: Are there other relevant models that can be added to the algorithm? How much does the Joinpoint regression influence projections? How to find an “a priori” rule that helps in choosing which predictive method apply according to various available covariates? All these questions are set aside for the future developments of the project. Prediction of future trends is a complex procedure, the resulting estimates should be taken with caution and considered only as general indications for epidemiology and health planning.

Tradizionalmente, l’epidemiologia descrittiva viene considerata come un semplice strumento esplorativo. Tuttavia, nel corso degli anni, la maggiore disponibilità e il miglioramento della qualità dei dati epidemiologici hanno portato allo sviluppo di nuove tecniche statistiche che caratterizzano l'epidemiologia moderna. Questi metodi non sono solo esplicativi, ma anche predittivi. In ambito di sanità pubblica, le previsioni degli andamenti futuri di morbilità e mortalità sono essenziali per valutare le strategie di prevenzione, la gestione delle malattie e per pianificare l'allocazione delle risorse. Durante il mio dottorato di ricerca in "Epidemiologia, Ambiente e Sanità Pubblica" ho lavorato all'analisi degli andamenti di mortalità per tumore, utilizzando principalmente la banca dati della World Health Organization (WHO), ma anche quella della Pan American Health Organization, dell’Eurostat, della United Nation Population Division, dello United States Census Bureau e la banca dati del Japanese National Institute of Population. Considerando diversi siti neoplastici e diversi paesi nel mondo, ho calcolato i tassi specifici per ogni classe di età quinquennale (da 0-4 a 80+ o 85+ anni), e singolo anno di calendario o quinquennio. Per poter confrontare i tassi fra diversi paesi, ho calcolato, utilizzando il metodo diretto sulla base della popolazione mondiale standard, i tassi di mortalità standardizzati per età per 100.000 anni-persona. Nella maggior parte delle analisi, ho poi applicato il modello di regressione joinpoint ai tassi standardizzati con lo scopo di individuare gli anni in cui erano avvenuti cambiamenti significativi nell’andamento dei tassi; per ogni segmento individuato dalla regressione joinpoint, ho calcolato le variazioni percentuali annue. Inoltre, mi sono concentrata sulle proiezioni degli andamenti futuri. Con l’obiettivo di individuare il segmento più recente dell’andamento di mortalità, ho applicato il modello di regressione joinpoint al numero di morti in ogni gruppo di età quinquennale. Quindi, ho utilizzato i Modelli Lineari Generalizzati (GLM), scegliendo la distribuzione di Poisson e diverse funzioni link, sui dati dell’ultimo segmento individuato dal modello joinpoint. In particolare, ho considerato le funzioni link identità, logaritmica, quinta potenza e radice quadrata. Ho anche implementato un algoritmo che genera una regressione "ibrida"; questo algoritmo seleziona automaticamente, in base al valore della statistica Akaike Information Criterion (AIC), il modello GLM Poisson più performante, tra quelli generati dalle funzioni link di identità, logaritmica, quinta potenza e radice quadrata, da applicare a ciascuna classe di età quinquennale. La regressione risultante, sull’insieme dei singoli gruppi di età, è quindi una combinazione dei modelli considerati. Quindi, applicando i coefficienti ottenuti dalle quattro regressioni GLM Poisson e dalla regressione ibrida sugli anni di previsione, ho ottenuto le stime predette del numero di morti. A seguire, utilizzando il numero di morti predetto e le popolazioni predette, ho stimato i tassi previsti specifici per età e i corrispondenti intervalli di previsione al 95% (PI). Infine, come ulteriore modello di confronto, ho costruito un modello medio, che semplicemente calcola una media delle stime prodotte dai diversi modelli GLM Poisson. Al fine di confrontare fra loro i sei diversi metodi di previsione, ho utilizzato i dati relativi a 21 paesi in tutto il mondo e all'Unione Europea nel suo complesso, e ho considerato 25 maggiori cause di morte. Ho selezionato solo i paesi con oltre 5 milioni di abitanti e solo i paesi per i quali erano disponibili dati di buona qualità (ovvero con almeno il 90% di coverage). Ho analizzato i dati del periodo temporale compreso tra il 1980 e il 2011 e, in particolare, ho applicato i vari modelli sui dati dal 1980 al 2001 con l’idea di prevedere i tassi sul periodo 2002-2011, e ho poi utilizzato i dati effettivamente disponibili dal 2002 al 2011 per valutare le stime predette. Quindi, per misurare l'accuratezza predittiva dei diversi metodi, ho calcolato la deviazione relativa assoluta media (AARD). Questa quantità indica la deviazione media percentuale del valore stimato dal valore vero. Ho calcolato gli AARD su un periodo di previsione di 5 anni (i.e. 2002-2006), e anche su un periodo di 10 anni (i.e. 2002-2011). Dalle analisi è emerso che il modello ibrido non sempre forniva le migliori stime di previsione e, anche quando risultava il migliore, i corrispondenti valori di AARD non erano poi molto lontani da quelli degli altri metodi. Tuttavia, le proiezioni ottenute utilizzando il modello ibrido, per qualsiasi combinazione di sito di tumore e sesso, non sono mai risultate le peggiori. Questo modello è una sorta di compromesso tra le quattro funzioni link considerate. Anche il modello medio fornisce stime intermedie rispetto alle altre regressioni: non è mai risultato il miglior metodo di previsione, ma i suoi AARD erano competitivi rispetto agli altri metodi considerati. Complessivamente, il modello che mostra le migliori prestazioni predittive è il GLM Poisson con funzione link identità. Inoltre, questo metodo ha mostrato AARD estremamente bassi rispetto agli altri metodi, in particolare considerando un periodo di proiezione di 10 anni. Infine, bisogna tenere in considerazione che gli andamenti previsti, e i corrispondenti AARD, ottenuti da proiezioni su periodi di 5 anni sono molto più accurati rispetto a quelli su periodi di 10 anni. Le proiezioni ottenute con questi metodi per periodi superiori a 5 anni perdono in affidabilità e la loro utilità in sanità pubblica risulta quindi limitata. Durante l'implementazione della regressione ibrida e durante le analisi sono rimaste aperte alcune questioni: ci sono altri modelli rilevanti che possono essere aggiunti all'algoritmo? In che misura la regressione joinpoint influenza le proiezioni? Come trovare una regola "a priori" che aiuti a scegliere quale metodo predittivo applicare in base alle varie covariate disponibili? Tutte queste domande saranno tenute in considerazione per gli sviluppi futuri del progetto. Prevedere gli andamenti futuri è un processo complesso, le stime risultanti dovrebbero quindi essere considerate con cautela e solo come indicazioni generali in ambito epidemiologico e di pianificazione sanitaria.

CANCER MORTALITY DATA ANALYSIS AND PREDICTION / G. Carioli ; tutor: C. La Vecchia; coordinatore: C. La Vecchia ; supervisore: M. Malvezzi. DIPARTIMENTO DI SCIENZE CLINICHE E DI COMUNITA', 2019 Jan 18. 31. ciclo, Anno Accademico 2018. [10.13130/carioli-greta_phd2019-01-18].