IRIS Institutional Research Information System - AIR Archivio Istituzionale della Ricerca

Common clustering algorithms require multiple scans of all the data to achieve convergence, and this is prohibitive when large databases, with millions of data, must be processed. Some algorithms to extend the popular K-means method to the analysis of big data are present in literature since 1998, but they assume that the random vectors which are processed and grouped have uncorrelated components. Unfortunately this is not the case in many practical situations. We here propose an extension of the algorithm of Bradley, Fayyad and Reina to the processing of massive multivariate data, having correlated components.

I comuni algoritmi di clustering richiedono di esaminare piu volte tutti i ` dati per raggiungere la convergenza, e cio risulta proibitivo quando devono essere ` analizzati database enormi, con milioni di dati. In letteratura sono presenti fin dal 1998 [1] alcuni algoritmi che estendono il popolare metodo K-medie all’analisi di big data, ma essi assumono che i vettori aleatori che vengono analizzati e raggruppati abbiano componenti non correlate. Purtroppo tale condizione non e soddisfat- ` ta in molti casi pratici. Qui proponiamo un’estensione dell’algoritmo di Bradley, Fayyad e Reina all’analisi di grandi moli di dati multivariati, con componenti correlate fra loro.

A clustering algorithm for multivariate big data with correlated components=Un algoritmo di clustering per big data multivariati con componenti correlate / G. Aletti, A. Micheletti (PROCEEDINGS E REPORT). - In: Conference of the Italian Statistical Society : Proceedings / [a cura di] A. Petrucci, R. Verde. - Firenze : Firenze University Press, 2017. - ISBN 9788864535210. - pp. 31-36 (( convegno Statistics and Data Science: new challenges, new generations tenutosi a Firenze nel 2017.

A clustering algorithm for multivariate big data with correlated components=Un algoritmo di clustering per big data multivariati con componenti correlate

G. Aletti;A. Micheletti

2017

Abstract

Common clustering algorithms require multiple scans of all the data to achieve convergence, and this is prohibitive when large databases, with millions of data, must be processed. Some algorithms to extend the popular K-means method to the analysis of big data are present in literature since 1998, but they assume that the random vectors which are processed and grouped have uncorrelated components. Unfortunately this is not the case in many practical situations. We here propose an extension of the algorithm of Bradley, Fayyad and Reina to the processing of massive multivariate data, having correlated components.

Scheda breve

Scheda completa

Scheda completa (DC)

	Abstract
	
				I comuni algoritmi di clustering richiedono di esaminare piu volte tutti i ` dati per raggiungere la convergenza, e cio risulta proibitivo quando devono essere ` analizzati database enormi, con milioni di dati. In letteratura sono presenti fin dal 1998 [1] alcuni algoritmi che estendono il popolare metodo K-medie all’analisi di big data, ma essi assumono che i vettori aleatori che vengono analizzati e raggruppati abbiano componenti non correlate. Purtroppo tale condizione non e soddisfat- ` ta in molti casi pratici. Qui proponiamo un’estensione dell’algoritmo di Bradley, Fayyad e Reina all’analisi di grandi moli di dati multivariati, con componenti correlate fra loro.
			
	Parole chiave
	
				big data; clustering; K-means; Mahalanobis distance
			
	Settori scientifico-disciplinari del contributo
	
				Settore MAT/06 - Probabilita' e Statistica Matematica
Settore SECS-S/01 - Statistica
Settore INF/01 - Informatica
			
	Data di pubblicazione
	
				2017
			
	Enti collegati al convegno
	
				Societa' Italiana di Statistica
			
	URL
	
				http://www.fupress.com/catalogo/sis-2017--statistics-and-data-science-new-challenges-new-generations/3407
			
	Centri di ricerca
	
				Centro di Ricerca Interdisciplinare su Modellistica Matematica, Analisi Statistica e Simulazione Computazionale per la Innovazione Scientifica e Tecnologica ADAMSS
			
	Tipologia
	
				Book Part (author)
			
	Appare nelle tipologie:
	
				03 - Contributo in volume

File in questo prodotto:

File	Dimensione	Formato
aletti_492_CON.pdf accesso aperto Descrizione: articolo principale Tipologia: Post-print, accepted manuscript ecc. (versione accettata dall'editore) Dimensione 53.74 kB Formato Adobe PDF Visualizza/Apri	53.74 kB	Adobe PDF	Visualizza/Apri

Pubblicazioni consigliate

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/2434/514187

Citazioni

ND

ND

ND

social impact