Università Cattolica del Sacro Cuore

2005

Seminario Prof. Marco Riani 01 Dicembre 2005
APPROCCI MODERNI ALL'ANALISI ROBUSTA DI DATI MULTIDIMENSIONALI

Sono disponibili i lucidi del seminario, per ricevere una copia elettronica inviare una mail di richiesta alla Segreteria dip.scienzestatistiche@unicatt.it

Sommario
L’obiettivo del seminario è quello di rivisitare le tradizionali tecniche statistiche per l’analisi di dati multidimensionali ed autocorrelati alla luce di alcune tendenze innovative nella letteratura internazionale, che pongono l’accento sull’importanza della proprietà di robustezza dei metodi, cioè sulla loro capacità di fornire risultati stabili e scientificamente attendibili anche in presenza di valori anomali. I metodi tradizionali (deletion diagnostics) cercano di identificare i valori anomali operando in maniera "backwards" valutando l'anomalia o l'influenza d’una osservazione su un modello statistico solo dopo che esso è stato adattato all'intero data set. Così facendo, però, i metodi tradizionali soffrono d’un grave inconveniente, l'effetto di mascheramento, che si manifesta in presenza di gruppi di outliers e che rende l'influenza individuale di ciascuno di essi molto limitata e dunque non identificabile. Inoltre, in presenza di outlier multipli c’è un aumento esponenziale del numero di modelli da considerare.
Un’alternativa ai metodi backward è costituita dall’utilizzo di stimatori robusti (LMS, MAD, TRIMMED MEAN). Generalmente tali metodi permettono di rilevare gli outlier, però presentano l’inconveniente di sottopesare o tralasciare alcune osservazioni. Inoltre, essi possono fallire completamente se le osservazioni non provengono da un’unica popolazione, ma da più popolazioni distinte.
Lo scopo del seminario è quello di presentare una nuova metodologia statistica nota con il nome di forward search (Atkinson and Riani 2000, Atkinson, Riani and Cerioli, 2004) che combina la robustezza e l’efficienza e consente di cogliere l’effetto inferenziale delle diverse unità statistiche sul modello proposto. Attraverso una combinazione efficace di modellazione statistica e di grafici diagnostici, la forward search costituisce uno strumento potente al fine di individuare la presenza di valori anomali, sia individuali che raggruppati, e di valutare il loro effetto sui risultati delle analisi tradizionali.

Bibliografia
Atkinson A.C. and Riani M. (2000), Robust Diagnostic Regression Analysis, Springer Verlag, New York.
Atkinson A.C., Riani, M. and Cerioli A. (2004), Exploring Multivariate Data With the Forward search, Springer Verlag, New York.

 

Seminario Dott. Scarpa 26 Ottobre 2005
MODELLI DI DATA MINING PER LA PREVISIONE DEL CHURN

Sono disponibili i lucidi del seminario, per ricevere una copia elettronica inviare una mail di richiesta alla Segreteria dip.scienzestatistiche@unicatt.it

Sommario
Uno dei problemi più importanti per il Marketing di un'azienda di telecomunicazioni consiste nella previsione dei clienti che presto decideranno di cambiare gestore ed abbandonare i servizi dell'azienda (churn).
La previsione è, in genere, fatta cercando di sfruttare la maggior parte delle informazioni che le aziende possiedono su ciascun cliente, che oggi sono moltissime e relative a molti aspetti della vita e delle propensione di ogni cliente.
La complessità delle informazioni disponibili porta all'utilizzo di modelli di previsione non lineari. Nel seminario si presenteranno alcuni esempi reali di modellazione della probabilità di disattivazione.

 

Seminario Dott. Spezia 19 Aprile 2005
SERIE TEMPORALI, VARIABILI LATENTI E METODI MCMC

Sommario
Il seminario è strutturato in due parti. Nella prima parte verrà fatta un'introduzione all'inferenza bayesiana per serie temporali, sia lineari che con variabili latenti, e ai metodi MCMC. Nella seconda parte verrà presentato un lavoro in collaborazione con Roberta Paroli riguardante una particolare classe di modelli per serie temporali con variabili latenti: le misture markoviane non omogenee di autoregressioni. Questi modelli sono utilizzati nell'analisi bayesiana della dinamica delle concentrazioni medie orarie di biossido di zolfo.

Riferimento bibliografico
Barndorff-Nielsen O.E., Cox D.R., Klüppelberg C. (a cura di). Complex Stochastic Systems, Chapman & Hall/CRC, Boca Raton, 2001, capitoli 1 e 3.

 

Seminario Dott. Mancuso 17 Marzo 2005
DIFFERENZE TRA LE RETI NEURALI RBF E GLI STIMATORI DI REGRESSIONE DI TIPO KERNEL

Sono disponibili i lucidi del seminario, per ricevere una copia elettronica inviare una mail di richiesta alla Segreteria dip.scienzestatistiche@unicatt.it

Sommario
Le reti neurali Radial Basis Function (RBF) e lo stimatore kernel di Nadaraya-Watson sono strumenti di regressione non parametrica riconducibili ad un'unica espressione. Scopo del seminario è mostrare come, a dispetto di questa circostanza, i due tipi di stimatore possiedono proprietà radicalmente differenti. La discussione partirà dagli stimatori kernel e dai problemi che hanno condotto alla ricerca di strumenti di regressione alternativi come le reti neurali feed-forward. Di queste reti verranno illustrati i principi matematici e statistici di funzionamento e si introdurrà la classe delle reti RBF nella loro versione detta ad apprendimento rapido. Si considera questa classe di particolare interesse in quanto per molti versi esemplare di tutta la famiglia delle reti feed-forward.
Dopo aver richiamato la letteratura al riguardo, saranno presentati alcuni risultati concernenti il comportamento asintotico delle reti RBF e il ruolo svolto dal parametro di ampiezza delle funzioni a base radiale utilizzate. In particolare si farà notare come questo parametro sia soggetto a prescrizioni ben diverse da quelle applicate alla finestra dello stimatore di Nadaraya-Watson alla quale formalmente corrisponde.
Si concluderà il seminario esponendo le implicazioni dei risultati asintotici presentati sulla teoria delle reti neurali e mostrando dei contesti applicativi in cui le reti RBF permettono di ottenere vantaggi significativi rispetto alla regressione kernel.

Riferimenti bibliografici

  1. Gyorfi L., Kohler M., Krzyzak A., Walk H. (2002). A Distribution-Free Theory of Nonparametric Regression, Springer.
  2. Mancuso D. (2004). Le reti neurali RBF: legami e differenze con i metodi kernel. In Atti Convegno MAF 2004 - Salerno, Università degli studi di Salerno, edizioni Cusl.
  3. Mancuso D. (2004). Rates of convergence for fast learning RBF neural nets. In Atti XLII Riunione Scientifica SIS, Università degli studi di Bari, CLEUP.

Seminario Prof. Frosini 17 Febbraio 2005
DUE ARGOMENTI COLLEGATI ALLA TEORIA DI NEYMAN-PEARSON: CONTENUTO INFORMATIVO DI UN ESPERIMENTO, E PARADOSSO DI JEFFREYS-LINDLEY

Sommario
Il primo argomento riguarda l'informazione contenuta in un esperimento. Dopo un breve accenno alla comparabilità ordinale degli esperimenti, vengono considerate dapprima le due misure di informazione più note, quella proposta da Fisher e quella proposta da Kullback-Leibler. Almeno per i casi più comuni, in cui si richiede di eseguire una comparazione di due esperimenti alla volta, emerge la superiorità della coppia (alfa, beta) delle due probabilità di errore nell'impostazione di Neyman-Pearson, a causa del chiaro significato operativo di tali indici.
Il secondo argomento riguarda il c.d. paradosso di Jeffreys-Lindley. Nel caso di un'ipotesi nulla puntuale si può mostrare che, se associamo una probabilità positiva a tale ipotesi, nell'impostazione bayesiana dell'inferenza le probabilità a posteriori possono assumere valori molto contrastanti con le probabilità di errore dell'impostazione di Neyman-Pearson. Viene argomentato che tali risultati sono prodotti semplicemente a causa delle assunzioni assurde che sono state fatte nell'impostazione bayesiana; è infatti mostrato, al contrario, che partendo da assunzioni ragionevoli riguardo a ipotesi intervallari (non puntuali) si possono ottenere probabilità a posteriori perfettamente compatibili con l'impostazione di Neyman-Pearson (sia pure tenuto conto che tali comparazioni richiedono molta cautela, dato che le due impostazioni a confronto sono radicalmente diverse sia rispetto alle assunzioni di partenza sia rispetto agli scopi dell'inferenza).

 

Seminario Dott. Marozzi 27 Gennaio 2005
CONTROLLO DI IPOTESI SUL PARAMETRO DI POSIZIONE MEDIANTE METODI NONPARAMETRICI BI-ASPETTO

Sommario
Pesarin, (2001) ha proposto un'innovativa metodologia per lo studio di complessi problemi di verifica di ipotesi multivariate. La flessibilità della metodologia di Pesarin permette di affrontare proficuamente anche problematiche di tipo multi-aspetto.
Marozzi, (2004) ha recentemente proposto una procedura nonparametrica per il confronto tra parametri di posizione basata sulla teoria di Pesarin. Questa procedura si rivela più potente dei metodi tradizionali nel contesto delle distribuzioni a coda pesante e/o con forte asimmetria.
Sarà oggetto di presentazione il metodo originalmente proposto per confrontare due campioni e la sua estensione a problemi di confronto multicampionario. Verranno inoltre discusse tre applicazioni a dati reali nei campi della statistica economica, medica e industriale.

Bibliografia essenziale

  1. M. Marozzi (2004), A Bi-Aspect Nonparametric Test for the Two-Sample Location Problem, Computational Statistics and Data Analysis, 44, p. 639-648.
  2. M. Marozzi (2004), A Bi-Aspect Nonparametric Test for the Multi-Sample Location Problem, Computational Statistics and Data Analysis, 46, p. 81-92.
  3. F. Pesarin (2001) Multivariate permutation tests with applications in biostatistics, John Wiley, Chichester.