Quando la statistica basata sulla probabilità si trova ad affrontare situa-zioni complesse e/o forzatamente ‘difficili’ (numero limitato di casi, gruppi disomogenei e con elevata varianza interna, scarse possibilità di controllo degli errori di misurazione e di campionamento), la potenza diminuisce riducendo la possibilità di attendibile verifica delle ipotesi di ricerca. L’uso delle simulazioni - come ad esempio nei metodi MonteCarlo - e in particolare delle reti neurali artificiali (RNA), da tempo ha cercato di supplire a queste difficoltà; già nel 1995 il modulo Neural Connection del software SSPS prometteva “un migliore riconoscimento dei modelli dall’esperienza, adattati anche a situazioni non lineari e mutevoli nel tempo”. Le reti possono trarre informazioni dai data-base naturali, ipotizzare modelli a partire da essi, simulare condizioni ottimali del date-base stesso, verificare in approssimazioni continue di apprendimento la robustezza dei modelli proposti. Viene presentata una verifica empirica su un data-base relativo a test sull’immaginazione mentale e altre variabili cognitive (percezione visuo-spaziale, memoria) in gruppi di anziani differenziati - in modo forzatamente non omogeneo - per età, grado di istruzione, presenza e grado di decadimento cognitivo; le analisi statistiche tradizionali sono confrontate con quelle derivanti da modelli basati sulle RNA, che sono in grado di apprendere un modello generale dal quale è possibile dedurre grandi numeri di replicazioni simulate che, senza alterare la composizione interna dei campioni, possono aumentare la potenza delle analisi multivariate rispetto al database di partenza. In questo contesto è stata addestrata tramite back-propagation una RNA di tipo “a cascata”, dove oltre che tramite il classico strato interno gli input sono direttamente collegati ai neuroni di output. Il modello appreso da questa RNA è stato poi usato per generare un nuovo database di 100.000 casi, rispettando la distribuzione di quello originale rispetto alle variabili indipendenti considerate. Lo studio ha dimostrato che le statistiche (Analisi Discriminante, Multidimensional Scaling) applicate a database generati mediante modelli simulativi portano a risultati diversi da quelli ottenuti sul database iniziale, in genere con migliore controllo dell’errore di campionamento e misurazione, e quindi con una migliore validità delle possibili inferenze e generalizzazioni. Si conferma l’utilità delle simulazioni, e delle reti neurali in particolare, per mettere a punto strategie di modellizzazione e verifica al fine di valutare somiglianze e differenze relative alle molteplici variabili; analisi complementari alle statistiche tradizionali, e si auspica - nel prosieguo della ricerca - anche alternative ad esse.
Le reti neurali possono aiutare la statistica in situazioni ‘difficili’?
DI CORRADO, DONATELLA;GUARNERA, MARIA ANTONELLA ELISABETTA;
2014-01-01
Abstract
Quando la statistica basata sulla probabilità si trova ad affrontare situa-zioni complesse e/o forzatamente ‘difficili’ (numero limitato di casi, gruppi disomogenei e con elevata varianza interna, scarse possibilità di controllo degli errori di misurazione e di campionamento), la potenza diminuisce riducendo la possibilità di attendibile verifica delle ipotesi di ricerca. L’uso delle simulazioni - come ad esempio nei metodi MonteCarlo - e in particolare delle reti neurali artificiali (RNA), da tempo ha cercato di supplire a queste difficoltà; già nel 1995 il modulo Neural Connection del software SSPS prometteva “un migliore riconoscimento dei modelli dall’esperienza, adattati anche a situazioni non lineari e mutevoli nel tempo”. Le reti possono trarre informazioni dai data-base naturali, ipotizzare modelli a partire da essi, simulare condizioni ottimali del date-base stesso, verificare in approssimazioni continue di apprendimento la robustezza dei modelli proposti. Viene presentata una verifica empirica su un data-base relativo a test sull’immaginazione mentale e altre variabili cognitive (percezione visuo-spaziale, memoria) in gruppi di anziani differenziati - in modo forzatamente non omogeneo - per età, grado di istruzione, presenza e grado di decadimento cognitivo; le analisi statistiche tradizionali sono confrontate con quelle derivanti da modelli basati sulle RNA, che sono in grado di apprendere un modello generale dal quale è possibile dedurre grandi numeri di replicazioni simulate che, senza alterare la composizione interna dei campioni, possono aumentare la potenza delle analisi multivariate rispetto al database di partenza. In questo contesto è stata addestrata tramite back-propagation una RNA di tipo “a cascata”, dove oltre che tramite il classico strato interno gli input sono direttamente collegati ai neuroni di output. Il modello appreso da questa RNA è stato poi usato per generare un nuovo database di 100.000 casi, rispettando la distribuzione di quello originale rispetto alle variabili indipendenti considerate. Lo studio ha dimostrato che le statistiche (Analisi Discriminante, Multidimensional Scaling) applicate a database generati mediante modelli simulativi portano a risultati diversi da quelli ottenuti sul database iniziale, in genere con migliore controllo dell’errore di campionamento e misurazione, e quindi con una migliore validità delle possibili inferenze e generalizzazioni. Si conferma l’utilità delle simulazioni, e delle reti neurali in particolare, per mettere a punto strategie di modellizzazione e verifica al fine di valutare somiglianze e differenze relative alle molteplici variabili; analisi complementari alle statistiche tradizionali, e si auspica - nel prosieguo della ricerca - anche alternative ad esse.I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.