V

Validità – Valido, strumento, dato statistico

Riferito ad uno strumento di misurazione, ad una tecnica o ad una procedura di rilevazione e di analisi, etc., esprime la rispondenza agli scopi per i quali lo strumento è predisposto. Il termine mantiene gli stessi significati anche se riferito al dato statistico, poiché validità del dato significa, sostanzialmente, rispondenza dello stesso agli obiettivi della ricerca per la quale è stato creato e a criteri statistici di attendibiltà e trasparenza. Si veda anche "convalida".

Valore abnorme, anomalo, outlier

Valore estremo di un distribuzione che si caratterizza per essere a-normale. E' talvolta indicato con il termine inglese outlier. Può trattarsi di un dato estremo effettivo oppure di un errore di registrazione. L'individuazione dei valori anomali è spesso preliminare alle elaborazioni statistiche a fini di analisi.

Valore atteso

Risultato dell'applicazione dell'operazione matematica "media" ad una statistica dipendente da dati campionari e avente una distribuzione statistica. Il valore atteso non è necessariamente il più frequente, può addirittura non avere riscontro empirico. Si pensi, ad esempio, ad una variabile che può assumere solo i valori 0 e 1, il cui valore atteso è P, frequenza di possesso dell'attributo, che è un valore compreso tra 0 e 1. Il valore atteso di un dato elementare è la media dei valori osservabili se si realizzassero prove ripetute nelle stesse condizioni osservazionali presso la stessa unità statistica: in assenza di errore sistematico, il valore atteso coinciderà con il valore vero dell'unità.

Valore medio

Classe generale di funzioni della distribuzione di una variabile dati dalla attesa matematica della funzione estesa all'intero campo di variazione della variabile. Il valore medio si esprime comunemente con il simbolo E (expectation).

Valore predittivo, di strumento di misura

Rapporto, spesso presentato in forma percentuale, di unità che effettivamente possiedono un attributo e il numero di unità che lo strumento di misura ha evidenziato come possessori dell'attributo. Il valore predittivo di test si dice "positivo" se riguarda la ricerca di unità che possiedono un attributo, "negativo" se riguarda quelle che non lo possiedono. Per esempio, di un test diagnostico clinico si dice che ha valore predittivo positivo pari a 95% se il 95% dei soggetti che sono risultati positivi al test sono effettivamente malati; si dice che ha valore predittivo negativo 100% se tutti coloro che sono risultati negativi al test sono sani.

Valore rilevato, osservato

Modalità del carattere in esame accertata con la rilevazione su un'unità statistica.

Valore vero

Nel microdato, è la modalità del carattere in esame posseduta dall'unità statistica. Nel macrodato, può essere inteso come una misura esattamente corrispondente a ciò che nella realtà esiste. Il valore vero si considera per definire gli scarti teorici dal vero delle singole osservazioni o delle stime da queste dedotte. Quando si tratti di caratteri qualitativi, il valore vero può essere delineato con minore ambiguità di quello di caratteri quantitativi. Per esempio, è poco ambiguo il sesso, ma non lo stato civile (bisognerebbe precisare "anagrafico", dato che esistono le unioni consensuali), né l'attività economica prevalente (a meno che non si definisca il criterio per stabilire la prevalenza). Per caratteri nominali, lo scostamento del dato osservato dal vero è valutabile solo in termini dicotomici identità/diversità. Per caratteri ordinali, si può valutare lo scostamento in termini di distanza tra i ranghi vero e rilevato. Se il carattere è quantitativo, il valore vero è un valore ideale: la lunghezza di una barretta d'acciaio è continuamente variabile in funzione della temperatura, il rapporto dei sessi nella popolazione presente varia con continuità nel tempo. Quindi, si può parlare di valore vero solo con riferimento ad un determinato istante. Per chi nega che esista un valore vero, esso può essere concepito come un dato astratto, opportunamente definito per definire un grado di importanza degli scarti.

Valori estremi

Valori più grandi o più piccoli di una distribuzione. In senso più generale, l'espressione significa i valori prossimi alla coda di una distribuzione.

Variabile (statistica)

Qualsiasi quantità che varia, ossia che può assumere più valori. Si contrappone in questo senso a costante. Una variabile statistica è una variabile con una specificata distribuzione di frequenza o di probabilità che esprime quanto spesso i valori ammessi appaiono nella situazione descritta. Si denomina per questo anche "variabile casuale".

Variabile chiave

Variabile pubblica presente in un archivio per il quale si sospetta che esista il rischio di violazione del segreto statistico. Affinché il rischio di violazione sia reale, è necessario che la stessa variabile sia contenuta in archivi esterni attraverso i quali si può risalire alle unità statistiche che compongono l'archivio pubblico.

Variabile pubblica

Variabile contenuta in un registro accessibile al pubblico. Può trattarsi delle informazioni anagrafiche sulle persone o sulle famiglie, delle informazioni registrate sul registro delle imprese della CERVED etc. Queste variabili sono considerate per valutare il rischio di violazione del segreto statistico su dati ufficiali. Fra le variabili pubbliche è importante distinguere quelle territoriali: comune, provincia, regione di residenza etc.

Variabile sensibile

Variabile attinente alla sfera strettamente personale del rispondente. Per queste variabili non esiste l'obbligo di risposta. Tra le materie per le quali non vale l'obbligo di risposta, il D.Lgs. 322/1989, all'art. 7, include l'origine razziale, le opinioni politiche e ideologiche, le convinzioni religiose, lo stato di salute, la vita sessuale, le condanne penali subite, ed ogni altra ipotesi prevista da leggi nazionali o accordi internazionali ratificati dall'Italia.

Variabilità

Grado di dispersione delle osservazioni. Si misura di solito con la media degli scarti dei valori osservati attorno a una misura di centralità (scarto quadratico medio e varianza attorno alla media, scarto medio assoluto attorno alla mediana), oppure con una statistica ordinata (scarto o deviazione interquartile, campo di variazione), o anche tra le osservazioni stesse (differenza media di Gini).

Varianza campionaria

Varianza basata sulla rilevazione campionaria, data dalla media del quadrato degli scarti delle osservazioni campionarie dalla media campionaria. La varianza campionaria è una stima distorta della varianza della popolazione. Per stimare correttamente la varianza della popolazione, si dovrà dividere la somma del quadrato degli scarti per n-1, dove n è la dimensione campionaria.

Varianza correlata di risposta

Varianza di uno stimatore affetta da errori (variabili) di risposta tra loro linearmente dipendenti. Le varianze correlate di risposta si identificano con le fonti di errore: (a) la "varianza del rilevatore", originata dal condizionamento esercitato dai rilevatori sulle risposte ottenute nell'indagine, (b) la "varianza del codificatore", originata dall'analogo effetto dei codificatori nel tradurre in codici le risposte rilevate "in chiaro", ossia in forma di discorso, (c) la "varianza del supervisore", funzione del condizionamento esercitato dai supervisori, o dalle persone preposte all'addestramento, sugli addetti alla rilevazione, (d) un "effetto scuola", che si può concepire come l'effetto del condizionamento globalmente esercitato da chi svolge l'indagine sulla struttura di rilevazione. Se si amplia il concetto all'analisi dei dati, si possono individuare altri effetti sulle stime di revisori dei dati, di analisti etc. L'effetto di un operatore addetto alla formazione dei dati si dice correlato perché, facendo variare nello stesso senso gli errori di rilevazione di tutte le unità con cui è entrato in contatto, diretto o indiretto, genera una "correlazione degli errori" delle dette unità. Il concetto, che ha rilevanza apparentemente solo teorica, è di considerevole importanza nella progettazione di indagini, dato che, ad elevati errori di questo tipo, deve corrispondere un contenimento nel "carico di lavoro" per addetto.

Varianza del codificatore

Misura della variabilità indotta sulle stime dall'azione dei codificatori. Ha proprietà statistiche e si calcola in modo analogo alla varianza del codificatore. Per le variabili per cui rilevatore e codificatore coincidono, ossia per una domanda a risposte chiuse, la varianza dovuta all'azione del codificatore si considera un tutt'uno con quella del rilevatore. L'effetto del codificatore si manifesta sulle stime anche se il codificatore è unico. Per misurare la varianza del codificatore si ricorre alla compenetrazione delle assegnazioni dei codificatori o al confronto tra codici di osservazioni ottenuti indipendentemente da più codificatori.

Varianza del rilevatore

Misura della variabilità indotta sulle stime dall'azione dei rilevatori nella fase di raccolta dei dati. Si calcola in base agli scarti quadratici tra il valor medio delle osservazioni ottenute dai singoli rilevatori e la media globale: quanto più i singoli valori medi sono distanti dalla media globale, tanto più si considera elevato l'errore dei rilevatori. Varianza del rilevatore è, dunque, utilizzata come sinonimo di "varianza dei rilevatori". E' una varianza correlata degli errori di risposta. Se, infatti, si denota con [Image]la varianza elementare di risposta, con [Image]il coefficiente di correlazione intra-intervistatore e con n il numero medio di unità osservate da ognuno degli intervistatori impiegati per la raccolta dei dati ("carico di lavoro"), la varianza tra errori di risposta imputabili agli intervistatori si può anche scrivere [Image], da cui si evince che la varianza dovuta ai rilevatori cresce sia a causa della scarsa qualità del lavoro degli intervistatori, sia a causa del carico medio di lavoro. Per misurare la varianza del rilevatore, si può applicare la tecnica della compenetrazione delle assegnazioni dei rilevatori.

Varianza del rispondente

Misura della variabilità indotta sulle stime dall'operato erratico dei rispondenti. E' originata soprattutto da errori di memoria, da approssimazioni e da confusione accidentale nel riportare i dati. Si calcola in funzione degli scarti tra i valori ottenibili in prove ripetute presso lo stesso rispondente e il suo valore vero: quanto più è erratica la risposta data, tanto più sarà elevata la varianza. In un certo senso, questa ipotesi implica l'esistenza di una distribuzione di valori possibili attorno al valor vero di ogni soggetto, tali valori essendo determinazioni casuali del valor vero stesso in condizioni osservazionali casualmente differenti. Per misurare la varianza del rispondente è necessario disporre di almeno due misure dello stesso valore. Le tecniche cui si ricorre sono: la "reintervista" delle persone che hanno collaborato all'indagine principale e la "rilevazione indipendente di più osservatori dello stesso fenomeno".

Varianza di campionamento delle stime

Varianza di una qualsiasi statistica del campione calcolata sull'universo dei campioni associato ad un determinato piano di campionamento. La radice quadrata della varianza di campionamento delle stime di denomina "errore di campionamento".


Varianza di risposta

Parte di varianza di stima dovuta ad errori di rilevazione in una indagine statistica. Compongono la varianza di risposta le varianze dei rispondenti, dei rilevatori, degli eventuali supervisori. La varianza dei rispondenti è di tipo incorrelato, quelle dei rilevatori e dei supervisori sono di tipo correlato. La varianza di risposta costituisce la parte più cospicua della varianza extracampionaria, tanto che le componenti della variabilità di risposta, assieme a quella degli eventuali codificatori di domande in chiaro, sono quelle normalmente considerate nella specificazione della variabilità di natura extracampionaria.

Varianza di stima

Varianza di uno stimatore attorno al proprio valore atteso. E' sinonimo di "varianza globale di stima". E' data dalla somma delle varianze dovute alle singole componenti di variabilità, quella campionaria, quella extracampionaria e la covarianza tra le due componenti. In senso più ampio, l'espressione si intende anche come la varianza degli errori che si commettono nelle ripetizioni di una situazione sperimentale, dove gli errori sono di origine campionaria o di altra fonte.

Varianza elementare di risposta

Elementare, o semplice, o incorrelata, è la varianza di una stima affetta da errori (variabili) di risposta tra loro indipendenti. Dato un insieme di N unità statistiche, la varianza elementare di risposta è il valore medio degli scarti quadratici dell'errore di risposta atteso per le singole unità. Ciò implica che un'osservazione è idealmente ripetibile sotto identiche condizioni essenziali, o, equivalentemente, che un dato elementare ha una precisa, anche se ignota, distribuzione di probabilità
dalla quale, di volta in volta, si trae per un'indagine specifica. Siccome, in una indagine, non è possibile ripetere l'osservazione del campione dato se non svolgendo l'osservazione sotto condizioni che hanno almeno un termine di riferimento diverso, il concetto di ripetibilità va inteso in senso lato.

Varianza extracampionaria

Parte di varianza di stima indotta dalla presenza nei dati di errori extracampionari variabili. Comprende la varianza di risposta o di rilevazione, la varianza dovuta a codifiche di risposte a domande a risposta aperta, la varianza per errori commessi nella fase di memorizzazione dei dati e nella successiva revisione, ed altro ancora inerente al processo di formazione dei dati. Si tratta di una varianza che accompagna ogni stima, anche quelle basate su rilevazioni esaustive.

Varianza relativa

Quadrato del "coefficiente di variazione".

Varianza residua

Parte di varianza di un insieme di dati che rimane dopo la rimozione di qualche effetto sistematico. Misura la parte di variabilità non spiegata da modelli interpretativi della variabilità della grandezza in esame.

Variazione stagionale

In una serie temporale, è una oscillazione che si ipotizza essere effetto delle stagioni dell'anno, come le variazioni stagionali della piovosità. Talvolta l'espressione è utilizzata nel senso più ampio di oscillazioni generate da influenze esterne, come i comportamenti d'acquisto delle famiglie. Tutte le variazioni a carattere nettamente periodico sono di tipo analogo, e il periodo può essere la settimana (variazioni giornaliere), il giorno (variazioni orarie) etc.

Variogramma

Rappresentazione grafica simile al correlogramma che mostra la funzione delle variazioni seriali in ordinata.