Crea sito

I trucchi dell’Invalsi: la validazione delle prove

invalsi-buratino_zpsybgeu6egValidità e validazione delle prove INVALSI

Perché una prova, un test, un quiz possa essere considerato valido è previsto un percorso di validazione che deve essere trasparente, integralmente percorribile, sperimentabile, e falsificabile. Ma questo percorso definito scientifico non può sottrarre le prove al giudizio primario delle persone comuni dei cittadini il cui parere deve orientare i ricercatori a formulare un’ipotesi operativa per la ricerca.

Insomma, genitori, insegnanti e studenti non possono delegare il loro primo giudizio ai tecnocrati di qualsiasi ambiente o livello.

Se per esempio veniamo a sapere che il MIUR ha delegato e appaltato la misurazione della distanza dalla terra di un pianeta scoperto recentemente ad un sarto, avremmo il dovere di dubitare dell’onestà dell’appalto.

Se poi il MIUR chiamato a risponderne adducesse quale motivo dell’assegnazione il fatto che costui (il sarto) ha passato la vita a prendere misure, che vive perennemente con il metro a tracolla….I cittadini dovrebbero assolvere il loro dovere di cacciare il Ministro a calci nel sedere.

La stessa cosa vale per le prove INVALSI, ben vengano i giudizi degli accademici, degli esperti, dei ricercatori, della comunità scientifica, ma la denuncia delle inadeguatezze spetta prima di tutto ai cittadini che pagano il misuratore che offende il loro sapere comune e preleva i soldi dalle loro tasche.

Per questo non cesseremo mai di chiedere a cittadini, studenti, genitori, insegnanti di raccontarci i loro giudizi le loro esperienze INVALSI e non ci stanchiamo di aspettare anche i giudizi dei pedagogisti, matematici, accademici, ricercatori… che vogliano impegnare i loro saperi per accompagnare lo sforzo dei cittadini a fare chiarezza su quale validità abbiano le prove INVALSI, quelle dell’OCSE, quelle Fondo Monetario Internazionale, della Banca d’Italia per conoscere cosa stanno imparando studenti, alunni, i giovani del nostro pianeta.

La validità

Nel rapporto* viene citato un gran numero di sperimentazioni a cui le prove sono state sottoposte, 10.000 per tutti gli ordini di scuole. Ma questo potrebbe semplicemente voler dire che si è proceduto nella scelta delle prove con un percorso “per tentativi ed errori” del tutto autoreferenziale ben lontano dal validare le domande che sono state scelte.

Quel che emerge scorrendo i numerosi capitoli dedicati alle prove sul sito dell’INVALSI, dai quadri di riferimento, alle guide per leggere i fascicoli, ai fascicoli medesimi, si evince che ben poco si sposta negli anni malgrado le numerose critiche internazionali rivolte anche al modello capofila, il PISA-OCSE.

Mettendo a confronto i contenuti di questa mole di materiali con la struttura del fascicoli contenenti i quesiti (facciamo riferimento sempre alla Primaria, classi II e V) ci si accorge che dalle prime prove “pilota” (es Progetto-pilota, as 2002-03) ben poco è cambiato, anzi, la mole di documenti prodotti a latere dei fascicoli sulle due prove di Italiano e Matematica sono un supporto a che nulla cambi.1

Proviamo a dire qualcosa sulla polemica, come si è detto a carattere sovranazionale, sull’attendibilità scientifica dei dati raccolti con le prove standardizzate. Vi accenniamo appena, lasciando a chi è più esperto di noi in materia statistica di esaminare i documenti che citiamo, ci serviamo solo di alcuni elementi comprensibili in modo intuito, di senso comune.

A pagina 19 del rapporto che l‘Invalsi ha pubblicato a commento della sperimentazione effettuata sugli errori rilevanti nella prova di Italiano per l’esame di maturità dell’anno 2009-10, si legge che il modello di analisi dei dati segue “lo sforzo concettuale” di rispondere a due domande:

1. l’insieme dei descrittori (quelli della griglia di rilevazione degli errori) forma un insieme corrente a indicare una generale competenza testuale?

2. l’ordinamento in un continuum dei descrittori è atto a definire “un’elevata competenza testuale”?

La risposta ci vien spiegato con una pletora di formule algebriche e di tavole parametriche, è possibile che sia positiva se sottoponiamo i descrittori alla misura del modello di Rasch. Un modello interno alla più ampia Item Response Theory (IRT), elaborata negli anni ‘50,’60; in alcune slides dell’Istituto a cura del team statistico definita”nuova”.

Semplificando, tale strumento (sempre utilizzato dall’INVALSI anche nel Rapporto 2015 che stiamo commentando) è atto a misurare il “volume” delle abilità di uno studente-rispondente ad un test in relazione al “volume” della difficoltà espressa dal test medesimo (sia complessivamente che per singolo item; altra questione seria il rapporto fra dato parziale e dato totale).

Il matematico Enrico Rogora ricorda che le critiche più benevole all’uso di tale modello, già piuttosto frusto, lo definiscono un modo per tarare il “termometro-test”, sicuramente impreciso, ma comunque capace di fornire una qualche indicazione di massima sullo stato (febbricitante??) del corpo di abilità che si intende misurare 2

Rogora ci aiuta, con arguzia e perizia, a scoprire i limiti del concetto di assoluta oggettività nelle scienze (da Plank a Heisenberg in poi) e a capire perché il modello di Rasch sia un copertina molto stretta atta a farci credere che i test PISA e INVALSI sono, non il termometro, ma la diagnosi certa sul fenomeno osservato.

Il concetto stesso di misura vien messo in discussione; si evidenzia come l’uso di complicati calcoli statistici serva a coprire gli scopi reali della somministrazione dei test ( pag 6). Il modello che dovrebbe oggettivare il test è in realtà una stima, e anche piuttosto imprecisa (pag 10). Le proprietà che si vogliono misurare e comparare statisticamente sono “indirette”, ovvero non individuano un fenomeno isolato come può avvenire in un’analisi di una esperienza di fisica condotta in un laboratorio.

Ciò non significa che siano totalmente inutili, ma deve essere con onestà intellettuale nominato il loro limite. Scrive ancora Rogora, che una misura indiretta di un fenomeno si può rappresentare con l’esempio di qualcuno che voglia “misurare il peso di una persona con una riga storta mentre la persona corre” (pag 12).

In modo più intuitivo, Rogora aggiunge, il Rash si offre alla constatazione che spesso dobbiamo fare quando un medico legge una radiografia: se è bravo a leggere, a interpretare, se può disporre di un’ampia esperienza, ne fa buon uso, sennò rischia di peggiorare lo stato del paziente ( pag 12)

Già Maurizio Lichtner commentando i modelli della IRT evidenziava il limite del Rash proprio sul piano della attendibilità fornita da questo algoritmo ai test sulle competenze, le cui caratteristiche in ogni ambito del sapere sono soggette a una pluralità di fattori difficilmente rientranti nella “misura”, semmai controllabili in modo da correggere via-via l’approccio. La replicabilità di uno stesso test viene considerata altamente rischiosa, proprio a causa della variabilità delle condizioni e dunque proprio del rapporto fra quei due volumi (studente-prova) citati su. (pag 156, infra) 3

Conclusioni provvisorie e un rimando

Proviamo a riflettere brevemente su alcune caratteristiche di forma e di contenuto della prova di Italiano per la II Primaria, rinviando a analisi più dettagliate, a commenti già pubblicati e ad altri futuri contributi.4

Le paginette di apertura dei fascicoli con le indicazione agli alunni ripetono il modello esortativo adottato nel passato (i performativi sono: ”stai affrontando una prova molto speciale, non scostarti dalle istruzioni, lavora da solo e velocemente”).Perfino la grafica resta nel tempo poco modificata5. Le varianti riguardano l’indicazione del numero a lato di ogni riga di testo, alcune finestrelle che riportano l’attenzione al contenuto per facilitare la ricerca della risposta esatta. L’impianto di fondo è sempre il medesimo: storielle prese spesso da antologie di lettura e sempre, sempre, adattate; l’adattamento è funzionale alla esigenza di formulare le domande; esse invitano a convergere su una sola interpretazione.

Nel paragrafo del rapporto relativo alla costruzione delle prove leggiamo che prima della prova standardizzata, gli esperti dell’istituto preparano pre-test da somministrare a campione e, sempre grazie all’applicazione del modello Rasch, scartano le domande inadeguate nella misura del 30%; il 30/40% viene modificato e il resto accettato. Il criterio di valutazione della divergenza è quello delle “prassi consolidate a livello internazionale” che, come abbiamo già detto, sono ampiamente criticate sia per contenuto che per modalità di validazione. Il cerchio si chiude.

Una buona dose di onestà intellettuale, ovvero meno arroganza, vorrebbe che si smettesse di far credere agli insegnanti e alle famiglie che queste prove servono al miglioramento, che sono un valido parametro su cui misurare la capacità dei docenti di “aggiungere valore” al percorso insegnamento-apprendimento. Gli istituti di valutazione nazionale sono commissionati dai Governi, su suggerimento di chi a livello macroeconomico detiene la produzione, la distribuzione della ricchezza anche intellettuale. Schiacciare la scuola pubblica sull’intervento minimo, quello rivolto ai meno abbienti, minimizzare l’intervento dello Stato nella spesa pubblica è, dal secolo scorso, l’obiettivo degli ideologi neoliberisti.

Renata Puleo e Piero Castello

del Gruppo NoINVALSI – Roma

*Sono stati analizzati i seguenti documenti: Rilevazioni Nazionali degli Apprendimenti 2014-2015. Rapporto Risultati; Fascicoli prove Matematica, Italiano, Scuola Primaria, classi II e V; Quadri di riferimento specifici, guide ai fascicoli, griglie di correzione, ecc; più altri documenti citati nel corso della riflessione sempre di fonte INVALSI www.invalsi.it

1 Si vedano nella area prove dell’Istituto i Quadri di riferimento (sostegno teorico all’operazione valutativa), le Guide alla lettura dei Fascicoli che dettano la congruenza fra i quesiti e le Indicazioni Nazionali

2 Rivista on line Roars, E.Rogora I test INVALSI sono scientificamente solidi? I limiti del modello di Rash. 31/07/2014

3 M. Lichtner Valutare l’apprendimento:teorie e metodi. Franco Angeli, Milano, 2004

4 Si vedano i testi relativi al gioco di compilazione sulla prova 2012-13 “La multa” lanciato dal gruppo NoINVALSI; il commento “Le anatre e gli aquiloni dell’INVALSI” a quella del 2013-14 “Veloce come il tuono” ( www.genitoreattivo.workpress.com )

5 Si vedano le modifiche applicate ai fascicoli a decorrere dal 2004-2005 ad oggi