Come misurare l’efficacia di un percorso formativo – Parte 3
Se vogliamo misurare l’efficacia di un percorso di apprendimento attraverso un test, la qualità delle domande e delle opzioni di risposta deve essere fuori discussione. Occorre, inoltre, che il calcolo del punteggio e il livello stabilito per il superamento del test siano una rappresentazione attendibile ed utile delle competenze prese in esame.
Ecco alcuni utili spunti da considerare prima di procedere alla stesura di un test di apprendimento.
Nella seconda parte di questo articolo, attraverso la tassonomia di Bloom, abbiamo visto come formulare le domande per fare in modo che corrispondano a specifici livelli di difficoltà.
Ora vediamo le criticità più frequenti, i fattori che influenzano l’efficacia di un test e alcuni suggerimenti per effettuare la cosiddetta “Item Analysis”.
Livello di difficoltà
La complessità delle domande deve rispecchiare i contenuti trattati e gli obiettivi attesi. Il loro livello di difficoltà, dunque, non deve essere lasciato “al buon senso” ma deve essere in linea con gli obiettivi di apprendimento.
L’argomento è stato ampiamente trattato nella seconda parte di questo articolo.
Chiarezza e semplicità espositiva
Le domande, anche quando trattano argomenti complessi, devono essere formulate in modo chiaro. La verifica dell’apprendimento è una cosa diversa dall’esercizio di lettura e interpretazione di un testo!
L’impegno del learner non deve essere diretto all’interpretazione del significato delle domande o delle relative opzioni di risposta. In caso contrario, ci potremmo trovare di fronte a risultati anomali.
L’applicazione delle comuni regole di scrittura efficace (utilizzare periodi brevi e forma diretta, evitare le doppie negazioni, ecc.) è già sufficiente per fare un modo che il risultato ottenuto non sia influenzato dal fattore “chiarezza”.
Equilibrio delle opzioni di risposta
Il livello di difficoltà di una domanda dipende dal modo in cui viene formulata la domanda ma, molto spesso, anche da come vengono formulate le opzioni di risposta.
Per fare in modo che non vi siano risposte che “saltano all’occhio” perché appaiono palesemente giuste o sbagliate, le opzioni di risposta devono essere tutte plausibili, possibilmente nella stessa misura.
Ad esempio, se un test prevede quattro opzioni di risposta, l’utente che “tira ad indovinare” ha il 25% di probabilità di scegliere la risposta esatta. Ma, se alcune opzioni di risposta sono palesemente sbagliate, questa percentuale può salire in modo considerevole.
Per evitare questa anomalia possiamo effettuare alcune verifiche preliminari:
Leggere solo le domande del test per capire se, in qualche modo, possono contenere indicazioni sulla risposta corretta o sulle opzioni da escludere
Leggere solo le risposte per verificare se le opzioni corrette vengono formulate in modo diverso rispetto a quelle sbagliate (ad esempio, con testi più specifici e dettagliati, riferimenti normativi o procedurali, ecc.)
Fare una prova con utenti esperti per verificare non solo eventuali anomalie nella formulazione delle domande, ma anche il livello di difficoltà e il risultato raggiungibile.
Correttezza dell’indice di attrattività delle opzioni di risposta
Prima di erogare il test alla platea di riferimento, è importante sottoporlo ad un campione eterogeneo di persone per verificare la distribuzione delle risposte attraverso l’indice di attrattività.
Cioè la distribuzione, espressa in percentuale, delle opzioni di risposte fornite dagli utenti.
Se riscontriamo che alcune opzioni sono poco cliccate, ci troviamo di fronte a casi in cui il learner può “andare per esclusione”. Viceversa, se troviamo opzioni scelte con molta frequenza, vuol dire che quelle opzioni hanno un alto indice di attrattività.
In entrambi i casi, occorre rivedere i testi delle risposte poiché, per come sono state formulate, hanno la capacità di guidare in modo determinante le scelte del learner.
In una situazione ideale, l’attrattività delle opzioni non corrette deve essere equamente distribuita.
Risulta, invece, normale che l’indice di attrattività della risposta corretta sia più alto rispetto alle altre. Prendendo in esame le risposte corrette, un indice di attrattività troppo alto o troppo basso ci aiuta a capire quali sono le domande facili o quelle difficili e, di conseguenza, possiamo provvedere a rettificare i contenuti del test.
Criteri di calcolo del punteggio
Il criterio più diffuso per il calcolo del punteggio prevede, generalmente, l’assegnazione di uno specifico punteggio per ogni risposta esatta senza che vengano sottratti punti per le risposte non corrette. In questo modo, però, si lascia spazio alla possibilità di “tirare a indovinare”. Di conseguenza, soprattutto quando un test si compone di poche domande, c’è la possibilità che il risultato sia falsato dal fattore “fortuna”. Per superare questa anomalia, è opportuno inserire una penalizzazione per ciascuna risposta sbagliata. Ad esempio, se ogni domanda contiene 4 opzioni di risposta, potremmo assegnare 1 punto per ogni risposta corretta e sottrarre 0,25 per ogni risposta non corretta. Naturalmente, qualora si voglia adottare questo criterio, bisognerà lasciare aperta la possibilità di non rispondere.
Un’altra soluzione da considerare è quella di assegnare punteggi che variano in relazione al livello di difficoltà o importanza della domanda.
Infine, qualora alcune opzioni di risposta siano parzialmente corrette, possiamo decidere di assegnare punteggi che crescono in relazione alla completezza della risposta.
Soglia di superamento
A che livello posizioniamo l’asticella per il superamento del test?
Nella maggior parte dei casi, viene collocata intorno al 70-80% di risposte corrette ma, spesso, si tratta di una scelta generalmente effettuata “a tavolino”.
Se vogliamo fare in modo che il superamento del test abbia un reale valore, occorre esaminare attentamente la funzione e l’importanza ad esso assegnata.
Ad esempio, una soglia di superamento del 95% sembrerebbe rappresentare una garanzia di eccellenza e, in linea di massima, è così. Ma se il test riguardasse il rilascio di un brevetto di volo per aerei di linea? Sareste disposti a volare con un pilota che ha un margine di errore del 5%?
La soglia di superamento, dunque, deve essere stabilita in relazione al risultato che vogliamo ottenere.
In pratica, si tratta di definire il benchmark di riferimento. Ad esempio, se vogliamo che un consulente junior raggiunga il livello delle competenze possedute da un consulente senior, possiamo sottoporre il test ad un campione di consulenti esperti e vedere qual è il risultato medio. Quel risultato potrà essere assimilato ad un benchmark di riferimento e ci fornirà una valida indicazione sul posizionamento dell’asticella.
A questo punto, dovrebbe essere abbastanza chiaro che stabilire la soglia di superamento “a tavolino” può portare a conclusioni poco attendibili in merito ad efficacia del corso e valutazione delle competenze.
Dopo aver effettuato una solida verifica del test di apprendimento (Item Analysis), potremo confermare l’attendibilità della valutazione e si potrà procedere con la misurazione delle competenze. Lo step finale sarà quello di elaborare gli indicatori di efficacia del percorso formativo e sarà trattato nella quarta parte di questo articolo.