Si considera un coefficiente di validità pari a 0 8. Caratteristiche della determinazione della validità di un test pedagogico. Domande e compiti

Per calcolare un indicatore quantitativo - il coefficiente di validità - i risultati ottenuti utilizzando la tecnica diagnostica vengono confrontati con i dati ottenuti dal criterio esterno delle stesse persone. Vengono utilizzati diversi tipi di correlazione lineare (secondo Spearman, secondo Pearson).

Quante materie sono necessarie per calcolare la validità? La pratica ha dimostrato che non dovrebbero essercene meno di 50, ma più di 200. Sorge spesso la domanda, quale dovrebbe essere il valore del coefficiente di validità affinché sia ​​considerato accettabile? In generale, si osserva che è sufficiente che il coefficiente di validità sia statisticamente significativo. Un coefficiente di validità di circa 0,20-0,30 è riconosciuto come basso, 0,30-0,50 come medio e oltre 0,60 come alto.

Ma, come sottolinea A. Anastasi (1982), K.M. Gurevich (1970) e altri, non è sempre corretto utilizzare la correlazione lineare per calcolare il coefficiente di validità. Questa tecnica è giustificata solo quando è dimostrato che il successo in alcune attività è direttamente proporzionale al successo nell'esecuzione di un test diagnostico. La posizione dei testologi stranieri, in particolare quelli coinvolti nell'idoneità professionale e nella selezione professionale, si riduce molto spesso al riconoscimento incondizionato che colui che ha completato il maggior numero di compiti nel test è più adatto alla professione. Ma può anche essere che per avere successo in un'attività, devi avere una proprietà a livello del 40% della soluzione di test. Un ulteriore successo nel test non conta più per la professione. esempio illustrativo dalla monografia di KM Gurevich: il postino deve saper leggere, ma che legga a velocità normale oa velocità molto elevata, non ha più significato professionale. Con una tale correlazione tra gli indicatori della metodologia e il criterio esterno, il modo più adeguato per stabilire la validità può essere il criterio delle differenze.

È possibile anche un altro caso: un livello di proprietà superiore a quello richiesto dalla professione interferisce con il successo professionale. Quindi F Taylor ha scoperto che i lavoratori più sviluppati nella produzione hanno una bassa produttività del lavoro. Cioè, il loro alto livello sviluppo mentale impedisce loro di essere produttivi. In questo caso, l'analisi della varianza o il calcolo dei rapporti di correlazione sarebbero più adatti per calcolare il coefficiente di validità.

Come ha dimostrato l'esperienza dei testologi stranieri, nessuna procedura statistica è in grado di riflettere pienamente la diversità delle valutazioni individuali. Pertanto, un altro modello viene spesso utilizzato per dimostrare la validità dei metodi: le valutazioni cliniche. Questa non è altro che una descrizione qualitativa dell'essenza dello studiato


proprietà. In questo caso noi stiamo parlando sull'uso di tecniche che non si basano su elaborazioni statistiche.

Esistono diversi tipi di validità a causa delle peculiarità dei metodi diagnostici, nonché dello stato temporaneo del criterio esterno In molte opere (A Anastasi, 1982; L.F. Burlachuk, S.M. Morozov, 1989; KM. Gurevich, 1970; B.V. Kulagin, 1984; V Cherny, 1983 ; " Psicodiagnostica generale", 1987, ecc.) sono spesso chiamati come segue:

1. Validità "per contenuto". Questa tecnica è utilizzata principalmente nei test.
conquiste. In genere, i test di conseguimento non includono tutto il materiale che
gli studenti sono passati, e parte della sua piccola parte (3-4 domande). È possibile essere
fiducioso che le risposte corrette a queste poche domande indicano
comprensione di tutto il materiale. Questo è ciò che dovrebbe rispondere il controllo di validità.
contenuto. Per fare questo, un confronto di successo sul test con esperto
valutazioni degli insegnanti (basate su questo materiale). Validità anche "per contenuto".
adatto per test basati su criteri. A volte questa tecnica è chiamata
validità logica.

2. Validità "per simultaneità", o validità attuale, determinata con
utilizzando un criterio esterno, in base al quale le informazioni vengono raccolte contemporaneamente
esperimenti secondo il metodo testato. In altre parole, i dati vengono raccolti
prestazioni fino ad oggi durante il periodo di prova,
prestazioni nello stesso periodo, ecc. I risultati del successo sono correlati ad esso
per prova.

3. Validità "predittiva".(un altro nome è "prognostico"
validità). È anche determinato da un criterio esterno abbastanza affidabile, ma
le informazioni su di esso vengono raccolte qualche tempo dopo il test. esterno
il criterio è solitamente espresso in alcune valutazioni della capacità di una persona di
il tipo di attività per la quale è stato selezionato in base ai risultati della diagnostica
prove. Sebbene questa tecnica sia più coerente con il compito delle tecniche diagnostiche -
previsione del successo futuro, è molto difficile da applicare. Precisione delle previsioni
è inversamente correlato al tempo dato per tale previsione.
Più tempo passa dopo la misurazione, maggiore è il numero di fattori
devono essere presi in considerazione quando si valuta il significato prognostico della tecnica. Tuttavia, tenere in considerazione
tutti i fattori che influenzano la previsione sono quasi impossibili.

4. Validità "retrospettiva".È determinato in base ai criteri
che riflette un evento o uno stato di qualità nel passato. Può essere utilizzata
per ottenere rapidamente informazioni sulle capacità predittive della tecnica. Sì, per
verificare in che misura corrispondono buoni punteggi in una prova attitudinale
apprendimento rapido, puoi confrontare i voti passati, passati
pareri di esperti, ecc. nelle persone con alto e basso al momento
indicatori diagnostici.

Nel presentare i dati sulla validità della metodologia sviluppata, è importante specificare esattamente quale tipo di validità si intende (per contenuto, per simultaneità, ecc.). È inoltre auspicabile riportare informazioni sul numero e sulle caratteristiche dei soggetti sui quali è stata effettuata la convalida. Tali informazioni consentono al ricercatore che utilizza la tecnica di decidere quanto sia valida questa tecnica per il gruppo a cui appartiene


che intende usarlo. Come per l'affidabilità, va ricordato che una tecnica può avere alta validità in un campione e bassa validità in un altro. Pertanto, se il ricercatore prevede di utilizzare la metodologia su un campione di soggetti significativamente diverso da quello su cui è stato effettuato il test di validità, deve rieseguire tale test. Il coefficiente di validità riportato nel manuale è applicabile solo a gruppi di argomenti simili a quelli sui quali è stato determinato.

Letteratura

Anastasi A. Test psicologici "In 2 libri / Sotto la direzione di K.M. Gurevich, V. I. Lubovsky M., 1982. Libro 1.

Gurevich K.M.O affidabilità degli indicatori psicofisiologici // Problemi di psicofisiologia differenziale M., 1969 T VI. C 266-275.

Gurevich KM Affidabilità test psicologici// Diagnostica psicologica I suoi problemi e metodi M, 1975 C 162-176.

Gurevich KM Statistiche: l'apparato di prova della diagnostica psicologica // Problemi di diagnostica psicologica Tallinn 1977. P 206-225

Gurevich K.MCh^o tale diagnostica psicologica M., 1985.

DIAGNOSTICA DELLO SVILUPPO MENTALE E DELLE ABILITÀ GENERALI

§ 1. SVILUPPO MENTALE E INTELLIGENZA

Lo sviluppo mentale è caratterizzato da un insieme di conoscenze, abilità e un insieme di azioni mentali che si sono formate nel processo di acquisizione di questa conoscenza. Questa è la comprensione generalmente accettata dello sviluppo mentale nella psicologia russa. In sostanza, lo sviluppo mentale è una caratteristica dei modi, delle forme e dei contenuti del pensiero umano.

La psicologia e la pedagogia moderne dimostrano in modo convincente che il livello di attività mentale è determinato dal contenuto delle conoscenze e delle abilità che l'insegnante fornisce agli studenti (M.N. Shardakov, 1963, V.V. Davydov, 1986). Non solo il volume è importante, ma anche la qualità delle conoscenze, ovvero la loro profondità, significatività e dinamismo. La natura della conoscenza acquisita determina anche la qualità delle azioni mentali padroneggiate. Il livello di sviluppo mentale è la base, la base per l'assimilazione di nuove conoscenze e abilità, l'emergere e il funzionamento di nuove azioni mentali. Secondo K.M. Gurevich e E.I. Gorbacheva (1991), uno dei segni dello sviluppo mentale dovrebbe essere considerato il suo orientamento qualitativo intrinseco, la selettività in relazione a varie aree della teoria e della pratica, che si manifesta nello sviluppo di vari tipi di pensiero: linguistico, scienze naturali, matematico. Ma la maggior parte caratteristica comune il livello di sviluppo mentale è, tuttavia, la preparazione al funzionamento del pensiero all'interno dello standard socio-psicologico relativo all'età. In altre parole, il livello di sviluppo mentale dovrebbe riflettere principalmente la caratteristica più tipica, generale caratteristiche dell'età attività mentale, che riguarda sia il volume e la qualità delle conoscenze e abilità, sia lo stock di determinate azioni mentali.


A questo proposito, il problema dello sviluppo mentale si fonde con il problema dell'intelligenza, o capacità mentale generale. L'intelligenza non è la somma della conoscenza e delle operazioni mentali, ma ciò che contribuisce alla loro riuscita assimilazione. Il livello di sviluppo mentale raggiunto da un individuo dipende dalle sue capacità intellettuali. Pertanto, non si può non essere d'accordo con la giusta affermazione di N.S. Leites che "lo sviluppo mentale non è qualcosa di esterno in relazione alle capacità. La vicinanza interna dello sviluppo mentale e delle capacità mentali non può essere messa in dubbio" (NS Leites, 1960).

Ma qualcos'altro è indubbio: il livello di sviluppo mentale non dipende solo dall'intelligenza, è determinato da molti fattori, come le condizioni di vita, le caratteristiche Istituto d'Istruzione, metodi di insegnamento, ecc. Nella psicologia domestica esiste un'intera linea di ricerca che mostra una stretta relazione tra il livello di sviluppo mentale e il contenuto della formazione, nonché la natura dei metodi educativi (V.V. Davydov, 1972, 1986; A.Z. Zak, 1979, 1984). Ad esempio, la stessa conoscenza può causare un diverso tipo di pensiero dello studente (empirico o teorico), tutto dipende dall'organizzazione processo educativo(AZ Zak, 1984).

Il ruolo del metodo di insegnamento nella formazione del pensiero è evidenziato da studi relativi alla teoria della formazione graduale delle azioni mentali. Nelle opere basate su questa teoria vengono presentati metodi sviluppati teoricamente e metodicamente per lo sviluppo pianificato e controllato del pensiero (NF Talyzina, 1975).

Quindi, se in passato non insegnavano a pensare o lo facevano più o meno inconsciamente, non intenzionalmente, credendo che il pensiero o esiste o non esiste, e il livello di attività mentale non dipende dalla formazione, oggi gli psicologi progressisti e gli educatori mostrano che il pensiero produttivo può essere insegnato.

In connessione con questo problema, sorge spontanea la domanda sul rapporto tra lo sviluppo mentale e il concetto di "capacità di apprendimento". Quali entità psicologiche riflettono questi termini, uguali o differenti?

Il problema della capacità di apprendimento degli scolari è stato approfondito nel laboratorio di N.A. Menchinskaja. ZI Kalmykova, scegliendo il tasso di avanzamento come indicatore principale, ha scoperto che maggiore è il livello di sviluppo, maggiore è il tasso di avanzamento, ad es. apprendibilità (1968). Successivamente, Kalmykova ha iniziato a identificarlo con le capacità mentali, che, a nostro avviso, sono illegali, poiché l'apprendimento dipende troppo dai metodi e dai mezzi di insegnamento, dalla personalità dell'insegnante, ecc. Inoltre, l'apprendimento non può essere identificato con il livello di sviluppo mentale. NS Leites, sulla base della propria ricerca, è giunto alla conclusione che se il livello di sviluppo mentale degli scolari aumenta dai gradi junior a quelli senior, l'apprendimento non progredisce in modo simile (1971). Al contrario, la capacità di apprendimento degli studenti delle scuole elementari per certi aspetti supera la capacità di apprendimento degli studenti delle classi successive. Pertanto, è impossibile valutare il livello di sviluppo mentale di un bambino sulla base della sua capacità di apprendimento, senza tener conto delle caratteristiche dell'età degli individui.

Da tutto quanto sopra discende la conclusione circa l'illegalità dell'identificazione dei concetti di "livello di sviluppo mentale", "intelligenza" e "capacità di apprendimento". Diagnosi di questi fenomeni psicologici dovrebbe anche essere diverso.


Ma in pratica, la diagnosi di sviluppo mentale è nata come una prova di intelligenza e si è sviluppata in questo senso per tutta la prima metà del 20° secolo. Le prove intellettuali erano una continuazione delle scale Binet-Simon, discusse nel cap. IO.

§ 2. DIAGNOSTICA DEL TEST DI LIVELLO INTELLETTUALE D WEKSLER

L'adattamento di maggior successo e praticabile dei test Binet-Simon, chiamato scala Stanford-Binet, è servito per molti anni come unico strumento per misurare l'intelligenza ed è stato anche utilizzato come criterio per la validità di nuovi test di intelligenza. Ciò spiega in gran parte il fatto che il QI è diventato un simbolo di intelligenza piuttosto che un punteggio in un particolare test. Anche la relativa stabilità del QI, stabilita da test ripetuti sugli stessi gruppi di individui dopo un certo periodo di tempo, ha svolto il suo ruolo, il motivo per cui verrà discusso in seguito.

Soffermiamoci su un altro tipo di test individuali progettati per gli stessi scopi della scala Stanford-Binet. Nel 1939 fu pubblicata la prima forma di bilancia di David Wexler, nota come Wechsler-Belleview Intelligence Scale. Era inteso per testare gli adulti. Presentava una serie di carenze metodologiche (questo riguardava la dimensione e la rappresentatività del campione normativo e l'affidabilità dei sottotest) ed è stato successivamente rivisto. Nel 1955 fu pubblicata una delle ultime Adult Intelligence Scales (WAIS). Conteneva 11 sottotest. 6 sottotest costituivano la scala verbale e 5 - la scala dell'azione. La scala verbale includeva sottotest su consapevolezza, comprensione, risoluzione di problemi aritmetici, ricerca di somiglianze, memorizzazione di numeri e identificazione vocabolario. La scala dell'azione consisteva in sottotest "Simboli numerici", "Completamento dell'immagine", "Costruzione del blocco", "Disposizione dell'immagine", "Assemblaggio dell'oggetto".

Quando si standardizzava la scala di Wechsler, il campione normativo era composto da 1700 soggetti con un numero uguale di uomini e donne. I soggetti di età compresa tra 16 e 64 anni sono stati suddivisi in 7 livelli di età. Nella compilazione del campione, i ricercatori si sono basati sui dati del censimento statunitense del 1950. Si è tenuto conto della distribuzione proporzionale della popolazione per aree geografiche, appartenente alla popolazione urbana o rurale, alla razza bianca o di colore, al livello di istruzione e sono state prese in considerazione anche la professione. Ad ogni livello di età, sono stati inclusi nel campione un maschio e una femmina in un istituto per ritardati mentali.

Ulteriori norme sono state stabilite per gli anziani testando un campione di 475 anziani sulla sessantina provenienti da una tipica città del Midwest. I QI standard sono stati fissati per ciascuna età, con una media di 100 e una a di 15. I punteggi di affidabilità della scala sono alti, da 0,93 a 0,97 (a seconda delle scale e dei singoli sottotest). La validità stabilita dalla correlazione con i test Stanford-Binet è di circa 0,87 e la validità per criterio esterno (con voti universitari) è di circa 0,40-0,50.

Oltre alle bilance per adulti, Veksler ha creato bilance per bambini (da 6,0 a 15 anni 11 mesi). L'ultima edizione del WISC è stata pubblicata nel 1974. Comprendeva 12 sottotest. Rispetto alla scala per adulti, il test per bambini include un ulteriore sottotest "Labirinti".


La standardizzazione è stata effettuata su un campione di 100 ragazzi e 100 ragazze per ogni intervallo annuale; la dimensione totale del campione era 2.200. È stato selezionato con la stessa attenzione del censimento statunitense del 1970 come lo era per gli adulti. Il valore medio degli indicatori per ciascuna delle scale e per test completo- 100 io= 15.

Gli indicatori di validità erano coefficienti di correlazione ottenuti a seguito del confronto con gli indicatori di performance del test Stanford-Binet. Variavano da 0,6 a 0,73. I coefficienti di affidabilità secondo il metodo di retest per la scala verbale erano 0,93, per la scala di azione - 0,90, per il fondo scala - 0,95.

Veksler ha anche creato una scala per bambini in età prescolare e scolari più piccoli (dai 4 ai 6,5 anni). Questa scala è stata pubblicata nel 1967. Si compone di 11 sottotest, 8 dei quali sono versioni leggere e adattate degli articoli WISC, e i restanti 3 sono stati sviluppati in sostituzione dei sottotest WISC che non erano adatti per un motivo o per l'altro. Sulla scala verbale, un tale nuovo sottotest è stato il sottotest "Frasi" (un test di memoria in cui il bambino è tenuto a seguire lo sperimentatore nel ripetere ogni frase che pronuncia). Il nuovo sottotest "Animal House" è simile al sottotest "Number Symbols". Il sottotest "Diagrammi geometrici" richiede al bambino di copiare 10 semplici disegni.

La standardizzazione è stata eseguita con la stessa attenzione delle altre bilance Wexler. La dimensione del campione di riferimento era di 1200 bambini.

Il campione è stato stratificato rispetto al censimento statunitense del 1960. Il QI standard aveva una media di 100 e una deviazione standard di 15. I coefficienti di affidabilità del test erano 0,86 per la scala verbale, 0,89 per la scala di azione e 0,92 per la scala completa. La validità è stata determinata dalla correlazione con il test Stanford-Binet; i coefficienti di correlazione sulla scala verbale erano 0,76, per la scala d'azione - 0,56. Il fattore di fondo scala è 0,75.

Quindi, attualmente ci sono tre forme di scale di Wechsler. Tutti loro sono caratterizzati da alti indicatori formali. Queste scale differiscono dai test di Stanford-Binet in alcuni modi importanti:

1) i compiti dello stesso tipo in questi test non sono raggruppati per livelli di età, ma
combinati in sottoprove e disposti in ordine di difficoltà crescente;

2) i sottotest sono divisi in verbali (combinati in una scala verbale) e
azioni (combinate in una scala di azioni); per ogni scala separatamente
Il QI è calcolato.

Oltre a utilizzare le scale Wechsler per misurare l'intelligenza generale, vengono utilizzate anche come ausilio per la diagnosi psichiatrica.

Considera un altro test di intelligenza, classificato come gruppo. § 3. PROVA R. AMTHAUER

Uno dei test di gruppo più famosi e ampiamente utilizzati nei paesi di lingua tedesca è il Rudolf Amthauer Intelligence Structure Test. È stato creato nel 1953 (l'ultima edizione è stata realizzata nel 1973) e ha lo scopo di misurare il livello di sviluppo intellettuale di persone di età compresa tra 13 e 61 anni.


Il test ha buoni indicatori metodologici: coefficiente di affidabilità del test (intervallo 1 anno) - 0,83-0,91; coefficiente di forme parallele - 0,95; affidabilità di parti del test (secondo il metodo "splitting") - 0,97. Validità, determinata dal collegamento con il rendimento scolastico, - 0,46; con valutazioni di esperti del livello di sviluppo intellettuale - 0,62.

La standardizzazione del test è stata effettuata su un campione di 4076 soggetti, la media dei punteggi grezzi (primari) era 82. Dopo la standardizzazione, la nuova media era 100, o = 10.

Il test è stato sviluppato principalmente per diagnosticare il livello di abilità generali in relazione ai problemi della psicodiagnostica professionale. Nel crearlo, R. Amthauer è partito dal concetto che l'intelletto è una sottostruttura specializzata nella struttura integrale della personalità ed è strettamente correlato ad altre componenti della personalità, come le sfere volitive ed emotive, gli interessi e i bisogni.

L'intelletto era inteso da Amthauer come l'unità di determinate capacità mentali, manifestate in varie forme di attività. Nel test, ha incluso compiti per diagnosticare le seguenti componenti dell'intelligenza: verbale, di conteggio e matematica, spaziale, mnemonica.

Il test si compone di nove sottotest, ognuno dei quali mira a misurare diverse funzioni dell'intelletto. Sei sottotest diagnosticano la sfera verbale, due - immaginazione spaziale, uno - memoria. In tutti i gruppi di attività, ad eccezione di 4-6 sottotest, vengono utilizzate attività di tipo chiuso

Sottoprova 1. La selezione logica è uno studio del pensiero induttivo, del senso del linguaggio. Il compito del soggetto è completare la frase con una delle parole date. Esempio di attività: è l'opposto del concetto di "lealtà".

e amore; b) odio; c) amicizia; d) tradimento; d) inimicizia.

Sottoprova 2. Determinazione dei tratti comuni: lo studio della capacità di astrarre, generalizzare, operare con concetti verbali Nei compiti vengono proposte cinque parole di cui quattro unite da una certa connessione semantica e una superflua. Questa parola dovrebbe essere evidenziata nella risposta.

Esempio: a) disegno; b) un'immagine; c) grafica; d) scultura; e) pittura.

Sottotest 3. Analogie: analisi delle capacità combinatorie. Tre parole sono offerte nei compiti, c'è una certa connessione tra la prima e la seconda. Dopo la terza parola - un trattino. Delle cinque opzioni allegate all'attività, devi scegliere una parola da associare alla terza allo stesso modo delle prime due.

Esempio: legno - progettare, ferro -?

a) coniare; b) piegare; c) versare; d) macinare; d) fucinare.

Sottotest 4. Classificazione: valutazione della capacità di esprimere un giudizio, generalizzare Il soggetto del test deve indicare due parole concetto generale Esempio pioggia - neve La risposta corretta è la parola "precipitazioni".


Sottoprova 5. Compiti per l'account: valutazione del livello di sviluppo del pensiero matematico pratico, formazione di abilità matematiche. Esempio - Quanti chilometri percorrerà un treno merci in 7 ore se la sua velocità è di 40 km/h?

Sottotest 6. Serie di numeri: analisi del pensiero induttivo, capacità di operare con i numeri. Nei compiti era richiesto di stabilire la regolarità della serie numerica e continuarla.

Esempio - 6, 9, 12, 15, 18, 21, 24, ?

Sottoprova 7. La scelta delle figure: lo studio dell'immaginazione spaziale, le capacità combinatorie. I compiti sono divisi in parti figure geometriche. Quando scegli una risposta, dovresti trovare una carta con una cifra intera, che corrisponde alle parti divise.

Sottotest 8. Compiti con i cubi: lo stesso viene esaminato nel 7° sottotest. I compiti sono stati presentati con immagini di cubi con facce variamente designate. I cubi venivano ruotati e girati in un certo modo nello spazio, tanto che a volte apparivano nuovi volti sconosciuti al soggetto. È stato necessario determinare quale dei cinque cubi campione è raffigurato in ciascuna immagine.

Sottoprova 9. Compiti sulla capacità di focalizzare l'attenzione e conservare ciò che è stato appreso nella memoria. Si propone di memorizzare un certo numero di parole che sono combinate in una tabella in determinate categorie, ad esempio fiori: tulipano, gelsomino, gladiolo, garofano, iris; o animali: zebra, serpente, toro, furetto, tigre. Tempo di apprendimento - 3 minuti. Quindi vengono raccolti i quaderni con i compiti e ai soggetti vengono consegnati fogli con domande di questo tipo: La parola iniziava con la lettera "b":

a) piante; b) strumenti; c) uccelli; d) opere d'arte; e) animali.

Il tempo totale dell'esame (senza procedure preparatorie e senza istruzione delle materie) è di 90 minuti. Il tempo di esecuzione di ogni sottotest è limitato e varia da 6 a 10 minuti.

Nel nostro paese, una versione adattata del test Amthauer è stata utilizzata per esaminare gli studenti delle classi 8-10 nelle scuole urbane e rurali. Sono stati ottenuti dati su un'affidabilità e validità sufficientemente elevate di questo test (M.K. Akimova et al., 1984).

R. Amthauer, nell'interpretare i risultati del test, presumeva che potesse essere utilizzato per giudicare la struttura dell'intelletto dei soggetti (dal successo di ogni sottotest). Per un'analisi approssimativa del "profilo mentale", ha proposto di calcolare separatamente i risultati per i primi quattro e i successivi cinque sottotest. Se il punteggio totale dei primi quattro subtest supera il punteggio totale dei successivi cinque subtest, il soggetto ha abilità teoriche più sviluppate. Se viceversa, allora abilità pratiche.

Quando si interpretano i risultati ottenuti in ricerca domestica dati, è stato applicato un nuovo criterio, proposto da K.M. Gurevich e chiamato lo standard socio-psicologico (SPN). Uno standard socio-psicologico è un sistema di requisiti che una comunità fa a ciascuno dei suoi membri e al quale tutti devono attenersi se non vogliono essere respinti dalla loro comunità. La valutazione dei risultati del test in questo caso dovrebbe essere basata su


il grado di vicinanza al SNS, differenziato per classi di istruzione e di età. L'uso di SPT come criterio di prestazione mette in evidenza l'analisi qualitativa dei dati.

§ 4 PROVE NON LINGUISTICHE, D'AZIONE E SENZA CULTURA

Diamo un'occhiata in particolare ai test di intelligenza progettati per testare le persone che non possono essere adeguatamente valutate tramite test verbali. Stiamo parlando di neonati, bambini con problemi di linguaggio, con alcune disabilità mentali e fisiche, che parlano una lingua straniera, analfabeti, così come persone provenienti da un ambiente culturale sfavorevole e alcuni altri. Per studiare questi gruppi di soggetti vengono utilizzati test di azione, test non linguistici o test liberi dall'influenza della cultura.

Uno dei primi test d'azione progettati per testare i bambini con ritardo mentale è il test back-to-back. Creato da E. Seguin nel 1866, è utilizzato ancora oggi. La prova è la seguente. Ci sono da 2 a 5 elementi sul tabellone; lo sperimentatore li rimuove e li piega in un certo ordine. Il soggetto deve restituire gli articoli al loro posto originale il prima possibile. Sono ammessi tre campioni; l'indicatore per il test è il tempo più breve necessario per completare l'attività. Test simili a questo, ma di maggiore difficoltà, vengono utilizzati per testare gli stranieri. È ampiamente utilizzato il test Porteus Maze, sviluppato nel 1914 e migliorato nel 1959. Consiste in una serie di labirinti di difficoltà crescente rappresentati da linee. Il soggetto è tenuto, senza sollevare la matita dal foglio, a percorrere il percorso più breve dall'ingresso all'uscita dal labirinto. Questo test viene utilizzato per studiare un'ampia varietà di persone, inclusi ritardati mentali, delinquenti e altri.

Test d'azione di questo tipo furono combinati nella scala del test delle prestazioni di Arthur nel 1930, standardizzata su un singolo campione e uniforme nel metodo di punteggio di ogni test. La seconda forma di questa scala è stata rilasciata nel 1947. Si compone di 4 vecchi test modificati e uno nuovo, standardizzato su un nuovo campione e utilizzato come sostituto del primo modulo durante il nuovo test.

Qualche parola sui test su neonati e bambini in età prescolare (fino a 5 anni). Il test di questo contingente di soggetti viene effettuato individualmente. La maggior parte dei test sono test d'azione o test verbali; alcuni prevedono attività elementari con carta e matite; alcuni test misurano lo sviluppo sensoriale e motorio. Il più comunemente usato per testare i bambini è quello sviluppato da R.B. Cattell Child Intelligence Scale che copre i livelli di età da 2 a 30 mesi. N. Bailey era preparato. Scala di sviluppo infantile progettata per bambini dalla nascita ai 15 mesi. La scala si compone di 3 parti: la scala mentale ha lo scopo di valutare lo sviluppo sensoriale, la memoria, la capacità di apprendimento, gli inizi dello sviluppo del linguaggio; La scala motoria misura il livello di sviluppo della coordinazione e manipolazione muscolare; La registrazione del comportamento del bambino è progettata per registrare le manifestazioni emotive e sociali del comportamento, della capacità di attenzione, della persistenza, ecc.

Le scale Bailey sono normalizzate su un campione di 1262 bambini, hanno punteggi alti


affidabilità e validità. Secondo l'eminente testologo A Anastasi (1982), le scale Bailey si confrontano favorevolmente con altri metodi per bambini. gioventù e sono molto utili per il riconoscimento precoce di tutti i tipi di disturbi e deviazioni nello sviluppo del bambino.

In genere, i test per neonati e bambini in età prescolare sono standardizzati su campioni più piccoli e più rappresentativi dei campioni normativi per altri test. Sono meno affidabili dei test per le età più anziane. Determinare la validità di questi test è difficile a causa della mancanza di criteri adeguati. La validità dei test per i bambini è determinata principalmente da due criteri: la differenza di età e la previsione del successivo sviluppo del livello di intelligenza. In termini di primo criterio, i test per i bambini mostrano generalmente una buona validità. Tuttavia, la loro validità predittiva è molto bassa: ad esempio, le correlazioni del test di Cattell per i bambini di età inferiore a uno e del test di Stanford-Binet per i bambini di tre anni sono vicine a 0.

Soffermiamoci su alcuni problemi importanti che sorgono quando si testano rappresentanti di diversi gruppi culturali. La connessione iniziale dei test di intelligence con la cultura di un determinato gruppo sociale limita la portata dei test. Si rivelano inadeguati per esaminare individui appartenenti a una cultura diversa da quella in cui sono stati creati questi test. Pertanto, i ricercatori hanno affrontato il problema di creare tali test intellettuali che sarebbero stati liberi dall'influenza della cultura. Quando creano tali test, spesso cercano di escludere i parametri in base ai quali queste culture differiscono.

Il parametro più noto è la lingua, un altro parametro è la velocità del test, un'altra differenza è la disponibilità di informazioni specifiche per determinate culture. Questi tipi di differenze tra i gruppi culturali hanno fatto sì che i test interculturali fossero prevalentemente non linguistici, privi di effetti sulla velocità e non utilizzassero informazioni specifiche della cultura.

Tuttavia, va detto con piena certezza che non è possibile escludere completamente l'influenza delle differenze culturali sui risultati dei test. Ogni test, secondo Anastasi, è favorevole agli individui della cultura in cui è stato sviluppato. È importante notare che non solo il contenuto del test, ma anche i fattori emotivi e motivazionali della situazione sperimentale influenzano l'esecuzione del test. Ogni cultura stimola lo sviluppo di alcune abilità e modelli di comportamento e non incoraggia, ma sopprime lo sviluppo degli altri. Pertanto, su test sviluppati nella cultura americana, gli americani si confronteranno favorevolmente con altri popoli e su test sviluppati in una cultura diversa da quella americana, al contrario, gli americani potrebbero non soddisfare le norme stabilite.

Per quanto riguarda la validità dei test sviluppati per il test comparativo di rappresentanti di culture diverse, le informazioni sono deludenti. Questi test hanno poca validità in qualsiasi cultura perché sono costruiti da elementi che sono ugualmente familiari (per quanto possibile) in molte culture e quindi misurano funzioni banali. In sostanza, rimuovere le differenze culturali da un test significa rimuoverne le componenti intellettuali. "Libertà dalla cultura" è semplicemente "libertà dall'intelletto" (J. Bruner, 1977).


Il primo test di gruppo non linguistico fu il Beta test dell'esercito, sviluppato durante la prima guerra mondiale (1918) per testare soldati stranieri e analfabeti. Attualmente viene utilizzata una forma rivista e ri-standardizzata di questo test nel 1946. Si compone di 6 sottotest come "Labirinti", "Completamento immagini", "Disegna ridicolo" e altri.

Nel cosiddetto puro, non toccato dai test di cultura, cercano di escludere alcune grandi differenze culturali non solo nella lingua, ma anche nelle conoscenze e nelle capacità intellettuali. Un esempio di questo tipo di test è il Culture-Free Intelligence Test sviluppato da R.B. Cattell. Questo test con carta e matita copre 3 livelli di età e intelligenza: da 4 a 8 anni e adulti con ritardo mentale, da 8 a 13 anni e adulti di intelligenza media, da 10 a 16 anni e adulti con elevate capacità mentali. Tra i sottotest ci sono come "Selezione del punto che completa la serie", "Aggiunta di questa matrice", "Labirinti", ecc. I dati sull'affidabilità e la validità di questo test sono incompleti e sono stati ottenuti su gruppi normativi più piccoli di è generalmente accettato.

Un esempio interessante di test "culturalmente libero" è il test Goodenough-Harris, in cui a un soggetto (di età superiore ai 5 anni) viene assegnato il compito di "disegnare un uomo" (prima forma) e "disegnare una donna" (seconda forma). . L'affidabilità di questo test è elevata, dell'ordine di 0,90. La validità, trovata dalla correlazione con altri test di intelligenza, è leggermente superiore a 0,50. Tuttavia, gli autori di questo test, dopo aver esaminato gli studi ad esso correlati, sono giunti alla conclusione che il test da loro proposto dipende più dalle differenze nell'ambiente culturale di quanto inizialmente previsto. Non si può non essere d'accordo con la loro opinione che la ricerca di un test di intelligence senza cultura sia un'illusione.

Concludendo la rassegna dei test intellettuali stranieri, notiamo che la maggior parte di essi è caratterizzata da un alto livello metodologico. Nella psicologia occidentale, principalmente americana, sono stati creati e continuano ad essere creati e migliorati metodi con elevata affidabilità, validità e rappresentatività dei campioni su cui sono stati ottenuti questi indicatori.

§ 5 QUESTIONI TEORICHE SUL TEST DI INTELLIGENZA

Quindi, per un lungo periodo, i test di intelligenza sono serviti come mezzo per misurare, come si supponeva, una certa realtà psicologica, la cui essenza era molto vaga. La riduzione delle differenze intellettive al coefficiente del livello mentale derivava dal concetto di intelligenza come capacità innata generale che sta alla base di tutte le nostre conquiste e si misura con l'aiuto di test.Queste idee sono state confermate dalla relativa stabilità del QI, stabilita da ripetuti test degli stessi gruppi di individui dopo un certo periodo di tempo.

Ci sono almeno due ragioni principali per la stabilità del QI: la prima è la stabilità, la relativa immutabilità dell'ambiente. Nella maggior parte dei casi, i bambini rimangono per molti anni nello stesso ambiente, allo stesso livello socio-economico, nello stesso ambiente culturale. Pertanto, eventuali carenze o vantaggi per lo sviluppo intellettuale che i soggetti hanno avuto in una fase iniziale di sviluppo persistono negli intervalli tra i test ripetuti.


La seconda ragione della relativa stabilità del QI è che le abilità acquisite nelle prime fasi dello sviluppo vengono mantenute e servono come prerequisiti per l'apprendimento successivo.

Tuttavia, la stabilità relativa del QI è statistica. In altre parole, solo negli studi di gruppo si possono ottenere correlazioni sufficientemente elevate tra studi ripetuti. Lo studio dei singoli individui rivela grandi cambiamenti nei punteggi del QI ottenuti negli intervalli di tempo. La testologia ha ormai accumulato molti fatti che testimoniano inconfutabilmente la variabilità di ciò che viene misurato dal coefficiente QI. Gli studi che raccolgono questi fatti sono raggruppati in due direzioni. Una direzione dimostra la dipendenza dei punteggi dei test dall'ambiente, che include molti indicatori diversi (sicurezza materiale e livello di istruzione dei genitori, natura del lavoro del padre, occupazione della madre, dimensioni della famiglia, presenza di una biblioteca domestica, ecc. .).

Dopo l'affidabilità, il criterio chiave per valutare la qualità dei metodi è la validità. La questione della validità della metodologia viene decisa solo dopo che è stata stabilita la sua sufficiente affidabilità, poiché una metodologia inaffidabile non può essere valida. Ma la tecnica più affidabile senza conoscerne la validità è praticamente inutile.

Va notato che la questione della validità fino a poco tempo fa sembra essere una delle più difficili. La definizione più radicata di questo concetto è quella data nel libro di A. Anastasi: "La validità di un test è un concetto che ci dice cosa misura il test e quanto bene lo fa".

Validità nella sua essenza, è una caratteristica complessa, che include, da un lato, informazioni sull'idoneità della tecnica a misurare ciò per cui è stata creata e, dall'altro, qual è la sua efficacia, efficienza e utilità pratica.

Non esiste un unico approccio universale alla definizione di validità. A seconda di quale lato di validità il ricercatore vuole considerare, e diversi modi prova di. In altre parole, il concetto di validità comprende i suoi vari tipi, che hanno i propri significato speciale. Viene chiamato il test della validità di una tecnica convalida.

La validità nel suo primo senso (se una tecnica è adatta a misurare ciò per cui è stata creata) è legata all'essenza della tecnica stessa, cioè è la validità interna dello strumento di misura. Questo controllo viene chiamato validazione teorica.

La validità nel secondo senso (qual è l'efficacia, l'efficienza, l'utilità pratica della metodologia) si riferisce non tanto alla metodologia quanto allo scopo del suo utilizzo. esso validazione pragmatica.

Riassumendo, possiamo dire quanto segue:

  • - nella validazione teorica, il ricercatore è interessato alla proprietà stessa (costrutto) misurata dalla tecnica. Ciò significa essenzialmente che l'effettivo validazione psicologica
  • - con una validazione pragmatica, l'essenza del soggetto di misurazione (proprietà psicologica) è nascosta. L'enfasi principale è sulla dimostrazione che il "qualcosa" misurato dalla metodologia ha una relazione con determinate aree di pratica.

La validazione teorica della metodologia viene effettuata dimostrando la validità del suo costrutto. costruire la validità, sostanziata da L. Cronbach nel 1955, è caratterizzata dalla capacità della tecnica di misurare tale tratto, giustificata teoricamente (come costrutto teorico). Quando è difficile trovare un criterio pragmatico adeguato, si può scegliere un orientamento verso ipotesi formulate sulla base di assunzioni teoriche sull'immobile oggetto di misurazione. La conferma di queste ipotesi indica la validità teorica della tecnica. In primo luogo, è necessario descrivere nel modo più completo possibile, in modo significativo, il costrutto per il quale si intende misurare. Ciò si ottiene formulando ipotesi al riguardo, prescrivendo con cosa questo costrutto dovrebbe essere correlato e con cosa non dovrebbe. Successivamente, queste ipotesi vengono verificate. Questo metodo è più efficace per convalidare i questionari sulla personalità, poiché è difficile stabilire un unico criterio per la loro validità.

L'intelligenza, i tratti della personalità, le motivazioni, gli atteggiamenti, ecc. possono fungere da costrutto. L'appello per costruire la validità è necessario nei casi in cui i risultati delle misurazioni diagnostiche vengono utilizzati non solo per prevedere il comportamento, ma per trarre conclusioni sulla misura in cui i soggetti hanno una certa caratteristica psicologica. Allo stesso tempo, la caratteristica psicologica misurata non può essere identificata con nessuna caratteristica osservata del comportamento, ma rappresenta un concetto teorico. La validità del costrutto è importante nello sviluppo di metodi fondamentalmente nuovi per i quali non sono stati definiti criteri di validità esterna.

Quindi spendi validazione teorica della metodologia - è dimostrare la validità del suo costrutto, cioè stabilire che la tecnica misuri esattamente il costrutto (proprietà, qualità) che, secondo l'intenzione del ricercatore, dovrebbe misurare. Quindi, se è stato sviluppato un test per diagnosticare lo sviluppo mentale dei bambini, è necessario analizzare se misura davvero questo sviluppo e non alcune altre caratteristiche (ad esempio personalità, carattere, ecc.). Pertanto, per validazione teorica, il problema cardinale è il rapporto tra i fenomeni psicologici ei loro indicatori, attraverso i quali questi fenomeni psicologici cercano di essere conosciuti. Tale verifica mostra come l'intenzione dell'autore ei risultati della metodologia coincidono.

Molto spesso, la validità del costrutto di una tecnica è determinata dalla sua consistenza interna, e anche attraverso convergente e validità discriminatoria. Un altro modo per determinare la validità del costrutto è analisi fattoriale.

Consistenza interna riflette la misura in cui i compiti, le domande che costituiscono il materiale della metodologia sono subordinati alla direzione principale del misurato nel suo insieme, incentrato sullo studio del fenomeno stesso. L'analisi della coerenza interna viene effettuata correlando le risposte a ciascun compito con risultato complessivo metodi. Quindi, se un test è composto da elementi che mostrano una correlazione significativa con il suo punteggio complessivo, si dice che il test ha consistenza interna, poiché tutti i suoi elementi sono subordinati al costrutto presentato nel test.

Il criterio della coerenza interna è anche la correlazione tra il punteggio totale della metodologia ei risultati dell'attuazione delle sue singole parti. I test in cui l'intelligenza agisce come un costrutto consistono sempre in sottotest applicati separatamente (come consapevolezza, analogie, classificazioni, inferenze, ecc.), dai cui risultati viene aggiunto il punteggio totale del test. Correlazioni significative tra i risultati di ciascun sottotest e il punteggio complessivo indicano anche la coerenza interna dell'intero test.

Inoltre, per dimostrare la coerenza interna, vengono utilizzati i gruppi di contrasto, che sono formati dai soggetti che hanno mostrato i risultati totali più alti e più bassi. La performance della metodologia del gruppo con risultati elevati viene confrontata con la performance del gruppo con risultati bassi e se il primo gruppo affronta i compiti meglio del secondo, la metodologia viene riconosciuta come internamente coerente.

Come sottolinea A. Anastasi, il criterio di coerenza interna di una metodologia è misura essenziale della sua omogeneità. Poiché questo indicatore aiuta a caratterizzare l'area del comportamento o della proprietà che viene selettivamente testata dalla tecnica, il grado della sua omogeneità è correlato alla validità del costrutto. Naturalmente, di per sé, la coerenza interna di una metodologia dice poco su ciò che misura. Tuttavia, in presenza di basi teoriche accuratamente sviluppate per la creazione di una metodologia, una base scientifica ben fondata, questa procedura rafforza le idee teoriche sulla sua essenza psicologica.

Un altro modo per determinare la validità del costrutto consiste nel valutare la metodologia su due indicatori opposti tra loro. È importante confrontare gli indicatori del metodo in corso di validazione, da un lato, con metodi che hanno lo stesso costrutto teorico e, dall'altro, con metodi che hanno una diversa base teorica. Per questo viene utilizzata la procedura di valutazione della validità convergente e discriminante proposta da D. T. Campbell e D. V. Fiske.

validità convergente (dal lat. - convergere in un centro, convertire) è una conclusione sulla somiglianza (isomorfismo - omomorfismo) di un determinato metodo (metodo, test, misura) con un altro metodo destinato agli stessi scopi (convergente, simile). Si esprime nel requisito della dipendenza statistica degli indicatori diagnostici se sono volti a misurare le proprietà mentali concettualmente correlate di un individuo.

Validità discriminante (dal lat. - differenza, differenza) - una conclusione sulla differenza tra un metodo (metodologia, test, misura) da un altro, teoricamente diverso dal primo. Si esprime in assenza di dipendenza statistica tra indicatori diagnostici che riflettono proprietà concettualmente indipendenti.

Validità convergente e discriminante sono i tipi validità del criterio. Questa categoria include qualsiasi tipo di validità, valutata utilizzando una caratteristica indipendente, che è un criterio di valutazione, confronto.

Quindi, la procedura per valutare la validità convergente e discriminante consiste nello stabilire somiglianze e differenze tra i fenomeni psicologici misurati con un nuovo metodo con metodi già noti. Implica l'uso, insieme al metodo in corso di validazione, di una speciale batteria di metodi di controllo, selezionati in modo tale da comprendere sia i metodi presumibilmente correlati a quello validato, sia quelli ad esso non correlati. Lo sperimentatore deve prevedere in anticipo quali metodi saranno altamente correlati con il metodo convalidato e quali metodi avranno basse correlazioni. In accordo con ciò si distinguono validità convergente (verifica del grado di vicinanza di una relazione diretta o di retroazione) e validità discriminante (che stabilisce l'assenza di connessione). I metodi che dovrebbero essere altamente correlati con quello che viene convalidato sono chiamati convergenti e quelli che non sono correlati sono chiamati discriminanti.

La conferma dell'insieme delle associazioni teoricamente attese costituisce un'importante area di evidenza della validità del costrutto. Nella psicodiagnostica inglese, una tale definizione operativa di validità del costrutto è indicata come presunta validità.

La presenza di una correlazione tra un nuovo metodo e un metodo simile nella progettazione, la cui validità è stata precedentemente dimostrata, indica che il metodo sviluppato "misura" approssimativamente la stessa qualità psicologica del metodo di riferimento. E se il nuovo metodo risulta al tempo stesso più compatto ed economico nell'esecuzione e nell'elaborazione dei risultati, allora la psicodiagnostica ha l'opportunità di utilizzare il nuovo strumento al posto del vecchio. Questa tecnica è particolarmente spesso utilizzata nella psicofisiologia differenziale quando si creano metodi per diagnosticare le proprietà principali sistema nervoso persona. Un posto speciale nella procedura per determinare la validità del costrutto è occupato da analisi fattoriale (validità fattoriale). Ti consente di analizzare rigorosamente statisticamente la struttura dei collegamenti degli indicatori del metodo in studio, determinarne la composizione dei fattori e i carichi dei fattori, rivelare segni nascosti e schemi interni della loro relazione.

Quindi, la validazione teorica della metodologia richiede l'uso di varie procedure sperimentali che contribuiscono all'accumulo di informazioni sul costrutto diagnosticato. Se questi dati confermano l'ipotesi, ciò conferma il concetto psicologico alla base della metodologia e la capacità della metodologia di fungere da strumento per misurare questo concetto. Quanto più convincente è la conferma, tanto più sicuramente si può parlare della validità della metodologia in relazione al concetto psicologico che la sta alla base.

Un ruolo importante nella comprensione di cosa misura la metodologia è svolto dal confronto dei suoi indicatori con forme pratiche di attività. Ma qui è particolarmente importante che la metodologia sia elaborata con attenzione in termini teorici, ad es. avere una base scientifica solida e ben fondata. Quindi, confrontando la metodologia con un criterio esterno tratto dalla pratica quotidiana, corrispondente a ciò che misura, si possono ottenere informazioni che rafforzano le idee teoriche sulla sua essenza.

È importante ricordare che se la validità teorica è dimostrata, l'interpretazione degli indicatori ottenuti diventa più chiara e inequivocabile e il nome della metodologia corrisponde all'ambito della sua applicazione.

Riguardo validazione pragmatica, quindi implica testare la metodologia in termini di efficacia pratica, significato, utilità, poiché ha senso utilizzare una tecnica diagnostica solo quando è dimostrato che la proprietà misurata si manifesta in determinate situazioni di vita, in determinati tipi di attività. Lei è data Grande importanza soprattutto dove si pone la questione della selezione.

Se ci volgiamo alla storia dello sviluppo della testologia, allora possiamo distinguere un periodo (1920-1930) in cui il contenuto scientifico dei test e il loro "bagaglio" teorico erano di minore interesse. Era importante che il test funzionasse e aiutasse a selezionare rapidamente le persone più preparate. Criterio di valutazione empirica elementi di prova era considerato l'unico vero punto di riferimento nella risoluzione di problemi scientifici e applicati.

L'uso di metodiche diagnostiche con una giustificazione puramente empirica, senza una chiara base teorica, ha portato spesso a conclusioni pseudoscientifiche, a conclusioni ingiustificate. consigli pratici. Era impossibile nominare con precisione quelle caratteristiche, qualità che, ad esempio, i test hanno rivelato. B. M. Teplov, analizzando i test di quel periodo, li definì "test alla cieca".

Questo approccio al problema della validità del metodo era tipico fino all'inizio degli anni '50. non solo per gli USA, ma anche per altri paesi. La debolezza teorica dei metodi empirici di validazione non poteva che suscitare critiche da parte di quegli scienziati che, nello sviluppo dei metodi, chiedevano di fare affidamento non solo sul "nudo" empirismo e sulla pratica, ma anche su un concetto teorico. La pratica senza teoria è cieca e la teoria senza pratica è morta. Attualmente valutazione teorica e pragmatica la validità dei metodi è percepita come la più produttiva.

Per la validazione pragmatica del metodo, ad es. per valutarne l'efficacia, l'efficienza, il significato pratico, un indipendente criterio esterno - un indicatore di valore diretto per una particolare area di pratica. Tale criterio può essere sia il rendimento scolastico (per i test di capacità di apprendimento, i test di rendimento, i test di intelligenza), sia i risultati di produzione (per i metodi di orientamento professionale), sia l'efficacia dell'attività reale: disegno, modellazione, ecc. (per test di abilità speciali) e valutazioni soggettive (per test di personalità).

I ricercatori americani D. Tiffin ed E. McCormick, dopo aver analizzato i criteri esterni utilizzati per dimostrarne la validità, ne distinguono quattro tipologie:

  • 1) criteri di rendimento (possono comprendere la quantità di lavoro svolto, il rendimento scolastico, il tempo dedicato alla formazione, il tasso di crescita delle qualifiche, ecc.);
  • 2) criteri soggettivi (includono vari tipi di risposte che riflettono l'atteggiamento di una persona nei confronti di qualcosa o qualcuno, la sua opinione, opinioni, preferenze; ​​di solito i criteri soggettivi si ottengono attraverso interviste, questionari, questionari);
  • 3) criteri fisiologici (vengono utilizzati per studiare l'influenza dell'ambiente e di altre variabili situazionali sul corpo umano e sulla psiche; vengono misurate la frequenza cardiaca, la pressione sanguigna, la resistenza elettrica della pelle, i sintomi della fatica, ecc.);
  • 4) criteri di casualità (applicati quando lo scopo dello studio riguarda, ad esempio, il problema della selezione per il lavoro di persone meno soggette a infortuni).

Un criterio esterno deve soddisfare tre requisiti fondamentali: deve essere pertinente, privo di interferenze (contaminazione) e affidabile.

Sotto pertinenza intendendo la corrispondenza semantica dello strumento diagnostico con un criterio vitale indipendente. In altre parole, deve esserci la certezza che i criteri coinvolgono proprio quelle caratteristiche della psiche individuale che sono misurate anche dalla tecnica diagnostica. Il criterio esterno e la tecnica diagnostica devono essere in corrispondenza semantica interna tra loro, essere qualitativamente omogenei nell'essenza psicologica. Se, ad esempio, un test misura le caratteristiche individuali del pensiero, la capacità di eseguire azioni logiche con determinati oggetti, concetti, allora nel criterio si dovrebbe cercare proprio la manifestazione di queste abilità. Questo vale anche per attività professionale. Non ha uno, ma diversi obiettivi, compiti, ognuno dei quali è specifico e impone le proprie condizioni di attuazione. Ciò implica l'esistenza di diversi criteri per lo svolgimento delle attività professionali. Pertanto, non si dovrebbe confrontare il successo dei metodi diagnostici con l'efficienza produttiva in generale. È necessario trovare un criterio che, per la natura delle operazioni svolte, sia comparabile con la metodologia.

Se non è noto rispetto al criterio esterno se è rilevante o meno per la proprietà misurata, allora il confronto dei risultati della tecnica psicodiagnostica con essa diventa praticamente inutile. Non consente di trarre conclusioni che possano valutare la validità della metodologia.

Requisiti libertà da interferenze (contaminazione) sono causate dal fatto che, ad esempio, il successo scolastico o industriale dipende da due variabili: dalla persona stessa, dalle sue caratteristiche individuali, misurate dai metodi, e dalla situazione, dalle condizioni di studio, di lavoro, che possono introdurre interferenze, “contaminare ” il criterio applicato. Per evitare ciò in una certa misura, dovrebbero essere selezionati per la ricerca gruppi di persone che si trovano più o meno nelle stesse condizioni. Puoi anche usare un altro metodo. Consiste nel correggere l'influenza dell'interferenza. Questo aggiustamento è di solito di natura statistica. Pertanto, la produttività dovrebbe essere assunta non in termini assoluti, ma in relazione alla produttività media dei lavoratori che lavorano in condizioni simili.

Quando si dice che un criterio deve avere un valore statisticamente significativo affidabilità, ciò significa che deve riflettere la costanza e la stabilità della funzione studiata.

La ricerca di un criterio adeguato e facilmente individuabile è uno dei compiti di validazione più importanti e difficili. Nella testologia occidentale, molti metodi sono squalificati solo perché non sono riusciti a trovare un criterio adatto per testarli. Ad esempio, per la maggior parte dei questionari, i dati sulla loro validità sono discutibili, poiché è difficile trovare un criterio esterno adeguato che corrisponda a ciò che misurano.

La valutazione della validità pragmatica dei metodi può essere quantitativa e qualitativa.

Calcolare quantitativo indicatore - coefficiente di validità - i risultati ottenuti applicando la tecnica diagnostica vengono confrontati con i dati ottenuti dal criterio esterno delle stesse persone. Vengono utilizzati diversi tipi di correlazione lineare (secondo Spearman, secondo Pearson).

Quante materie sono necessarie per calcolare la validità? La pratica ha dimostrato che non dovrebbero essercene meno di 50, ma più di 200. Sorge spesso la domanda, quale dovrebbe essere il valore del coefficiente di validità affinché sia ​​considerato accettabile? In generale, si osserva che è sufficiente che il coefficiente di validità sia statisticamente significativo. Un coefficiente di validità di circa 0,20 0,30 è considerato basso, 0,30-0,50 è medio e oltre 0,60 è alto.

Ma, come sottolineano A. Anastasi e K. M. Gurevich e altri autori, non è sempre corretto utilizzare la correlazione lineare per calcolare il coefficiente di validità. Questa tecnica è giustificata solo quando è dimostrato che il successo in alcune attività è direttamente proporzionale al successo nell'implementazione di una tecnica diagnostica. La posizione dei testologi stranieri, in particolare quelli coinvolti nell'idoneità professionale e nella selezione professionale, si riduce molto spesso al riconoscimento incondizionato che colui che ha completato il maggior numero di compiti nel test è più adatto alla professione. Ma può anche essere che per avere successo in un'attività, devi avere una proprietà a livello del 40% della soluzione di test. Un ulteriore successo nel test non conta più per la professione. Un esempio illustrativo tratto dalla monografia di K. M. Gurevich: un postino deve saper leggere, ma se legge a velocità normale oa velocità molto elevata non ha più importanza professionale. Con una tale correlazione tra gli indicatori della metodologia e il criterio esterno, il modo più adeguato per stabilire la validità può essere il criterio delle differenze.

Come ha dimostrato l'esperienza dei testologi stranieri, nessuna procedura statistica è in grado di riflettere pienamente la diversità delle valutazioni individuali. Pertanto, un altro modello viene spesso utilizzato per dimostrare la validità dei metodi: le valutazioni cliniche. Non è altro che qualità descrizione dell'essenza della proprietà studiata. In questo caso si tratta dell'utilizzo di tecniche che non si basano sull'elaborazione statistica.

Nella psicometria moderna sono state sviluppate dozzine di metodi diversi per verificare la validità dei metodi diagnostici, per le loro caratteristiche, nonché lo stato temporaneo di un criterio esterno. Tuttavia, i seguenti metodi vengono spesso chiamati.

  • 1. Validità "per contenuto" significa che il metodo è valido secondo gli esperti. Questa tecnica viene utilizzata, ad esempio, nei test di conseguimento. Di solito, i test di rendimento non includono tutto il materiale che gli studenti hanno superato, ma una piccola parte di esso (3-4 domande). È possibile essere sicuri che le risposte corrette a queste poche domande indichino l'assimilazione di tutto il materiale? Questo è ciò che dovrebbe rispondere il controllo di validità del contenuto. Per fare ciò, viene effettuato un confronto del successo del test con le valutazioni degli esperti degli insegnanti (per questo materiale). La validità "per contenuto" è adatta anche per i test basati su criteri, poiché utilizzano metodi esperti. Specifico è l'oggetto dell'esame: il contenuto del test. I valutatori dovrebbero valutare il contenuto degli elementi del test in termini di rilevanza per la proprietà mentale dichiarata come contenuto del test in corso di convalida. A tal fine, agli esperti viene presentata una specifica per il test e un elenco di compiti. Se un compito specifico è pienamente conforme alla specifica, l'esperto lo contrassegna come corrispondente al contenuto del test. A volte questa tecnica è chiamata validità logica o "validità per definizione". .
  • 2. Validità "per simultaneità", o validità attuale, è determinato utilizzando un criterio esterno, in base al quale le informazioni vengono raccolte contemporaneamente agli esperimenti secondo il metodo in esame. In altre parole, vengono raccolti dati relativi al presente: rendimento scolastico durante il periodo di prova, rendimento nello stesso periodo e così via. Vengono confrontati con i risultati del successo del test.
  • 3. Validità "predittiva". (altro nome - validità predittiva). È anche determinato da un criterio esterno, ma le informazioni su di esso vengono raccolte qualche tempo dopo il test. Sebbene questa tecnica sia la più appropriata per il compito delle tecniche diagnostiche - la previsione del successo futuro, è molto difficile applicarla. L'accuratezza della diagnosi è inversamente correlata al tempo dato per tale previsione. Più tempo passa dopo la misurazione, più fattori devono essere presi in considerazione quando si valuta il significato prognostico della tecnica. Tuttavia, è quasi impossibile prendere in considerazione tutti i fattori che influenzano la previsione.
  • 4. Validità "retrospettiva". È determinato sulla base di un criterio che riflette gli eventi o lo stato di qualità del passato. Può essere utilizzato per ottenere rapidamente informazioni sulle capacità predittive della tecnica. Pertanto, per verificare in che misura i buoni punteggi di un test attitudinale corrispondano a un apprendimento rapido, è possibile confrontare i voti passati, le opinioni degli esperti del passato e così via. in individui con indicatori diagnostici alti e bassi al momento.

Nel presentare i dati sulla validità della metodologia sviluppata, è importante specificare esattamente quale tipo di validità si intende (per contenuto, per simultaneità, ecc.). È inoltre auspicabile riportare informazioni sul numero e sulle caratteristiche dei soggetti sui quali è stata effettuata la convalida. Tali informazioni consentono allo psicologo che utilizza la tecnica di decidere quanto sia valida questa tecnica per il gruppo a cui la applicherà. Come per l'affidabilità, va ricordato che una tecnica può avere alta validità in un campione e bassa validità in un altro. Pertanto, se il ricercatore prevede di utilizzare la metodologia su un campione di soggetti significativamente diverso da quello su cui è stato effettuato il test di validità, deve rieseguire tale test. Il coefficiente di validità riportato nel manuale è applicabile solo a gruppi di argomenti simili a quelli sui quali è stato determinato.

Anastasi A. Test psicologici: in 2 vol.M, 1982.
  • Gurevich K.M. Decreto. operazione.
  • Anastasi A. Test psicologici: in 2 voll M., 1982; Burlachuk L.F., Morozov S.M. Dizionario-libro di consultazione della diagnostica psicologica. Kiev. 1989; Gurevich K.M. Decreto. operazione.; Psicodiagnostica generale / ed. L. L. Bodaleva, V. V. Capitale.
  • Affidabilità e validità sono tra i criteri principali per la valutazione dei metodi psicodiagnostici. Un grande contributo allo sviluppo di questi concetti è stato dato da psicologi stranieri (A. Anastasi, E. Ghiselli, J. Gilford, L. Cronbach, R. Thorndike e E. Hagen, ecc.). Hanno sviluppato un apparato sia formale-logico che matematico-statistico (in primis il metodo di correlazione e l'analisi vera e propria) per sostanziare il grado di conformità dei metodi ai criteri indicati. In psicodiagnostica, i problemi di affidabilità e validità dei metodi sono strettamente correlati, tuttavia esiste una tradizione di presentazione separata di questi le caratteristiche più importanti. Seguendolo, iniziamo con una considerazione dell'affidabilità dei metodi.

    AFFIDABILITÀ

    Nella testologia tradizionale, il termine " affidabilità" indica la relativa costanza, stabilità, coerenza dei risultati del test durante il suo utilizzo iniziale e ripetuto sugli stessi soggetti. affidabilità del metodo- questo è un criterio che indica l'accuratezza delle misurazioni psicologiche, ad es. permette di giudicare quanto siano credibili i risultati ottenuti.

    problema importante la diagnostica pratica consiste nello scoprire i fattori negativi che influiscono sull'accuratezza delle misurazioni:

    1. instabilità del bene diagnosticato;

    2. imperfezione dei metodi diagnostici

    3. cambiamento della situazione dell'indagine

    4. differenze nel comportamento dello sperimentatore

    5. fluttuazioni nello stato funzionale del soggetto

    6. Elementi di soggettività nelle modalità di valutazione e interpretazione dei risultati

    Esistono tante varietà di affidabilità del metodo quante sono le condizioni che influenzano i risultati dei test diagnostici.

    Poiché tutti i tipi di affidabilità riflettono il grado di coerenza di due serie di indicatori ottenute indipendentemente, la tecnica matematica e statistica con cui viene stabilita l'affidabilità della metodologia è correlazioni(secondo Pearson o Spearman, vedi cap. XIV). L'affidabilità è maggiore, più il coefficiente di correlazione ottenuto si avvicina all'unità e viceversa.

    l'enfasi principale è sul lavoro di K.M. Gurevich (1969, 1975, 1977, 1979), che, dopo un'analisi approfondita della letteratura straniera su questo tema, ha proposto di interpretare l'affidabilità come:

    1. affidabilità dello strumento di misura stesso,

    2. stabilità del tratto in studio;

    3. costanza, cioè relativa indipendenza dei risultati dalla personalità dello sperimentatore.

    Si propone che l'indicatore che caratterizza lo strumento di misurazione sia chiamato coefficiente di affidabilità, l'indicatore che caratterizza la stabilità della proprietà misurata: il coefficiente di stabilità; e l'indicatore di valutazione dell'influenza della personalità dello sperimentatore - dal coefficiente di costanza.

    VALIDITÀ

    Validità nella sua essenza, è una caratteristica complessa, che include, da un lato, informazioni sull'idoneità della tecnica a misurare ciò per cui è stata creata e, dall'altro, qual è la sua efficacia ed efficienza. Viene chiamato il test della validità di una tecnica convalida.

    La validità nel suo primo senso è legata alla metodologia stessa, cioè è la validità dello strumento di misura. Questo controllo è chiamato convalida teorica. La validità nel secondo senso si riferisce già non tanto alla metodologia quanto allo scopo del suo utilizzo. esso validazione pragmatica. Quindi, nella convalida teorica, il ricercatore è interessato alla proprietà stessa misurata dalla tecnica. Questo, in sostanza, significa che si sta effettuando la validazione psicologica vera e propria. Con la convalida pragmatica, l'essenza del soggetto di misurazione (proprietà psicologica) è fuori dalla vista.

    cosa misura il test:

    1. la tecnica è stata riconosciuta valida, poiché ciò che misura è semplicemente “ovvio”;

    2. la prova della validità si basava sulla fiducia del ricercatore che il suo metodo permettesse di “capire la materia”;

    3. La metodologia è stata considerata valida (vale a dire, è stata accettata l'affermazione che tale test misura tale e tale qualità) solo perché la teoria sulla base della quale è stata costruita la metodologia è “molto buona”.

    Condurre un teorico la validazione del metodo consiste nel mostrare se il metodo misura realmente esattamente la proprietà, la qualità che, secondo l'intenzione del ricercatore, dovrebbe misurare. È dimostrato non solo dal confronto con indicatori correlati, ma anche con quelli in cui, sulla base dell'ipotesi, non dovrebbero esserci relazioni significative. Pertanto, per verificare la validità teorica, è importante, da un lato, stabilire il grado di connessione con una tecnica correlata (validità convergente) e l'assenza di tale relazione con metodi che hanno una base teorica diversa (validità discriminante).

    Per un pragmatico validazione del metodo, ovvero per valutarne l'efficacia, l'efficienza, il significato pratico, viene solitamente utilizzato un criterio esterno indipendente: un indicatore della manifestazione della proprietà studiata in Vita di ogni giorno. Un tale criterio può essere il rendimento scolastico (per i test di capacità di apprendimento, i test di rendimento, i test di intelligenza), i risultati di produzione (per i metodi di orientamento professionale), l'efficacia dell'attività reale - disegno, modellazione, ecc. (per test di abilità speciali), valutazioni soggettive (per test di personalità).

    I ricercatori americani Tiffin e McCormick (1968), dopo aver analizzato i criteri esterni utilizzati per dimostrarne la validità, ne distinguono quattro tipi:

    1) criteri di rendimento (possono includere la quantità di lavoro svolto, il rendimento scolastico, il tempo dedicato alla formazione, ecc.);

    2) criteri soggettivi (di solito i criteri soggettivi si ottengono attraverso interviste, questionari, questionari);

    3) criteri fisiologici (misurazione della frequenza cardiaca, pressione sanguigna, resistenza elettrica della pelle, sintomi di affaticamento, ecc.);

    4) criteri di casualità (applicati quando lo scopo dello studio riguarda, ad esempio, il problema della selezione per il lavoro di persone meno soggette a infortuni).

    La valutazione della validità della metodologia può essere quantitativa e qualitativa.

    N. 19 Tipi di validità. Misurare la validità

    La questione della validità fino a poco tempo sembra essere una delle più difficili. La definizione più radicata di questo concetto è quella data nel libro di A. Anastasi: “La validità di un test è un concetto che ci dice cosa misura il test e quanto bene lo fa”

    La validità è essenzialmente una caratteristica complessa, che include, da un lato, informazioni sull'idoneità della tecnica a misurare ciò per cui è stata creata e, dall'altro, qual è la sua efficacia, efficienza e utilità pratica.

    Per questo motivo, non esiste un unico approccio universale per determinare la validità. A seconda del lato di validità che il ricercatore vuole considerare, vengono utilizzati anche diversi metodi di prova. In altre parole, il concetto di validità comprende i suoi diversi tipi, che hanno un loro significato speciale. Viene chiamato il test della validità di una tecnica convalida.

    Validità apparente- descrive l'idea del soggetto del test. Il test dovrebbe essere percepito dal soggetto come uno strumento serio per conoscere la propria personalità, qualcosa di simile al rispettoso e, in una certa misura, timore reverenziale degli strumenti diagnostici medici. L'ovvia validità acquisisce significato speciale in condizioni moderne quando l'idea di test nella mente del pubblico è formata da numerose pubblicazioni su giornali e riviste popolari di quelli che possono essere chiamati quasi test, con l'aiuto dei quali il lettore è invitato a determinare qualsiasi cosa, dall'intelligenza alla compatibilità con un futuro coniuge .

    Validità competitiva viene valutato dalla correlazione del test sviluppato con altri, la cui validità rispetto al parametro misurato è stabilita. P. Kline osserva che i dati sulla validità competitiva sono utili quando ci sono test insoddisfacenti per misurare alcune variabili e ne vengono creati di nuovi per migliorare la qualità della misurazione. Infatti, se esiste già un test efficace, perché ne occorre uno altrettanto nuovo?

    validità predittiva viene stabilito utilizzando la correlazione tra i punteggi dei test e alcuni criteri che caratterizzano l'immobile oggetto di misurazione, ma in un secondo momento. Ad esempio, la validità predittiva di un test di intelligenza può essere dimostrata dalla correlazione dei suoi punteggi ottenuti da una materia di prova all'età di 10 anni con il rendimento scolastico durante il periodo di maturità. L. Cronbach ritiene che la validità predittiva sia la prova più convincente che il test misuri esattamente ciò a cui era destinato. Il problema principale che deve affrontare un ricercatore che cerca di stabilire la validità predittiva del suo test è la scelta di un criterio esterno. In particolare, ciò riguarda il più delle volte la misurazione delle variabili di personalità, dove la selezione di un criterio esterno è un compito estremamente difficile, la cui soluzione richiede notevole ingegno. La situazione è un po' più semplice quando si determina un criterio esterno per i test cognitivi, tuttavia, anche in questo caso, il ricercatore deve “chiudere un occhio” su molti problemi. Pertanto, il rendimento scolastico è tradizionalmente utilizzato come criterio esterno per la convalida dei test di intelligenza, ma allo stesso tempo è risaputo che il rendimento scolastico è tutt'altro che l'unica prova di alta intelligenza.

    validità incrementale ha un valore limitato e si riferisce al caso in cui un test di una batteria di test può avere una bassa correlazione con un criterio, ma non sovrapporsi ad altri test di questa batteria. In questo caso, il test ha validità incrementale. Questo può essere utile quando si effettua la selezione professionale utilizzando test psicologici.

    Validità differenziale può essere illustrato dall'esempio dei test di interesse. I test di interesse di solito sono correlati al rendimento scolastico, ma in modi diversi per le diverse discipline. Il significato della validità differenziale, così come della validità incrementale, è limitato.

    La validità dei contenutiè determinato confermando che gli elementi di prova riflettono tutti gli aspetti dell'area di comportamento oggetto di studio. Di solito è determinato dai test di raggiungimento (il significato del parametro misurato è del tutto chiaro!), che, come già accennato, non sono in realtà test psicologici. In pratica, per determinare la validità dei contenuti, vengono selezionati esperti che indicano quale (aree) del comportamento è più importante, ad esempio per le abilità musicali, e quindi, sulla base di ciò, vengono generati elementi di prova, che vengono rivalutati dagli esperti .

    Validità del costrutto Il test si presenta il più completo possibile con una descrizione della variabile che il test intende misurare. In effetti, la validità del costrutto include tutti gli approcci alla determinazione della validità che sono stati elencati sopra. Cronbach e Meehl (1955), che hanno introdotto il concetto di validità di costrutto in psicodiagnostica, hanno cercato di risolvere il problema della selezione dei criteri per la validazione del test. Hanno sottolineato che in molti casi nessun singolo criterio può servire a convalidare un singolo test. Possiamo considerare che la soluzione alla domanda sulla validità del costrutto del test è la ricerca di una risposta a due domande:

    1) se qualche proprietà esiste davvero; 2) se questo test misura in modo affidabile le differenze individuali in questa proprietà. È abbastanza chiaro che il problema dell'oggettività nell'interpretazione dei risultati dello studio della validità del costrutto è associato alla validità del costrutto, ma questo problema è psicologico generale e va oltre la validità.

    Non esiste un unico indicatore con cui venga stabilita la validità di un test psicologico. A differenza degli indicatori di affidabilità e discriminazione, è impossibile effettuare calcoli statistici accurati a conferma della validità della metodologia. Tuttavia, lo sviluppatore deve fornire prove evidenti della validità del test, che richiederà da lui conoscenze e intuizioni psicologiche.

    validità ≤ affidabilità.

    Ciò significa che la validità di un test non può eccedere la sua affidabilità.

    Tale rapporto, tuttavia, è erroneamente interpretato come indicazione di un rapporto proporzionale diretto tra validità e affidabilità. Un aumento dell'affidabilità non porta necessariamente ad un aumento della validità. In termini di A. Anastasi, la validità è determinata dalla rappresentatività del test rispetto all'area di comportamento misurata. Se quest'area di comportamento è composta da vari fenomeni, allora la validità del contenuto del test richiede automaticamente la rappresentazione in esso di modelli di tutti questi vari fenomeni. Prendiamo il concetto globale di "capacità di parola" (questo termine psicolinguistico nella testologia tradizionale corrisponde al termine "intelligenza verbale"). Ciò include abilità che sono relativamente indipendenti l'una dall'altra, come abilità di scrittura e lettura. Se ci preoccupiamo della validità del contenuto del test corrispondente, allora dobbiamo introdurvi gruppi di compiti per testare queste componenti dell'intelligenza verbale, che sono abbastanza diverse nella loro composizione operativa. Introducendo item e sottoscale (subtest) eterogenei, riduciamo necessariamente la coerenza interna, l'affidabilità una tantum del test, ma otteniamo un aumento significativo della validità. Pertanto, per ampliare l'ambito del test, uno psicodiagnostico dovrebbe evitare un aumento eccessivo della coerenza interna. Contemporaneamente a questa diminuzione delle correlazioni interne tra i vari elementi del test, la curtosi negativa sulla curva di distribuzione del punteggio del test scompare necessariamente e si avvicina sempre più alla curva normale.

    validità empirica. Se, nel caso di validità del contenuto, la prova è valutata da esperti (che stabiliscono la corrispondenza degli elementi di prova con il contenuto dell'oggetto della misurazione), la validità empirica è sempre misurata utilizzando la correlazione statistica: la correlazione di due serie di valori ​​è calcolato - punteggi e indicatori del test per un parametro esterno scelto come criterio di validità.

    Le tradizioni pragmatiche della testologia occidentale legavano la validità empirica di un test a criteri socio-pragmatici esterni alla psicologia. Questi criteri sono indicatori di valore diretto per determinate aree di pratica. La pratica mira sempre ad aumentare o diminuire questi indicatori. Ad esempio, in psicologia dell'educazione è “realizzazione” (che deve essere migliorata), in psicologia del lavoro è “produttività del lavoro” e “avvicendamento del personale”, in medicina è “lo stato di salute del paziente”. Concentrandosi direttamente su queste categorie, uno psicologo che cerca di correlare i risultati dei test con questi indicatori risolve in realtà due problemi contemporaneamente: il compito di misurare la validità e il compito di misurare l'efficacia pratica del suo programma psicodiagnostico. Se si ottiene un coefficiente di correlazione significativo, possiamo supporre che entrambi questi compiti siano stati risolti con un risultato positivo. Ma se non viene trovata alcuna correlazione, allora permane l'incertezza: o la procedura stessa non è valida (il punteggio del test non riflette, ad esempio, la resistenza allo stress dell'operatore), oppure l'ipotesi sulla presenza di una relazione causale tra una proprietà mentale e un indicatore socialmente significativo non è corretto (la resistenza allo stress non influisce sulla percentuale di situazioni di emergenza).

    Pertanto, i criteri socio-pragmatici sono complessi: consentono di misurare la validità-efficacia, ma non ciascuna di queste due proprietà del test separatamente. In pratica, uno psicologo spesso si aspetta una situazione ancora più difficile, quando il cliente richiede allo psicologo, sulla base della diagnosi ricevuta, subito alcuni accorgimenti per intervenire sulla situazione (selezione, counselling, formazione, ecc.). In questo caso, l'incremento degli indicatori (significativo rispetto al gruppo di controllo) dimostra sia la validità ed efficacia della diagnosi sia l'efficacia dell'intervento stesso. E un risultato negativo dà ancora più incertezza, poiché è impossibile separare l'inefficacia dell'intervento dalla scarsa validità della diagnosi.

    procedura di validazione empirica. La disposizione del campionamento per la convalida empirica dipende dallo stato temporale del criterio. Se questo criterio è un evento del passato (validazione retrospettiva), allora è sufficiente coinvolgere solo quei soggetti che si sono rivelati ai poli estremi secondo questo criterio per partecipare all'esame psicodiagnostico. Di conseguenza, viene applicato il metodo dei gruppi estremi (in contrasto). La correlazione con il punteggio totale del test viene valutata utilizzando il coefficiente biseriale secondo la formula.

    Se il criterio è un evento futuro (convalida prospettica), il campione dovrebbe essere realizzato con un margine, tenendo conto del volume probabile di gruppi estremi in futuro. Ad esempio, è necessario scoprire se la diagnostica del temperamento consente di prevedere un aumento del rischio di malattie psicosomatiche (ipertensione, ulcere, asma, ecc.). Lascia che sulla base di studi epidemiologici si sappia che entro tre anni dal. 1000 persone sane si ammalano di queste malattie 57 persone. Ciò significa che circa 2000 persone dovrebbero essere coperte da una diagnostica preventiva (di avvertimento) per ottenere la dimensione del gruppo "alto" (malato) di circa 100 persone. La validazione prospettica rivela le prestazioni predittive di una procedura diagnostica. L'elevata validità predittiva dimostra sia la validità della misurazione stessa che l'esistenza di una presunta relazione causale.

    N. 20 L'affidabilità come tipo speciale di validità in relazione alle autovalutazioni dei test. Metodi di lotta alla desiderabilità sociale.

    Un tipo speciale di validità è l'AFFIDABILITÀ. Si tratta di distorsioni consce o inconsce che il soggetto stesso introduce nei risultati del test, guidato durante il test da una motivazione speciale, diversa da quella insita nel suo comportamento reale. La capacità del test di proteggere le informazioni dalle DISTORSIONI MOTIVAZIONALI è l'affidabilità del test. In particolare, il problema dell'affidabilità è acuto nel caso dei questionari di prova, che consentono una maggiore libertà nella scelta di qualsiasi risposta da parte dei soggetti. Una tecnica tipica per garantire l'affidabilità è la presenza di SCALE DI LIE nei questionari di prova, l'introduzione di domande "niente su", l'introduzione di domande parallele, domande di duplicati. Queste scale si basano principalmente sul fenomeno della DESIDERABILITÀ SOCIALE - il desiderio dei soggetti di fornire informazioni socialmente approvate durante il test. Se il soggetto ha ottenuto un punteggio sulla scala delle bugie al di sopra del punteggio critico, il suo protocollo viene dichiarato inaffidabile e gli viene chiesto di eseguire nuovamente questo test più francamente o di eseguire un altro test. Molte trappole più specifiche volte a misurare l'affidabilità sono spesso incluse come componente nella struttura di un particolare test, e talvolta non sono nemmeno soggette a divulgazione come elemento di know-how (invenzione dell'informazione) e segreti professionali condivisi dagli sviluppatori solo con utenti con licenza della metodologia che hanno firmato un contratto di licenza speciale al momento dell'acquisto di un test. L'affidabilità del test è strettamente correlata al grado di sicurezza comunicativa che lo psicologo è stato in grado di stabilire con questo soggetto. Qui è utile distinguere tra due situazioni diagnostiche: consultiva (SITUAZIONE CLIENTE) e attestante (SITUAZIONE DI COMPETENZA). Nel primo caso, il soggetto partecipa al test su base volontaria ed è egli stesso interessato a ricevere raccomandazioni sulla base dei risultati del test (come, ad esempio, in una consulenza di orientamento professionale). Nel secondo caso, il test viene svolto su iniziativa di un insegnante o amministrazione, uno psicologo, i genitori, ovvero altre persone, e questi altri sono più interessati ai risultati rispetto al soggetto stesso. È chiaro che nella situazione dell'attestazione la questione dell'affidabilità è particolarmente rilevante. E i questionari che non sono dotati di scale della bugia sono inutili in tali situazioni. Al contrario, nella situazione del cliente, possono essere utilizzati tali metodi, ai quali il soggetto risponderà ovviamente in modo errato nella situazione di esame. Le questioni di validità e standardizzazione sono strettamente correlate. Molto spesso, anche i test di raggiungimento oggettivo, se standardizzati su volontari (in una situazione di consultazione), devono essere ristandardizzati per essere utilizzati in una situazione di valutazione.


    N. 21 Tecnologia per creare e adattare metodi

    La creazione di una metodologia originale o l'adattamento di una metodologia estranea non possono essere ridotti solo al controllo (o al ricontrollo) delle singole proprietà psicometriche - rappresentatività, affidabilità, validità, affidabilità - in una sequenza arbitraria. In alcuni casi, è consigliabile iniziare da una fase del lavoro, in altri da un'altra. In effetti, qualsiasi situazione reale di utilizzo di un test non è una situazione di sola "costruzione" o solo di "applicazione". Si può affermare senza esagerare che c'è un continuum tra i poli estremi:

    "costruzione" __________________ "applicazione"

    e ogni situazione è rimossa in una certa misura da entrambi i poli. È difficile nominare un caso del genere quando la costruzione di un test completamente nuovo partirebbe da zero, “da zero”. È anche difficile trovare casi del genere in cui tutti gli aspetti della sperimentazione rimarrebbero completamente invariati e riprodurrebbero una situazione normativa di applicazione già completamente indagata. impasto pronto. Ma tutta questa varietà di situazioni, tutta la combinatoria di parametri indipendenti, psicologi-professionisti, di regola, cercano di ridurre a due o tre situazioni tipiche.

    1. Situazione applicativa. Il test è stato sviluppato da qualcuno (magari in altre condizioni socio-culturali), sono note le norme del test ottenute sui rappresentanti di una determinata cultura linguistica (la discrepanza tra il campione di standardizzazione e il campione di applicazione per genere ed età, struttura e caratteristiche professionali e culturali è riconosciuto come insignificante).

    2. La situazione di adattamento. Il test è stato sviluppato da qualcuno: l'affidabilità e la validità sono state verificate, ma non ci sono norme di test (di norma, non sono affatto disponibili per i rappresentanti di una determinata cultura linguistica). Il problema dell'adattamento si riduce così alla costruzione di norme di prova.

    3. Situazione edilizia. Esiste un concetto di proprietà mentale, ma non esiste una procedura per la sua misurazione che soddisfi i requisiti di luogo, tempo, possibilità di analisi quantitativa e limiti di altre risorse. È necessario elaborare una procedura di misurazione, verificarne l'affidabilità e la validità, creare norme di prova.

    Soffermiamoci anzitutto sui temi dell'adeguamento dei cosiddetti test di traduzione. Il percorso di rapido rifornimento del repertorio di tecniche dovuto alla moltitudine di tecniche straniere già pronte sembra a molti psicologi il percorso più economico e più breve per una psicodiagnostica affidabile e valida. Ma se, in questo caso, l'adattamento si riduce solo alla costruzione di una distribuzione normativa dei punteggi dei test, allora ciò significa che la validità e l'affidabilità metodologia adattata nelle nuove condizioni sono date per scontate, e il concetto teorico dell'autore del test e il contenuto dei criteri di validità da lui utilizzati sono semplicemente trasferiti alle nostre condizioni senza modifiche (del resto, per qualsiasi, anche per metodi non validi e inaffidabili , puoi ottenere una distribuzione). Tale trasferimento dà errori trascurabili solo per testare proprietà mentali relativamente elementari (come proprietà del sistema nervoso, stati funzionali, parametri sensomotori, funzioni cognitive elementari, inoltre, utilizzando procedure oggettive (registrazione psicofisiologica, test con criteri di successo "fisici" , ecc.). .) Quando si testano le proprietà mentali integrali della personalità e della coscienza individuale (caratteristiche, motivazioni, atteggiamenti, autostima, abilità generali, stile di comunicazione, orientamenti di valore, interessi, ecc.), nonché quando si utilizza qualsiasi mezzi linguistici nella stessa procedura di prova (comprendente non solo la formulazione dei compiti, delle domande, ma anche la formulazione originale delle istruzioni per la prova) e l'utilizzo di criteri culturalmente specifici per valutare la correttezza del risultato (definizione della chiave di scala), è inaccettabile limitarsi alla sola raccolta di norme di prova durante l'adattamento!

    È necessario un serio lavoro empirico per verificare l'affidabilità e la validità nelle nuove condizioni socio-culturali, lavoro che di fatto corrisponde nell'ambito alla creazione della metodologia originaria. Da questo punto di vista, prendere in prestito test diagnostici generali stranieri di abilità, tratti caratteriali, interessi, ecc. non si rivela affatto il percorso più breve per la psicodiagnostica. Questo percorso sembra più breve solo a coloro che trascurano consapevolmente o inconsapevolmente i principi della psicometria.

    Elenchiamo passaggi necessari lavoro empirico e statistico nell'adattamento di un questionario di prova di traduzione multivariato.

    1. Analisi di validità interna, coerenza interna degli item che compongono il questionario di prova. Questa analisi ha lo scopo di mostrare che esiste una certa (non è ancora chiara quale) proprietà diagnostica comune che si trova all'intersezione di tutti gli indicatori empirici (al centro del "bundle" di elementi vettoriali correlati). Tale analisi è obbligatoria in relazione a tutte le scale di test ottenute utilizzando l'analisi fattoriale, ad esempio i questionari di test EPI di Eysenck e 16PF di Cattell. Ma per il questionario “locus of control” o per molte delle principali scale cliniche MMPI non è necessario applicare il requisito della coerenza interna, poiché gli item di queste scale sono stati selezionati secondo un criterio esterno e non sono collegati in un unico “ fascio". L'analisi di coerenza interna può essere applicata sia a test univariati che multivariati. Nel primo caso è sufficiente avere una calcolatrice da tavolo. Per i test multivariati, è necessario utilizzare uno speciale programma per computer "Analisi dei punti".

    2. Verifica della resistenza al nuovo test. Questa verifica è essenziale nella diagnosi delle proprietà rispetto alle quali ci si aspetta teoricamente l'invarianza temporale. L'analisi dell'affidabilità della ripetizione del test può essere combinata (oltre all'analisi dell'affidabilità della coerenza) con lo studio del contenuto informativo dei singoli elementi del test ed anche, eventualmente, della stabilità dei singoli elementi. Senza la conoscenza dell'affidabilità del nuovo test, uno psicologo non è autorizzato a utilizzare il test per costruire alcuna previsione di estrapolazione statica elementare.

    3. Analisi delle correlazioni con un criterio esterno rilevante. Questa fase di adattamento è assolutamente necessaria se il test è stato originariamente sviluppato come criterio orientato, ovvero la selezione degli item è stata effettuata sulla base delle loro correlazioni con alcuni criteri di validità. Ad esempio, un lavoro simile è stato svolto dal team di F. B. Berezin per una versione modificata abbreviata di MMPI (Berezin F. B. et al., 1976).

    4. Verifica o ri-standardizzazione delle norme di prova. Questa fase è già stata discussa sopra. Sfortunatamente, fino a poco tempo fa, solo questa fase di lavoro sull'adattamento dei test era riconosciuta da tutti gli psicologi come necessaria. Ma anche in questo caso, il lavoro statistico necessario per verificare la stabilità della risultante distribuzione dei punteggi dei test alla suddivisione del campione non è stato affatto riprodotto.

    5. Un passaggio specifico per i test multivariati consiste nel verificare la riproducibilità della struttura delle relazioni tra le scale. Ad esempio, per il test di Eysenck, l'ortogonalità, l'indipendenza statistica dei fattori "estroversione - introversione" e "nevrosi - stabilità" sono fondamentali. La correttezza del calcolo dei fattori secondari si basa sulla riproducibilità della struttura delle relazioni delle scale tra i fattori 16PF (Yampolsky L. G., 1981; Melnikov V. M., Yampolsky L. G., 1985).

    Anche uno sguardo superficiale alle cinque fasi elencate consente di assicurarsi che l'adattamento dei test stranieri non sia molto inferiore in termini di volume di lavoro empirico e statistico alla creazione di metodi originali. Qui sarebbe ancora più appropriato utilizzare non il termine "adattamento", ma l'espressione "ricerca di metodi stranieri su campione nazionale".

    №22 Requisiti per la formazione psicometrica di uno psicologo

    Per lo sviluppo efficace della psicodiagnostica pratica oggi è necessario un forte aumento della cultura psicometrica di tutti gli psicologi che utilizzano metodi di misurazione della psicodiagnostica. Tutti gli psicologi dovrebbero avere familiarità con i metodi di ri-standardizzazione del test, i metodi più semplici per verificare l'affidabilità e la validità.

    Ad oggi è sopravvissuta la non del tutto giustificata divisione (e anche opposizione) di psicologi che si considerano esperti nel campo dei metodi clinici e psicologi che si considerano esperti di test. Ma nella maggior parte delle situazioni pratiche reali, è necessaria una combinazione di questi metodi. I metodi clinici e dialogici sono necessari nelle fasi iniziali del lavoro in una determinata area affinché lo psicologo possa costruire un'idea chiara e significativa dell'argomento della psicodiagnostica. Sono anche necessari in casi speciali controversi che richiedono un approccio individualizzato. Ma quando a uno psicologo viene richiesto di condurre esami di massa accelerati, il ricorso a metodi di misurazione standardizzati diventa inevitabile. Qui, nella selezione di tali metodi è richiesta l'alfabetizzazione psicometrica: è impossibile utilizzare metodi sconosciuti, a quale tipo di debug psicometrico sono stati sottoposti.

    L'alfabetizzazione psicometrica universale degli psicologi non preclude la selezione dal loro seno di specialisti di un tipo speciale: psicologi psicometrici che sono professionalmente impegnati nel supporto psicometrico della psicodiagnostica. Pertanto, è consigliabile fornire qui due elenchi di requisiti normativi: per uno psicologo e per uno psicologo-psicometrista.

    Requisiti per uno psicologo:

    1. Lo psicologo deve essere in grado di trattare in modo qualificato la documentazione psicometrica. letteratura metodica in psicodiagnostica, dovrebbe sapere quali caratteristiche psicometriche del test dovrebbero essere indicate dai suoi sviluppatori, in che misura queste caratteristiche psicometriche corrispondono al tipo di test, da un lato, e al compito effettivo per cui è richiesto l'uso, da un lato l'altro. Ad esempio, nei casi in cui è necessario utilizzare un test per la previsione predittiva con un vantaggio significativo e non sono state ricevute informazioni sul test di validità predittiva, il test non può essere considerato pronto per risolvere questo problema.

    2. Lo psicologo deve determinare correttamente in che misura le norme di prova conosciute secondo la metodologia richiesta sono applicabili nella sua situazione, tenendo conto della contingente dei soggetti e del tipo di situazione diagnostica, se esiste una situazione di "trasferimento intraculturale" e se è necessaria una ri-standardizzazione delle norme di prova. Se necessario, lo psicologo dovrebbe essere in grado di ri-standardizzare in modo autonomo e pratico costruendo e analizzando la distribuzione dei punteggi dei test.

    3. Uno psicologo deve essere in grado di raccogliere dati in modo autonomo, condurre elaborazioni di correlazione e misurare la validità empirica dell'efficacia della metodologia in relazione a un determinato criterio. Se necessario, lo psicologo dovrebbe essere in grado di specificare in modo indipendente gli indicatori operativi delle informazioni sui criteri.

    4. Lo psicologo deve essere in grado di determinare autonomamente la comparsa di un errore troppo elevato nei risultati, la perdita del livello di affidabilità richiesto dal metodo, verificando statisticamente la sua ipotesi.

    5. Lo psicologo è obbligato a conservare una doppia documentazione: deve essere pronto a trasferire tutte le copie dei protocolli all'organizzazione metodologica capofila (scientifica-accademica o di industria) per ricostituire la banca dati generale e migliorare le caratteristiche psicometriche della metodologia. Tutte le modifiche apportate alla metodologia (la formulazione delle istruzioni, le singole domande, la sequenza di presentazione), lo psicologo deve coordinarsi con il responsabile dell'organizzazione metodologica, poiché l'introduzione amatoriale sul campo di varie modifiche private comporta la perdita della purezza psicometrica di i risultati ottenuti, non accelera, ma rallenta la creazione di modificazioni adattate a condizioni specifiche e dotate delle necessarie proprietà psicometriche. L'attenta osservanza degli standard metodologici dati è un attributo necessario della cultura psicometrica di uno psicologo.

    6. Uno psicologo deve essere in grado di identificare e misurare autonomamente il livello di distorsioni motivazionali che causano la falsificazione dei dati dei test da parte dei soggetti, deve essere in grado di estirpare correttamente protocolli inaffidabili e registrare statisticamente il raggiungimento di un livello accettabile di affidabilità per risultati di massa nella psicodiagnostica di gruppo.

    7. Lo psicologo deve padroneggiare i metodi di calcolo quantitativo complesso degli indicatori di test indiretti, nonché gli indicatori integrali che richiedono l'aggregazione di diverse informazioni numeriche. Dovrebbe essere in grado di impostare un compito per un programmatore (o uno psicologo-psicometrista) per eseguire calcoli su un computer.

    Lo Psicologo Psicometrico deve essere in grado di:

    1. Pianificare ed eseguire autonomamente tutte le fasi della costruzione psicometrica o dell'adattamento dei metodi psicodiagnostici: verifica dell'affidabilità e validità a livello dei singoli item del test, screening degli item inaffidabili e non validi, costruzione e analisi della distribuzione dei punteggi dei test, compilazione di equazioni matematiche per previsione o una “regola decisionale” per il riconoscimento.

    2. Organizzare l'archiviazione e l'elaborazione dei dati psicodiagnostici su un computer, possedere competenze informatiche all'interno di sistemi operativi standard, conoscere la struttura delle banche dati utilizzate in psicodiagnostica ed essere in grado di gestire banche dati.

    3. Organizzare il lavoro degli psicologi-psicodiagnostici nel mantenere la documentazione dei metodi utilizzati, nell'osservare gli standard metodologici, nel raccogliere e integrare i risultati in banche comuni di informazioni psicodiagnostiche.

    4. Mantenere un file di metodi all'interno di una determinata area (industria servizio psicologico), gerarchizzando accuratamente i metodi in base al livello di sicurezza psicometrica, mantenere una libreria di materiali metodologici e linee guida utilizzando metodi standardizzati.

    №23 Situazioni e compiti psicodiagnostici

    I compiti psicodiagnostici possono essere distinti dal punto di vista di chi e come utilizzerà i dati diagnostici e qual è la responsabilità dello psicodiagnostico nella scelta delle modalità di intervento nella situazione del soggetto.

    · I dati vengono utilizzati da uno specialista alleato per fare una diagnosi non psicologica o formulare una decisione amministrativa. Questa situazione è tipica dell'utilizzo dei dati psicodiagnostici nell'ambito delle attività delle varie commissioni (amministrativa, attestante, disciplinare). Lo psicologo esprime un giudizio sulle caratteristiche specifiche del pensiero, sulla personalità del dipendente e la direzione dell'istituto prende una decisione per la quale lo psicologo non è personalmente responsabile. In questo caso, lo psicologo agisce come un esperto, fornendo la sua valutazione insieme agli altri partecipanti. Deve garantire che la natura dell'uso dei risultati non vada oltre i limiti delineati dai requisiti dell'etica professionale. A tal fine, il documento che lo psicologo prepara per il cliente deve contenere informazioni sulle limitazioni nell'utilizzo dei risultati.

    Dopo l'affidabilità, un altro criterio chiave per valutare la qualità dei metodi è la validità. La questione della validità della metodologia viene decisa solo dopo che è stata stabilita la sua sufficiente affidabilità, poiché una metodologia inaffidabile non può essere valida. Ma la tecnica più affidabile senza conoscerne la validità è praticamente inutile.

    Va notato che la questione della validità fino a poco tempo fa sembra essere una delle più difficili. La definizione più radicata di questo concetto è quella data nel libro di A. Anastasi: “La validità di un test è un concetto che ci dice cosa misura il test e quanto bene lo fa”.

    La validità è essenzialmente una caratteristica complessa, che include, da un lato, informazioni sull'idoneità della tecnica a misurare ciò per cui è stata creata e, dall'altro, qual è la sua efficacia, efficienza e utilità pratica.

    Per questo motivo, non esiste un unico approccio universale per determinare la validità. A seconda del lato di validità che il ricercatore vuole considerare, vengono utilizzati anche diversi metodi di prova. In altre parole, il concetto di validità comprende i suoi diversi tipi, che hanno un loro significato speciale. Il controllo della validità di una tecnica si chiama validazione.

    La validità nel suo primo senso è legata alla metodologia stessa, cioè è la validità dello strumento di misurazione. Questo controllo viene chiamato validazione teorica. La validità nel secondo senso si riferisce già non tanto alla metodologia quanto allo scopo del suo utilizzo. Questa è una convalida pragmatica.

    Riassumendo, possiamo dire quanto segue:

    ♦ nella validazione teorica, il ricercatore è interessato alla proprietà stessa misurata dalla tecnica. Questo, in sostanza, significa che si sta effettuando la validazione psicologica vera e propria;

    ♦ nella validazione pragmatica, l'essenza del soggetto della misurazione (proprietà psicologica) è nascosta. L'enfasi principale è sulla dimostrazione che qualcosa misurato dalla metodologia ha una connessione con determinate aree di pratica.

    Trascorrere validazione teorica, a differenza di quella pragmatica, a volte risulta essere molto più difficile. Senza entrare per ora nei dettagli specifici, soffermiamoci in termini generali su come viene verificata la validità pragmatica: viene selezionato un criterio esterno indipendente dalla metodologia che determina il successo in una determinata attività (educativa, professionale, ecc.), e con esso il i risultati della tecnica diagnostica vengono confrontati. Se la connessione tra di loro è riconosciuta come soddisfacente, si trae una conclusione sul significato pratico, l'efficienza e l'efficacia della tecnica diagnostica.


    Per determinare la validità teorica, è molto più difficile trovare un criterio indipendente che stia al di fuori della metodologia. Pertanto, nelle prime fasi dello sviluppo della testologia, quando il concetto di validità stava appena prendendo forma, c'era un'idea intuitiva che il test misura:

    1) la tecnica è stata definita valida, poiché ciò che misura è semplicemente ovvio;

    2) la prova della validità si basava sulla fiducia del ricercatore che il suo metodo consentisse di comprendere l'argomento;

    3) la metodologia è stata considerata valida (cioè è stata accettata l'affermazione che tale e tale test misura tale e tale qualità) solo perché la teoria sulla base della quale è stata costruita la metodologia è molto buona.

    L'accettazione per fede delle accuse sulla validità della metodologia non poteva durare a lungo. Le prime manifestazioni di una vera critica scientifica sfatarono questo approccio: iniziò la ricerca di prove scientificamente valide.

    Pertanto, per condurre una validazione teorica della metodologia è dimostrare che la tecnica misura esattamente la proprietà, qualità che, secondo l'intenzione del ricercatore, dovrebbe misurare.

    Quindi, ad esempio, se è stato sviluppato un test per diagnosticare lo sviluppo mentale dei bambini, è necessario analizzare se misura davvero questo sviluppo e non alcune altre caratteristiche (ad esempio personalità, carattere, ecc.). Quindi, per la validazione teorica, il problema cardinale è il rapporto tra i fenomeni psicologici ei loro indicatori, attraverso i quali questi fenomeni psicologici cercano di essere conosciuti. Questo mostra quanto coincidono l'intenzione dell'autore ei risultati della metodologia.

    Non è così difficile validare teoricamente un nuovo metodo se esiste già un metodo di comprovata validità per misurare una data proprietà. La presenza di una correlazione tra un metodo nuovo e uno simile, già sperimentato, indica che il metodo sviluppato misura la stessa qualità psicologica di quello di riferimento. E se il nuovo metodo risulta al tempo stesso più compatto ed economico nell'esecuzione e nell'elaborazione dei risultati, allora la psicodiagnostica ha l'opportunità di utilizzare il nuovo strumento al posto del vecchio.

    Ma la validità teorica è dimostrata non solo dal confronto con indicatori correlati, ma anche con quelli in cui, in base all'ipotesi, non dovrebbero esserci relazioni significative. Pertanto, per verificare la validità teorica, è importante, da un lato, stabilire il grado di connessione con una tecnica correlata (validità convergente) e la mancanza di questa connessione con metodi che hanno una base teorica diversa (validità discriminante).

    È molto più difficile effettuare una validazione teorica del metodo quando una tale modalità di verifica è impossibile. Molto spesso, questa è la situazione affrontata dal ricercatore. In tali circostanze, solo il graduale accumulo di varie informazioni sulla proprietà in studio, l'analisi delle premesse teoriche e dei dati sperimentali e la notevole esperienza nel lavoro con la tecnica consentono di rivelarne il significato psicologico.

    Un ruolo importante nella comprensione di cosa misura la metodologia è svolto dal confronto dei suoi indicatori con forme pratiche di attività. Ma qui è particolarmente importante che la metodologia sia elaborata a fondo in termini teorici, cioè che ci sia una base scientifica solida e ben fondata. Quindi, confrontando la metodologia con un criterio esterno tratto dalla pratica quotidiana, corrispondente a ciò che misura, si possono ottenere informazioni che rafforzano le idee teoriche sulla sua essenza.

    È importante ricordare che se viene dimostrata la validità teorica, l'interpretazione degli indicatori ottenuti diventa più chiara e inequivocabile e il nome della metodologia corrisponde all'ambito della sua applicazione. Riguardo validazione pragmatica, quindi implica testare la metodologia dal punto di vista della sua efficacia pratica, significato, utilità, poiché ha senso utilizzare una tecnica diagnostica solo quando è dimostrato che la proprietà misurata si manifesta in determinate situazioni di vita, in determinati tipi di attività. Viene data grande importanza, soprattutto quando si pone la questione della selezione.

    Se torniamo alla storia dello sviluppo della testologia, allora possiamo distinguere un periodo (20-30 del XX secolo) in cui il contenuto scientifico dei test e il loro bagaglio teorico erano di minore interesse. Era importante che il test funzionasse e aiutasse a selezionare rapidamente le persone più preparate. Il criterio empirico per la valutazione degli item del test è stato considerato l'unica vera linea guida nella risoluzione di problemi scientifici e applicati.

    L'uso di metodiche diagnostiche con una giustificazione puramente empirica, senza una chiara base teorica, ha portato spesso a conclusioni pseudoscientifiche e raccomandazioni pratiche ingiustificate. Era impossibile nominare con precisione quelle caratteristiche, qualità che i test hanno rivelato. Essenzialmente, erano prove alla cieca.

    Questo approccio al problema della validità del test era tipico fino all'inizio degli anni '50. 20 ° secolo non solo negli USA, ma anche in altri paesi. La debolezza teorica dei metodi empirici di validazione non poteva che suscitare critiche da parte di quegli scienziati che, nello sviluppo dei test, chiedevano di fare affidamento non solo sul mero empirismo e pratica, ma anche su un concetto teorico. La pratica senza teoria è cieca e la teoria senza pratica è morta. Attualmente, la valutazione teorica e pratica della validità dei metodi è percepita come la più produttiva.

    Condurre una validazione pragmatica di una metodologia, vale a dire valutarne l'efficacia, l'efficienza, il significato pratico, un approccio indipendente criterio esterno- un indicatore della manifestazione della proprietà studiata nella vita di tutti i giorni. Tale criterio può essere sia il rendimento scolastico (per i test di capacità di apprendimento, i test di rendimento, i test di intelligenza), sia i risultati di produzione (per i metodi di orientamento professionale), sia l'efficacia dell'attività reale: disegno, modellazione, ecc. (per i test di abilità speciali ), valutazioni soggettive (per i test di personalità).

    I ricercatori americani D. Tiffin ed E. McCormick, dopo aver analizzato i criteri esterni utilizzati per dimostrarne la validità, ne distinguono quattro tipi [secondo 31):

    1) criteri di rendimento (possono comprendere la quantità di lavoro svolto, il rendimento scolastico, il tempo dedicato alla formazione, il tasso di crescita delle qualifiche, ecc.);

    2) criteri soggettivi (includono vari tipi di risposte che riflettono l'atteggiamento di una persona nei confronti di qualcosa o qualcuno, la sua opinione, opinioni, preferenze; ​​di solito i criteri soggettivi si ottengono attraverso interviste, questionari, questionari);

    3) criteri fisiologici (vengono utilizzati per studiare l'influenza dell'ambiente e altre variabili situazionali sul corpo umano e sulla psiche; vengono misurate la frequenza cardiaca, la pressione sanguigna, la resistenza elettrica della pelle, i sintomi di affaticamento, ecc.);

    4) criteri di casualità (applicati quando lo scopo dello studio riguarda, ad esempio, il problema della selezione per il lavoro di persone meno soggette a infortuni).

    Il criterio esterno deve soddisfare tre requisiti fondamentali:

    ♦ deve essere rilevante;

    ♦ esenti da interferenze;

    ♦ affidabile.

    Sotto pertinenza intendendo la corrispondenza semantica dello strumento diagnostico con un criterio vitale indipendente. In altre parole, deve esserci la certezza che i criteri coinvolgono proprio quelle caratteristiche della psiche individuale che sono misurate anche dalla tecnica diagnostica. Il criterio esterno e la tecnica diagnostica devono essere in corrispondenza semantica interna tra loro, essere qualitativamente omogenei nell'essenza psicologica. Se, ad esempio, un test misura le caratteristiche individuali del pensiero, la capacità di eseguire azioni logiche con determinati oggetti, concetti, allora nel criterio si dovrebbe cercare proprio la manifestazione di queste abilità. Ciò vale anche per le attività professionali. Non ha uno, ma diversi obiettivi, compiti, ognuno dei quali è specifico e impone le proprie condizioni di attuazione. Ciò implica l'esistenza di diversi criteri per lo svolgimento delle attività professionali. Pertanto, non si dovrebbe confrontare il successo dei metodi diagnostici con l'efficienza produttiva in generale. È necessario trovare un criterio che, per la natura delle operazioni svolte, sia comparabile con la metodologia.

    Se non è noto rispetto al criterio esterno se è rilevante o meno per la proprietà misurata, allora il confronto dei risultati della tecnica psicodiagnostica con essa diventa praticamente inutile. Non consente di trarre conclusioni che possano valutare la validità della metodologia.

    Requisiti libertà da interferenze sono causati dal fatto che, ad esempio, il successo scolastico o industriale dipende da due variabili: dalla persona stessa, dalle sue caratteristiche individuali, misurate dai metodi, e dalla situazione, dalle condizioni di studio, di lavoro, che possono interferire, "contaminare" il criterio applicato. Per evitare ciò in una certa misura, dovrebbero essere selezionati per la ricerca gruppi di persone che si trovano più o meno nelle stesse condizioni. Puoi anche usare un altro metodo. Consiste nel correggere l'influenza dell'interferenza. Questo aggiustamento è di solito di natura statistica. Quindi, ad esempio, la produttività non va assunta in termini assoluti, ma in relazione alla produttività media dei lavoratori che lavorano in condizioni simili.

    Quando si dice che un criterio deve avere un valore statisticamente significativo affidabilità, ciò significa che deve riflettere la costanza e la stabilità della funzione studiata.

    La ricerca di un criterio adeguato e facilmente individuabile è uno dei compiti di validazione più importanti e difficili. Nella testologia occidentale, molti metodi sono squalificati solo perché non sono riusciti a trovare un criterio adatto per testarli. Ad esempio, per la maggior parte dei questionari, i dati sulla loro validità sono discutibili, poiché è difficile trovare un criterio esterno adeguato che corrisponda a ciò che misurano.

    La valutazione della validità dei metodi può essere quantitativa e qualitativa.

    Calcolare quantitativo indicatore - coefficiente di validità - i risultati ottenuti applicando la tecnica diagnostica vengono confrontati con i dati ottenuti dal criterio esterno delle stesse persone. Vengono utilizzati diversi tipi di correlazione lineare (secondo Spearman, secondo Pearson).

    Quante materie sono necessarie per calcolare la validità?

    La pratica ha dimostrato che non dovrebbero essercene meno di 50, ma più di 200. Sorge spesso la domanda, quale dovrebbe essere il valore del coefficiente di validità affinché sia ​​considerato accettabile? In generale, si osserva che è sufficiente che il coefficiente di validità sia statisticamente significativo. Un coefficiente di validità di circa 0,20-0,30 è riconosciuto come basso, 0,30-0,50 come medio e oltre 0,60 come alto.

    Ma, come sottolineano A. Anastasi, K. M. Gurevich e altri, non è sempre corretto utilizzare la correlazione lineare per calcolare il coefficiente di validità. Questa tecnica è giustificata solo quando è dimostrato che il successo in alcune attività è direttamente proporzionale al successo nell'esecuzione di un test diagnostico. La posizione dei testologi stranieri, in particolare quelli coinvolti nell'idoneità professionale e nella selezione professionale, si riduce molto spesso al riconoscimento incondizionato che colui che ha completato il maggior numero di compiti nel test è più adatto alla professione. Ma può anche essere che per avere successo in un'attività, sia necessario possedere una proprietà a livello del 40% della soluzione di prova. Un ulteriore successo nel test non conta più per la professione. Un esempio illustrativo tratto dalla monografia di K. M. Gurevich: un postino deve saper leggere, ma se legge a velocità normale oa velocità molto elevata non ha più importanza professionale. Con una tale correlazione tra gli indicatori della metodologia e il criterio esterno, il modo più adeguato per stabilire la validità può essere il criterio delle differenze.

    È possibile anche un altro caso: un livello di proprietà superiore a quello richiesto dalla professione interferisce con il successo professionale. Quindi, agli albori del 20° secolo. il ricercatore americano F. Taylor ha scoperto che i lavoratori più sviluppati nella produzione hanno una bassa produttività del lavoro. Cioè, l'alto livello del loro sviluppo mentale ha impedito loro di lavorare in modo altamente produttivo. In questo caso, l'analisi della varianza o il calcolo dei rapporti di correlazione sarebbero più adatti per calcolare il coefficiente di validità.

    Come ha dimostrato l'esperienza dei testologi stranieri, nessuna procedura statistica è in grado di riflettere pienamente la diversità delle valutazioni individuali. Pertanto, un altro modello viene spesso utilizzato per dimostrare la validità dei metodi: le valutazioni cliniche. Non è altro che qualità descrizione dell'essenza della proprietà studiata. In questo caso si tratta dell'utilizzo di tecniche che non si basano sull'elaborazione statistica.

    Domande e compiti

    1. Definire il concetto di "standardizzazione del metodo".

    2. Che cos'è un campione rappresentativo? Come è costruito?

    3. Denominare i criteri per la valutazione dei risultati degli esami diagnostici indicati nel capitolo.

    4. Qual è l'affidabilità della metodologia? Denominare i tipi di affidabilità.

    5. Qual è la validità della metodologia? Dai un nome ai suoi tipi principali.

    1. Anastasi A. Test psicologici: In 2 libri. / Ed. KM Gurevich, V. I. Lubovsky. Prenotare. 1. - M., 1982.

    2. Burlachuk L.F. Psicodiagnostica. - San Pietroburgo, 2003.

    3. Burlachuk L.F., Morozov S.M. Dizionario-libro di consultazione sulla diagnostica psicologica. - Kiev, 1989.

    4. Gaida V. K., Zakharov V. P. Test psicologici. - L., 1982.

    5. Gurevich K.M. Sull'affidabilità degli indicatori psicofisiologici // Problemi di psicofisiologia differenziale. T. 6. - M., 1969.

    6. Gurevich K.M. Affidabilità dei test psicologici // Diagnostica psicologica. I suoi problemi e metodi. - M., 1975.

    7. Gurevich K.M. La statistica come apparato per dimostrare la diagnostica psicologica // Problemi della diagnostica psicologica. - Tallinn, 1977.

    8. Gurevich K.M. Cos'è la diagnosi psicologica. - M., 1985.

    9. Gurevich K.M. Problemi di psicologia differenziale. - M.; Voronez, 1998.

    10. Noss I.N. Introduzione alla tecnologia della psicodiagnostica. - M., 2003.

    11. Psicodiagnostica generale / Ed. A. A. Bodaleva, V. V. Stolin. - M., 1987.

    12. Fondamenti di psicodiagnostica / Ed. AG Shmeleva. - Rostov n / a, 1996.

    Per calcolare un indicatore quantitativo - coefficiente di validità - i risultati ottenuti con la tecnica diagnostica vengono confrontati con i dati ottenuti dal criterio esterno negli stessi individui, si utilizzano diversi tipi di correlazione lineare (secondo Spearman, secondo Pearson).

    Misura di prova: non dovrebbe essere inferiore a 50, ma più di 200 è il migliore.

    Il valore del coefficiente di validità: si riconosce un coefficiente di validità basso di circa 0,20 - 0,30, uno medio - 0,30, - 0,50 ed uno alto oltre 0,60.

    Calcolo della validità empirica esperta (valutativa).

    dove, Y - valutazione dell'esperto, x - punteggio del test della materia

    Problema di norma

    Norma- il concetto chiave della teoria e della pratica della psicodiagnostica. Il problema della norma è la questione più complessa della psicologia. La complessità della norma si esprime in presenza di una serie di approcci alla sua definizione.

    Avendo una base oggettiva, la norma è mutevole nel tempo. Di conseguenza, vi è una difficoltà nella sua definizione univoca e precisa.

    Per lo psicologo diagnostico, la norma appare sotto vari aspetti. Approcci alla definizione della norma:

    IO. Comprensione adattiva della norma. Nell'ambito di questo approccio, la norma è interpretata in termini di adattamento (adattamento). Lo stato ottimale è garantire l'adattamento a ambiente. Questa comprensione è in buon accordo con buon senso e ha una base nella coscienza ordinaria. Tale comprensione della norma si basa sulla natura socio-biologica dell'uomo e sulla necessità di adattarsi all'ambiente. Concetto di sopravvivenza. Con tz di questo concetto, tutto ciò che contribuisce al mantenimento della vita umana è normale.

    Criterio di adattamento:

    la psiche svolge le funzioni di un processo adattivo

    1) sopravvivenza (caratteristica)

    2) dare prole

    Critica:

    Uso illegale del metodo selezione naturale a una persona perché i risultati dell'ontogenesi - il cambiamento dei modelli biologici da parte di quelli sociali;

    L'assurdità della conseguenza del concetto con la stretta aderenza al suo fondamento.

    Conseguenza: un malato di mente è normale in fatto della sua esistenza.

    II. Concetto di relativismo culturale. Il relativismo è relatività. Questo approccio si basa sulla valutazione del comportamento umano con il cosiddetto. norme sociali. Di conseguenza, le norme sociali sono utilizzate come criterio che distingue il comportamento normale da quello deviante. Il relativismo culturale concretizza le esigenze del comportamento umano, definendone i confini contesto sociale a cui appartiene. A questo proposito, il comportamento normativo di una persona appartenente alla norma in una cultura può non corrispondere ad essa in un'altra.



    Critica: una persona appartiene a tante società che fanno richieste, che spesso si contraddicono, quindi sorge la domanda: qual è la norma?

    III. Norma generica. Lo stato ottimale dell'oggetto della psicodiagnostica è associato all'acquisizione da parte di una persona della sua essenza generica universale. Indicatori scientifici di essenza generica (segni):

    Tratta gli altri come valore in se stessi;

    La natura creativa della vita;

    Fede nella fattibilità dell'intento;

    Responsabilità interna verso se stessi e gli altri

    Il desiderio di trovare il senso end-to-end della vita.

    Critica:

    Alto livello di astrazione dei segni della norma e deviazioni.

    IV. norma statistica. Nell'ambito di questo approccio, la norma è intesa come tipica, diffusa, media (di massa, abituale). Si basa sui dati della biologia, della medicina, della psichiatria, secondo i quali l'umanità è divisa in una stragrande maggioranza: il 95% sono norme e una piccola minoranza che ha segni di deviazioni.

    In ogni cosa biologica c'è sia una norma che una patologia. Spiegazione: con il cosiddetto. teoria dell'evoluzione, un cambiamento nell'ambiente cambia anche l'organismo. Piccoli e lenti cambiamenti nell'ambiente, ma anche grandi e veloci. In questo caso, gli individui principali non sono adattati. La specie sopravvive a spese del 5% della patologia, un meccanismo compensatorio di adattamento all'ambiente. Normale è una media tipica.

    La norma è stabilita per mezzo di indicatori medi per un numero di segni. Norma statistica - confronto dei dati individuali e distribuzione di gruppo degli indicatori nel campione di standardizzazione. La norma statistica determina la deviazione della posizione di un individuo in un determinato gruppo. Determina come appare sullo sfondo degli altri.

    La norma statistica prevede una descrizione che utilizza 2 grandezze:



    1) Media aritmetica (x);

    2) Deviazione standard (s)

    [x ± s] - il risultato in questo limite è la norma.

    Svantaggi della norma statistica:

    1. Il significato della norma statistica è il livello del soggetto sullo sfondo degli altri. Ma non dice nulla sulle effettive possibilità di attività. Esempio: ammissione ad un'università.

    2. Manifestazioni mentali insolite positivo la norma statistica è considerata una deviazione. Esempio: memoria eidetica.

    La norma è l'unità del generale e dello specifico. 2 casi limite:

    Massima generalità - questo approccio richiede una descrizione dell'oggetto della psicodiagnostica, solo come generale implica un confronto del soggetto con il gruppo. Allo stesso tempo, osservano: quanto più ampia è la gamma di oggetti a cui la norma si applica, tanto meno concreto ha il contenuto. La norma è astratta, unilaterale e vuota.

    Massima specificità - richiede una descrizione dell'oggetto della psicodiagnostica, solo come speciale e unico. Implica il confronto del soggetto con se stesso. Tutto è normale in relazione a se stesso, quindi c'è una perdita di criteri per valutare i dati diagnostici: la norma viene rimossa come problema scientifico, la norma è l'unità del generale e dello specifico. La difficoltà della norma nel trovare la combinazione ottimale per l'area in esame.

    v. a) La norma come assenza di deviazioni. Caratterizza la norma attraverso l'assenza di deviazione e trova espressione nella formula: Tutto ciò che non è C (a, b, c) è A. Dove C è una deviazione, a, b, c, sono segni di una deviazione, A è la norma.

    Questo approccio implica l'istituzione di una norma attraverso l'esclusione delle deviazioni senza rivelarne il contenuto positivo. Descrizione della norma in termini di deviazioni. Esempio: il Menisota Inventory (MMPI), la base per la classificazione di Kreichmer delle malattie.

    b) La norma presuppone la somiglianza della struttura della psiche malata e sana.

    A (a', b', c') è un grado debole di espressione di C (a, b, c), dove A è la norma; a', b', c' - segni di lievi deviazioni; C - deviazione; a, b, c - segni di deviazione fortemente pronunciata.

    Questo approccio si basa sul presupposto che una persona mentalmente sana corrisponda alla norma purché questi segni espressivi non superino i limiti prescritti. Questa versione della descrizione della norma consente di valutare la psiche di una persona sana a scopo preventivo con la vista. potenziale minaccia di disadattamento. Esempio: Tecnica delle accentuazioni dei caratteri. Il concetto di numero diagnostico minimo. Se supera, quindi, ci sono delle accentuazioni e viceversa. La differenza nella gravità del paziente e sano.

    VI. Descrittivo o norma come salute mentale ideale. La norma si stabilisce attraverso le caratteristiche dei segni salute mentale. La base sono i valori umani universali, segni dell'attività produttiva di una sana personalità autorealizzante (interesse per il mondo esterno, presenza di una funzione vitale che razionalizza l'esperienza accumulata, capacità di colorare con umorismo le azioni, stabilire contatti spirituali con gli altri , l'integrità della psiche). Secondo l'organizzazione sanitaria, i segni sono la causalità dei fenomeni mentali, la massima vicinanza delle immagini soggettive agli oggetti della realtà, la corrispondenza delle reazioni alla forza e alla frequenza degli stimoli esterni, un approccio critico alle circostanze della vita, una risposta adeguata alle circostanze, la capacità di autogovernare il comportamento in conformità con le norme stabilite in gruppi diversi, un senso di costanza e identità dell'esperienza nello stesso tipo di circostanze, un cambiamento di comportamento in situazioni diverse.

    Difficoltà di approccio:

    1. L'assenza nella pratica nella maggior parte dei casi di un insieme completo di segni di salute mentale ideale.

    2. L'eterogeneità di una serie di criteri descrittivi richiede ulteriori chiarimenti.

    VII. Intuitivo. Le caratteristiche non verbali sono utilizzate come criterio per la valutazione dei dati diagnostici. Questo approccio si basa sull'esperienza del lavoro psicodiagnostico e sui risultati dell'esame del cliente. Fa dipendere l'efficienza dalle qualifiche dello psicologo. Può rientrare nell'ambito dell'art. Esempio: un medico cattura la sua reazione a un paziente. I medici hanno una diagnosi a prima vista, una valutazione intuitiva della situazione.

    Conclusione: la mancanza di un'idea unificata della norma porta al fatto che ciascuno degli approcci riflette un lato e ha i suoi limiti. Questo è un problema classico. la tariffa cambia nel tempo.


    SEZIONE 3. STRUMENTI PSICODIAGNOSTICI