Kniha (2022)/Validita

Z StaTest

Validita (správnost, pravdivost, věrnost, platnost) popisuje, do jaké míry test měří to, co chceme, aby měřil. Validita testu se týká míry, v jaké jsou závěry založené na jeho výsledcích smysluplné a užitečné. Tedy jestli je test správně navržen a zda jeho výsledek není příliš ovlivněn systematickými chybami.

Podle definice je validita testu míra, ve které shromážděné důkazy a teorie podporují navrhovanou interpretaci testových skórů při doporučeném způsobu použití testu. [1] Z definice je patrné, že validita (na rozdíl od reliability) je konstrukt, který nelze měřit přímo. Lze na něj pouze usuzovat ze souvislostí s dalšími pozorováními.


V praxi se musíme ptát, zda náš test měří skutečně to, co by měřit měl. Výslednou validitu přitom ovlivňuje celý řetězec předpokladů, které je třeba mít na paměti. Například pokud použijeme test z profilových předmětů na střední škole k výběru uchazečů o studium medicíny, pak bychom měli zvážit:

  1. Zda test měří znalosti a schopnosti studenta, které mohl nabýt na střední škole.
  2. Zda schopnost zvládnout předměty vyučované na střední škole predikuje schopnost absolvovat vysokou školu.
  3. Zda absolvování vysoké školy predikuje schopnost absolventa být dobrým lékařem.
  4. Zda výsledek testu neovlivňují nějaké vedlejší faktory (např. dostupnost přípravných materiálů).


Je zřejmé, že přesné vyjádření validity naráží na některé principiální problémy. Je například obtížné popsat, kdo je dobrý lékař. V zahraniční se to někdy obchází tím, že se zkoumá míra akademické a profesní úspěšnosti absolventů. Jde ale o zjednodušení, neboť dobrým lékařem může být i zcela neambiciózní absolvent, který odejde dělat obvodního lékaře do pohraničí. Při odhadu validity přijímacích testů se proto často spokojíme s mírou úspěšnosti vyjádřenou jako schopnost úspěšně absolvovat školu v čase k tomu vymezeném. Aby kompromisům nebyl konec, nelze v praxi často čekat na ověření validity celou dobou řádného studia a spokojíme se s akademickou úspěšností např. po prvním roce studia. Tím do našeho řetězce předpokladů přibude další, kde předpokládáme, že úspěšné absolvování prvních ročníků studia predikuje v přijatelné míře úspěšnost v celém studiu. Takový předpoklad může mít ve skutečnosti jen omezenou platnost, například proto, že první roky studia na lékařských fakultách se věnují teoretickým oborům a vyšší ročníky klinickému studiu.

Validace testu

Protože validitu testu nelze měřit přímo, soustředíme se v praxi na jeho validaci, tj. shromažďování důkazů, že je test validní. Validace testu přestavuje shromáždění empirických dat a logických argumentů, které prokazují, že závěry jsou skutečně vhodné. Důkazy, kterými se snažíme doložit validitu, mohou mít různou povahu. Jednotlivé typy důkazů se navzájem nenahrazují, spíš se prolínají a doplňují.

Obsahová validace

Obsahová validace se zabývá vztahem mezi obsahem testu a cílovými kompetencemi, jichž má testovaný dosáhnout. Během přípravy testu (zejména při plánování a recenzi testu) se několik zkušených pedagogů zabývá otázkou, zda a nakolik úlohy obsažené v testu pokrývají zkoušené znalosti a dovednosti a obráceně, jestli všechny úlohy spadají do zkoušené oblasti a nezkoušejí něco jiného. Zkoumá se také, jestli je zastoupení úloh věnujících se jednotlivým tématům proporčně vyvážené. Posouzení obsahové validity je svým způsobem kontrola, zda byl dodržen plán testu (tj. jeho blueprint - specifikační tabulka).

Vždy při tom závisí na účelu testu. Například je-li cílem testu hodnocení vzdělávacího programu, mohou být jeho předmětem i témata, která nebyla probírána, a testem se vlastně zjišťuje, jak si studenti s novou problematikou poradí. Naproti tomu pokud je test určen k posouzení, zda testovaný může postoupit do dalšího ročníku, musí obsah testu striktně vycházet z obsahu vyučované látky.[1]

Při obsahové validaci je třeba rovněž sledovat, zda interpretace dosažených testových skóre nezvýhodňuje některou z podskupin testovaných.

Kriteriální validace

Obsahová validace zmíněná výše slouží k ověření, zda připravovaný test odpovídá cílům zkoušeného oboru. Neprokazuje ale, jak takový test odpovídá objektivním kritériím (např. studijnímu úspěchu), s nimiž bychom náš test rádi porovnali. K tomu slouží kriteriální validace, která zkoumá vztah mezi výsledkem testu a objektivním nezávislým kritériem nebo kritérii (známkami, postupem do dalšího studia, úspěšným absolvováním školy, ...).

Obecně rozlišujeme dva typy studií, které souvislost testu s kritériem studují, studie souběžné a prediktivní.

Při zkoumání souběžné validity (concurrent validity) srovnáváme validovaný test a kritérium současně a porovnáváme, zda jde skutečně o alternativní způsoby měření stejného konstruktu[1]. V principu může být souběžným kritériem jiný, již ověřený test. Zjišťujeme pak, do jaké míry se shodují výsledky zkoumaného nového testu s tímto ověřeným testem. Míru shody můžeme vyjádřit např. pomocí korelačního koeficientu.

Prediktivní validita popisuje, do jaké míry náš test předpovídá budoucí hodnoty nějakého kritéria. Predikční validita je klíčovým parametrem všech přijímacích testů. [2] Účelem přijímacích testů je vybrat studenty s nejlepšími dispozicemi pro budoucí studium. Je proto na místě zkoumat, zda používané testy skutečně predikují úspěšnost ve studiu. V praxi to znamená, že se zjišťuje korelace výsledků přijímacích zkoušek s úspěšností studia, nebo že se z dat odhaduje regresní model, kterým lze úspěšnost ve studiu předpovídat.

Kromě toho nás může zajímat, zda daný test přináší novou informaci nad ty, které získáváme jinými způsoby, tedy jaká je jeho validita inkrementální neboli přírůstková. V případě zmíněných přijímacích testů nás může například zajímat, zda přijímací testy přidávají novou informaci o budoucím studiu uchazeče nad tu, kterou nám poskytuje jeho středoškolský prospěch. Např. studie [3] na základě dat studentů přijatých na 1. LF UK ukázala, že středoškolský prospěch vysvětlí zhruba 15 % variability úspěšnosti ve studiu. Výsledek z přijímací zkoušky zvýší procento vysvětlené variability úspěšnosti na 22 %, přidání informace o úspěšně absolvovaných profilových předmětech na střední škole na 25 % a informace o roku maturity dokonce na 30 %. Všechny zmíněné efekty byly v modelu signifikantní (tedy statisticky průkazné), prokázala se tak jejich přírůstková validita. [4].

Zájemci o validaci testů mohou najít podrobnější informace v řadě pramenů. [5], [6],[7].

Konstruktová validace

Konstruktová validita testu vyjadřuje, jestli test měří požadovaný psychologický konstrukt. Patří k nejdůležitějším průkazům validity. Testem se snažíme posoudit schopnosti studenta, které nelze žádným způsobem změřit přímo - jsou latentní. Snažíme se proto vytvořit abstraktní konceptuální konstrukt (model), který nám pomáhá tuto latentní schopnost pochopit a popsat.

Jako příklad si představme test z matematiky. Latentní schopností může být schopnost řešit určitý typ slovních matematických úloh. Pokud má test tuto latentní schopnost hodnotit, ale testové úlohy jsou psané dlouhými kostrbatými souvětími, může se stát, že ve skutečnosti měříme spíše schopnost orientovat se v komplikovaném a dlouhém textu - tedy úplně jiný koncept. Výkon je pak ovlivněn faktorem, který nemá souvislost s měřeným konstruktem, z hlediska testu je to tedy konstruktově irelevantní rozptyl.

Prokázání konstruktové validity vyžaduje shromáždění více zdrojů důkazů. Je zapotřebí důkaz, že test měří to, co má měřit (v tomto případě znalost základní matematiky), a také důkaz, že test neměří, co nemá měřit (čtenářské dovednosti). To se označuje jako konvergentní a diskriminační důkazy validity.

Konvergentní důkazy validity spočívají v poskytnutí důkazů, že dva testy, o nichž se předpokládá, že měří úzce související dovednosti nebo typy znalostí, spolu silně korelují. To znamená, že dva různé testy nakonec hodnotí studenty podobně. Diskriminační důkazy validity podle stejné logiky spočívají v poskytnutí důkazu, že dva testy, které neměří úzce související dovednosti nebo typy znalostí, spolu silně nekorelují (tj. poskytnou rozdílné pořadí studentů).

Jak konvergentní, tak diskriminační validita poskytují důležité důkazy pro konstruktovou validitu. Jak již bylo uvedeno dříve, test základní matematiky by měl měřit především konstrukty související s matematikou, a nikoli konstrukty týkající se čtení. Aby bylo možné určit konstruktovou validitu konkrétního testu z matematiky, bylo by třeba prokázat, že korelace výsledků tohoto testu s výsledky jiných testů z matematiky jsou vyšší než korelace s testy ze čtení.

Zobecnění průkazu validity

Pro praktické použití vztahu mezi testem a kritériem v nových podmínkách (např. stejný kurz další akademický rok) je třeba provést důkaz, že ověření validity získané v předchozích podmínkách lze použít k předpovědi míry validity v novém, ale podobném prostředí. Tomuto kroku, který je protikladný k hypotéze situační specifičnosti, se říká zobecnitelnost validity a obvykle se ověřuje pomocí metaanalýz. Snažíme se při nich posoudit, zda jsou přiměřeně porovnatelné parametry předchozích studií posuzujících kriteriální validitu. Výsledky zpravidla podporují argumenty pro zobecnění validity, což naznačuje, že není nutné provádět nový důkaz validity v každém novém případě, pokud se podmínky a parametry studie významně neliší. [8]

Souhrn důkazů validity

Celková validace integruje jednotlivé důkazy validity zamýšlené interpretace testových skóre, včetně zahrnutí technické kvality testu, férovosti testu a reliability testových skóre.

  1. 1,0 1,1 1,2 Chybná citace: Chyba v tagu <ref>; citaci označené Standardy není určen žádný text
  2. Hanson, Joshua T. MD, MPH1; Busche, Kevin MD2; Elks, Martha L. MD, PhD3; Jackson-Williams, Loretta E. MD, PhD4; Liotta, Robert A. MD5; Miller, Chad MD6; Morris, Cindy A. PhD7; Thiessen, Barton MD8; Yuan, Kun PhD9. The Validity of MCAT Scores in Predicting Students’ Performance and Progress in Medical School: Results From a Multisite Study. Academic Medicine 97(9):p 1374-1384, September 2022. | DOI: 10.1097/ACM.0000000000004754
  3. ŠTUKA, Čestmír, Patrícia MARTINKOVÁ a Karel ZVÁRA, et al. The prediction and probability for successful completion in medical study based on tests and pre-admission grades. The New Educational Review [online]2012, roč. -, vol. 28, no. 2, s. 138-152, dostupné také z <http://www.educationalrev.us.edu.pl/vol/tner_2_2012.pdf>. ISSN 1732-6729. 
  4. Chybná citace: Chyba v tagu <ref>; citaci označené Testovani2012 není určen žádný text
  5. BYČKOVSKÝ, Petr a Karel ZVÁRA. Konstrukce a analýza testů pro přijímací řízení. 1. vydání. Praha : Univerzita Karlova v Praze, Pedagogická fakulta, 2007. 79 s. ISBN 978-80-7290-331-3.
  6. ZVÁRA, Karel. Regrese. 1. vydání. Praha : MATFYZPRESS, vydavatelství Matematicko-fyzikální fakulty Univerzity Karlovy v Praze, 2008. 254 s. ISBN 978-80-7378-041-8.
  7. BYČKOVSKÝ, Petr a Karel ZVÁRA. Konstrukce a analýza testů pro přijímací řízení. 1. vydání. Praha : Univerzita Karlova v Praze, Pedagogická fakulta, 2007. 79 s. ISBN 978-80-7290-331-3.
  8. Schmidt, F. L., & Hunter, J. E. (1977). Development of a general solution to the problem of validity generalization. Journal of Applied Psychol-ogy, 62, 529–540.