Kniha (2022)/Reliabilita

Z StaTest

Výsledek testu by měl v ideálním případě záviset jen na tom, co chceme testovat, tj. skóre získané v testu by mělo záviset jen na schopnostech testovaného v oblasti, kterou testem zkoušíme (tzv. skutečné skóre). V reálném životě se ale výsledek testu (hrubé skóre) od skutečného skóre liší v důsledku víceméně náhodných chyb. Každý test má tedy určitou spolehlivost a přesnost, kterou vyjadřujeme jako reliabilitu (spolehlivost, preciznost, reprodukovatelnost)[1].

Reliabilita říká, do jaké míry při opakovaném nezávislém hodnocení týchž jedinců dostaneme podobné výsledky. Vliv na ni má třeba, jak dobře testovaný rozumí zadání úloh, zejména pokud jsou komplikovaně formulovány a on je z jiného kulturního nebo jazykového prostředí. Výsledek testu také závisí na pozornosti testovaného, ovlivní jej prostředí v místnosti a vyrušování během testu, nebo to, zda testovaný pracuje ve stresu. Reliabilitu snižuje i případné hádání odpovědí atd.

Reliabilita nabývá hodnot mezi 0 a 1 (0 % a 100 %). Zjednodušeně si můžeme reliabilitu představit jako míru potlačení náhodných chyb vyjádřenou v procentech. Reliabilita 50 % znamená, že přibližně za polovinou variability pozorovaného skóre (hrubého skóre) je variabilita skutečného skóre (tj. měřených schopností testovaného) a druhá polovina jde na vrub náhodných chyb. Reliabilita 0,8 znamená, že variabilita pozorovaného skóre je z 80 % tvořena variabilitou skutečné schopnosti a 20 % tvoří chyby.

Minimální výše reliability testu, kterou lze považovat za uspokojivou, závisí na kontextu, např. na počtu úloh v testu a počtu testovaných. Pokud jde o počet testovaných, bylo uveřejněno několik doporučení, která se shodují, že pro rozumný odhad reliability by neměl klesnout pod několik stovek. [2] Pokud by byl počet účastníků výrazně nižší, je možné místo reliability pracovat s celkovou užitečností, jak ji zavedl van der Vleuten. [3], [4]

Pro účely pedagogické diagnostiky jedinců, např. při rozhodování o přijetí k dalšímu studiu, se zpravidla požaduje koeficient reliability minimálně 0,8 (a vyšší). Pro ostatní školskou praxi postačuje koeficient reliability pohybující se v blízkosti hodnot 0,6–0,7. [1]. U testů s malým počtem úloh (10 a méně) zpravidla reliabilita nepřesahuje hodnotu 0,6-0,8. Nižší hodnota reliability nemusí nutně znamenat, že test je vysloveně špatný, ale musí se s ním zacházet opatrně a neměl by sloužit jako samostatný podklad pro rozhodování. Naopak velmi vysoký koeficient reliability (blízký 1) může znamenat, že úlohy v testu jsou tak vnitřně konzistentní (navzájem si tak podobné), že jsou vzájemně zastupitelné a v testu by jich mohlo být méně, aniž by to výrazně zhoršilo jeho vlastnosti.

Reliabilita popisuje technickou kvalitu a vnitřní konzistenci testu, avšak nikoli jeho správnost. Test může být spolehlivý – mít vysokou reliabilitu, ale přitom nemusí měřit to, co by měl, takže může mít současně nízkou validitu. Reliabilita testu je ovšem nutným předpokladem jeho validity.

Koncepty reliability a validity a vztah mezi nimi lze dobře ilustrovat na příkladu:

Obr. X.XX Schéma přibližující vztah reliability a validity
Odhady reliability

Reliabilitu z principu nelze spočítat přímo, ale můžeme ji zkusit odhadnout. Při odhadu reliability se snažíme určit, do jaké míry je variabilita výsledků testů způsobena variabilitou skutečných skóre a do jaké míry chybami v měření. (Připomeňme, že chyby měření mohou mít náhodnou a systematickou složku.) Cílem je navrhnout testy tak, aby zdroje chyb byly minimalizovány.

Pro odhad reliability testů se podle situace používají čtyři hlavní přístupy:[5],[6]

  • Reliabilita jako shoda mezi posuzovateli (inter-rater reliability): Tato tzv. klasifikační konzistence se používá k posouzení míry, do jaké různí hodnotitelé poskytují navzájem shodné odhady stejného jevu. Využívá se zejména tam, kde do skórování testu vstupují subjektivní faktory. Podmínkou objektivity je srovnatelné proškolení hodnotitelů, čímž se sjednotí požadovaná kritéria. Je třeba mít na paměti, že vysoká shoda mezi hodnotiteli ještě neznamená, že by testovaný dosáhl stejného výkonu při opakování testu. Shoda mezi posuzovateli a konzistence jejich hodnocení je tedy podmínkou, ale ještě nestačí pro zaručení vysoké reliability skóre testovaných osob.[6]
  • Test-retest reliabilita (spolehlivost testu při jeho opakování): Používá se k posouzení, jak jsou navzájem konzistentní výsledky stejného testu při opakovaném použití na stejné skupině. Jejich konzistenci lze posoudit pomocí výpočtu jejich korelace. Zatímco u jevů, kde opakovaná měření téže veličiny jsou na sobě nezávislá (měření délky, váhy, ...), dává tato metoda výtečné výsledky, pro didaktické testování je obtížně použitelná. Jednotlivé běhy testu totiž nelze považovat za nezávislé. Při krátké pauze mezi testy si mohou účastníci pamatovat, jak odpovídali při prvním běhu testu, a výsledná reliabilita bude nadhodnocena. Doporučuje se proto rozestup minimálně 3 měsíce, i když i tam hrozí zkreslení, neboť studenti se mezi tím mohou látku naučit. Při opakování testu s větším časovým odstupem mohou zase studenti látku již zapomenout a bude se nutně lišit i dosažený výsledek. To skutečnou reliabilitu "opticky" snižuje.
  • Reliabilita paralelních verzí testu: Používá se k posouzení konzistence výsledků dvou testů vytvořených podle stejného předpisu, stejným způsobem, ze stejného tématu. Posuzování reliability paralelních verzí testu (výpočtem jejich korelace) odstraňuje sice problémy s nezávislým opakováním testu, které jsme viděli při metodě test-retest, ale přináší nové obtíže s tvorbou ekvivalentních forem testu. Paralelní formy by měly být vytvořeny podle přesně stejného plánu testu a jejich položky by měly mít stejné psychometrické charakteristiky. Někdy se objevuje snaha vytvářet "paralelní" položky změnou číselných hodnot v příkladech, změnou jmen a názvů v textu úloh apod. V praxi se však ukazuje, že nově odvozené položky mívají zpravidla vyšší obtížnost, takže je třeba vytvářet dvojice položek už při jejich psaní, a pak je do testů losovat.
  • Spolehlivost jako vnitřní konzistence: Používá se k posouzení konzistence výsledků napříč položkami v rámci testu. V předchozím odstavci jsme diskutovali posouzení reliability paralelních forem testu, tedy korelaci mezi testem a paralelním (opakovaným, leč nezávislým) testem. Protože vytvořit paralelní nezávislý test bývá obtížné, používá se jako přiblížení (náhrada paralelního testu) náhodné rozdělení jednoho testu na dvě poloviny. Vzniklé poloviny pak uvažujeme jako dva nezávislé paralelní testy. Korelace mezi těmito dvěma polovinami (korigovaná o délku testu) je dobrým odhadem korelace „skutečný“ test – opakovaný test. Problémem tohoto přiblížení je, že neznáme vliv náhodného rozdělení testu na poloviny. Možná by jiné rozdělení na dvě poloviny přineslo jinou korelaci a tedy jiný odhad reliability test-retest. Mohli bychom sice vystřídat všechna možná dělení na poloviny a pak vzít střední korelaci jako měřítko spolehlivosti, ale to by při testu s více položkami mohlo být velmi pracné. Jednodušší je rozdělit test na nejmenší možné části (jednotlivé položky) a vypočítat korelace mezi nimi. Tento přístup je dobrým měřítkem vnitřní konzistence a základem pro hojně používané Cronbachovo alfa. [7] Cronbachovo alfa lze brát jako průměr odhadů reliability u tesů rozdělených na všechny možné poloviny. [8]

Cronbachovo alfa

Cronbachovo alfa bylo vyvinuto Lee Cronbachem v roce 1951 s cílem poskytnout měřítko vnitřní konzistence testu, tedy míry, nakolik všechny položky v testu měří stejný konstrukt a jaký je rozptyl měření v testu. Pokud jsou položky v testu vzájemně korelované, hodnota alfa se zvyšuje. Hodnota koeficientu alfa je ovlivněna také délkou testu. Pokud je test krátký, hodnota alfa se snižuje. Hodnota alfa je vlastnost konkrétního provedení testu - závisí na složení konkrétní testované skupiny.

Při interpretaci Cronbachova alfa je třeba mít na paměti, že koncept reliability předpokládá, že test je homogenní v tom smyslu, že testové položky zkoumají stejný latentní rys na stejné škále. Pokud je tento předpoklad porušen, může být skutečná reliabilita testu odhadem podhodnocena. U vícedimenzionálních testů by mělo být alfa vypočteno pro každý měřený konstrukt zvlášť. Pokud nejsme o jednodimenzionalitě testu přesvědčeni, musíme se na Cronbachovo alfa dívat jako na dolní hranicí odhadu reliability. Odhady přijatelných číselných hodnot Cronbachova alfa se pohybují v širokých mezích (od 0,70 do 0,95)[9].

Nízká hodnota alfa může být ovlivněna nízkým počtem otázek, heterogenitou měřeného konstruktu, nebo malou korelací mezi položkami. Nejjednodušší metodou, jak zjistit příčinu nízkého alfa, je vypočítat korelace jednotlivých položek s celkovým skóre testu. Položky s nízkou korelací (blížící se nule) nesouvisejí se zbytkem testu a je možné je odstranit.

Pokud je Cronbachovo alfa příliš vysoké, může to naznačovat, že některé položky jsou v testu již nadbytečné a nepřinášejí žádnou další informaci navíc. Maximální doporučená hodnota alfa je 0,90. [10]



Použití Cronbachova alfa můžeme demonstrovat na následujícím příkladu:

Představme si, že chceme zkoušet sčítání čísel od jedné do deseti. Snadno sestavíme test, ve kterém bude větší množství (řekněme padesát) doplňovacích úloh typu „3 + 4 = ......“. Ten, kdo sčítat umí, odpoví správně na všechny otázky, nebo nanejvýš udělá jen ojedinělé nahodilé chyby. Naopak ten, kdo sčítat vůbec neumí, se jen ojediněle strefí do správného řešení. Takto sestavený test můžeme označit za vnitřně konzistentní – testuje jediný koncept (sčítání v daném oboru čísel). Cronbachovo alfa se bude blížit jedné.

Pokud bychom nyní v testu vyměnili polovinu úloh za příklady typu „12 : 3 = ......“, situace se změní. Dáme-li takto změněný test žákům prvních či druhých tříd základní školy, budeme testovat dva koncepty: sčítání a dělení. Lze si představit, že část žáků bude umět dobře sčítat, ale zcela pohoří v dělení. Test již nebude tak konzistentní, jako v předešlém případě; nemůžeme už také říci, že kterékoliv dvě úlohy testují totéž. Cronbachovo alfa se sníží.

Mluvíme-li o vnitřní konzistenci testu, měli bychom si uvědomit, že nezávisí jen na samotných úlohách, ale také na cílové skupině. Pokud bychom totiž dali onen upravený test s jednoduchými početními úlohami gymnaziálním studentům, pravděpodobně by se jevil opět jako vnitřně konzistentní a Cronbachovo alfa by se blížilo jedné: z pohledu takovéto pokročilejší skupiny testovaných totiž zkoušíme opět jediný koncept – základní početní úkony. Zda je konkrétní úloha věnovaná sčítání nebo dělení, bude v tomto případě lhostejné.

Z uvedených příkladů vyplývá, proč by Cronbachovo alfa konkrétního testu nemělo být ani příliš nízké, ani příliš vysoké. Je-li test nekonzistentní, budou se nám špatně interpretovat jeho bodové výsledky. Představme si, že náš test s úlohami na sčítání a dělení dáme žákům druhých tříd. Podle dosaženého počtu bodů asi poměrně snadno rozpoznáme skupinu těch, kteří umí dobře sčítat i dělit, a skupinu žáků, kteří sčítat ani dělit neumí vůbec. Mezi nimi budou žáci, kteří sčítají i dělí, ovšem s mnoha chybami, ale také ti, kteří výborně sčítají, neumí však vůbec dělit. Z výsledku takového testu nepoznáme, zda konkrétní žák obstál v obou činnostech srovnatelně, nebo byl v jedné výborný a v druhé propadá; pravděpodobně by bylo vhodné namísto jednoho testu použít dva samostatné, každý zaměřený na jinou dovednost.

Pokud se naopak Cronbachovo alfa blíží jedné, znamená to, že mnoho studentů z dané skupiny odpovědělo buď na všechny otázky správně, nebo na všechny otázky špatně. Jinými slovy, odpověděl-li student správně na několik prvních otázek, odpovídal správně i na všechny ostatní a obráceně. V uvedeném testu sestaveném pouze z příkladů na sčítání by asi bylo zbytečné dávat žákům padesát otázek – pokud bychom test zkrátili, dostali bychom pravděpodobně zcela srovnatelné výsledky. Test s velmi vysokým Cronbachovým alfa navíc nemusí dostatečně jemně rozlišovat mezi různými úrovněmi znalostí.

Ačkoliv je Cronbachovo alfa široce používané, je třeba mít na paměti všechna jeho omezení.


Odkazy

Reference

  1. 1,0 1,1 Radek Šindler, Rukověť autora testových úloh, Praha 2006, ISBN 80-239-711-5
  2. KLINE, Paul. The Handbook of Psychological Testing. 1995
  3. Van der Vleuten, C.P.M. 1996. The assessment of professional competence: developments, research and practical implications; Advances in health science education, 1, 41-67.
  4. Van der Vleuten, C.P.M. and Schuwirth, L.W.T. 2005 Assessing professional competence: from methods to programmes; Medical Education, 39, 309-317.
  5. Murphy, K. R. and C. O. Davidshofer (2005). Psychological testing : principles and applications. Upper Saddle River, N.J., Pearson/Prentice Hall. ISBN 0-13-189172-3
  6. 6,0 6,1 Standars for Educational and Psychological Testing: AERA, APA & NCME (2014). Washington: American Educational Research Association, 2014, ix, 230 s. ISBN 9780935302356.
  7. SCHUWIRTH, Lambert W. T. a Cees P. M. VAN DER VLEUTEN. General overview of the theories used in assessment: AMEE Guide No. 57. Medical Teacher [online]. 2011, 33(10), 783-797 [cit. 2021-9-26]. ISSN 0142-159X. Dostupné z: doi:10.3109/0142159X.2011.611022
  8. CROCKER, Linda M. a James ALGINA. Introduction to classical and modern test theory. New York: Holt, Rinehart, and Winston, c1986. ISBN 0030616344
  9. TAVAKOL, Mohsen a Reg DENNICK. Making sense of Cronbach's alpha. International Journal of Medical Education [online]. 2011, 2, 53-55 [cit. 2021-10-30]. ISSN 20426372. Dostupné z: doi:10.5116/ijme.4dfb.8dfd
  10. STREINER, David L. Starting at the Beginning: An Introduction to Coefficient Alpha and Internal Consistency. Journal of Personality Assessment [online]. 2003, 80(1), 99-103 [cit. 2021-10-30]. ISSN 0022-3891. Dostupné z: doi:10.1207/S15327752JPA8001_18