Kniha (2022)/Vyrovnávání obtížnosti testů

Z StaTest

Součástí standardizace je i vyrovnávání obtížnosti testů (též harmonizace testů). Jejím cílem je zajištění vzájemné porovnatelnosti různých běhů nebo paralelních forem testu (například v jednotlivých letech, na jednotlivých školách a pod.).

Vyrovnávání obtížnosti (equating) je technický postup, jak přepočítat hodnocení studentů z jednotlivých běhů (paralelních forem) testu tak, aby výsledky studentů dosažené v jednom běhu mohly být porovnávány s výsledky studentů v jiných bězích testu [1].

Vyrovnávání obtížnosti je důležitým aspektem kvality testování a přímo ovlivňuje jeho validitu. Je základním nástrojem při hodnocení vzdělávání, protože hraje zásadní roli při stanovení validity testu ve všech formách a letech.

Při porovnávání testů mezi sebou se používají dva postupy: provázání testů (linking) a vyrovnání testů (equating). Provázání dvou testů (linking) znamená, že mezi výsledky těchto testů vytvoříme relaci (prolinkování). Např. můžeme vytvořit tabulku odpovídajících skóre z obou testů, dosažených vždy studenty stejné úrovně v obou testech. Na základě této tabulky můžeme říci, že studenti, kteří v prvním testu získali skóre X získají v druhém testu s největší pravděpodobností skóre Y.

Tvrzení, že došlo k vyrovnání obtížnosti (equating), je mnohem silnější. Pokud by oba uvažované testy byly úspěšně vyrovnány, pak můžeme prohlásit, že studenti, kteří dosáhli skóre X v prvním testu a studenti, kteří dosáhli skóre Y ve druhém testu, mají velmi podobnou úroveň znalostí a dovedností měřených těmito testy.

Jinými slovy tvrzení, že dvě formy testu jsou vyrovnané (rovnocenné), znamená, že měří stejný obsah a podporují stejné závěry o tom, co studenti znají a umějí. Řekneme-li naproti tomu, že mezi oběma testy existuje provázání (prolinkování), jde o mnohem slabší tvrzení, které pouze znamená, že existuje statisticky měřitelná souvislost mezi skóre v obou testech. Je to dáno tím, že skutečnost, že studenti, kteří dosáhli v prvním testu skóre X a ve druhém skóre Y, ještě neznamená, že oba testy měří opravdu totéž (stejný konstrukt). Provázání testů tedy není dostatečným argumentem, abychom mohli jeden test nahradit druhým. K tomu by bylo třeba ověřit, že testy jsou i rovnocenné, tedy získat i potvrzení odborníků, že oba testy pokrývají stejnými prostředky stejnou doménu.

Vyrovnávání obtížnosti testů může testu buď předcházet (pre-equating), nebo jej následovat (post-equating). Předběžným vyrovnáváním úrovní testu se myslí sestavování nového testu tak, aby formátem, obsahem a svými charakteristikami odpovídal výchozímu testu. Při dodatečném vyrovnávání obtížnosti testu může být test rovněž sestaven podle pravidel pro předběžné vyrovnávání, ale konečné vyrovnání se provádí až pomocí dat získaných z analýzy proběhlého testu.


Pro vyrovnání obtížnosti dvou testů potřebujeme nějaké srovnatelné údaje. Jednou z možností je zadat oba testy dostatečně velké skupině lidí a porovnat výsledky. Aby se omezil vliv pořadí testů, může být skupina rozdělena a každá polovina dostane testy v opačném pořadí. Nevýhodou tohoto přístupu je nepraktičnost a velká časová náročnost administrace dvou testů. Roste rovněž bezpečnostní riziko, protože expozice dvou testů zvyšuje riziko vynesení jejich položek.

Pro omezení těchto negativních aspektů můžeme použít tzv. kotvení testu, kdy se do testu zařadí určitý počet úloh, které jsou ve všech verzích stejné. Tyto tzv. kotvící položky pak slouží ke vzájemnému porovnání různých verzí testu. Kotvící položky by měly být reprezentativní, měly by pokrývat rozsah obtížnosti testu a jejich počet by měl dosahovat minimálně 20 % z délky testu [2]. Výběr témat kotvících položek by měl kopírovat obsah celého testu. Sadu kotvících položek můžeme považovat za "miniverzi" celého testu. [1].

Kotvící položky mohou být buď "vnitřní" nebo "vnější", podle toho, jestli se započítávají, nebo nezapočítávají do skóre testu. Mohou být "vložené", pokud jsou rozptýleny v testu, nebo "připojené" jako samostatný blok položek na konci testu.

Metod pro vyrovnávání testů je celá řada.

Lineární vyrovnávání je nástroj pro stanovení ekvivalentních skóre mezi dvěma paralelními formami testu v rámci klasické testové teorie. Lineární vyrovnávání je založeno na předpokladu, že se testy liší jen hodnotou svého průměru hrubých skóre a variabilitou výsledků (tedy velikostí směrodatné odchylky). Za těchto předpokladů můžeme přepočítat skóre z jednoho testu na druhý pomocí lineární transformace. Můžeme tedy nejprve transformovat průměrné skóre druhého testu na průměrné skóre testu prvního a potom transformujeme hodnotu skóre druhého testu pro jednu směrodatnou odchylku nad a pod průměrem. Výsledkem je lineární transformace skóre z druhého testu na bodovou škálu prvního testu. Metoda má několik omezení:

  • Lineární vyrovnání nebude fungovat v případech, kdy vztah mezi výsledky testů není lineární (např. při asymetrickém rozdělení skóre).
  • Transformace platí jen pro tu sadu testovaných, pro které byla spočtena.
  • Transformace funguje nejlépe pro skóry vzdálené od průměru o méně než směrodatnou odchylku.

Výhodou lineární transformace je, že je snadno pochopitelná a výpočetně jednoduchá.

Pokud bychom chtěli použít robustnější přepočet, který funguje i pro studenty na okrajích zkoumaného pásma schopností, můžeme použít např. ekvipercentilní vyrovnání.

Ekvipercentilová metoda zajišťuje větší přesnost vyrovnání výsledků podél celé škály možných výsledků. Při tomto vyrovnávání výsledků určíme nejprve v obou testech percentilové pořadí dosažených skóre. Percentilová pořadí mezi oběma testy se poté pomocí tabulky spárují. Druhá možnost je, že se nejprve hrubá skóre převedou na percentily a ty se pak oskórují (už pro oba testy společně). Řada počítačových programů nabízí možnost vypočítat ekvivalentní skóry nebo stanovit percentilové pořadí pro všechna dosažená skóre. Percentilové pořadí se rovněž často používá pro sdělování výsledků studentům. Mezi nevýhody patří, že podobně jako lineární vyrovnání testů je i ekvipercentilní závislé na konkrétním výběru studentů, a není bez dalšího použitelné pro jiné skupiny. Obě dosud zmíněné metody jsou v mnohém podobné. Někdy bývá lineární vyrovnání označováno za aproximaci ekvipercentilového. [3]

Metody vyrovnávání založené na IRT. V praxi se více používají metody založené na teorii odpovědi na položku, které se ukázaly být přesnější a stabilnější než metody odvozené z klasické testové teorie a neobsahují závislost na konkrétní skupině testovaných.

Metody vyrovnání testů založené na IRT můžeme rozdělit do dvou skupin:

  • metody vyrovnání pozorovaných skóre
  • metody vyrovnání skutečných skóre.

V prvním případě se srovnávají skutečná skóre ve dvou testových formách. Na základě znalosti chování kotvících položek přítomných v obou testových formách transformujeme skóre druhého z testů tak, aby obtížnosti kotvících položek v obou testech splynuly. Ve druhém případě se odhadovaná rozdělení součtových skóre ve dvou formách odvozují z modelu IRT, kam vyneseme do jednoho grafu charakteristické křivky dvou nebo více porovnávaných testů a vyrovnáme je pomocí metodiky ekvipotenciálního vyrovnání. [4]

Jedním z omezení metod vyrovnání testů založených na IRT je potřebný počet testovaných, který by neměl klesnout pod 500. Odhad parametrů v podmínkách malého vzorku není uspokojivý a zhoršuje se s komplexností IRT modelu.

Pro vyrovnávání obtížnosti testů na základě IRT je k dispozici volně dostupný software IRTEQ[5], nebo je možné využít balíček R equate. [6]



Reference

  1. 1,0 1,1 KOLEN, Michael J, Robert L BRENNAN a Michael J KOLEN. Test equating, scaling, and linking: methods and practices. 2nd ed. New York: Springer, c2004, xxvi, 548 p. ISBN 0-387-40086-9.
  2. JELÍNEK, Martin a Petr KVĚTON. Testování v psychologii :  Teorie odpovědi na položku a počítačové adaptivní testování. 1. vydání. Praha : Grada, 2011. 160 s. ISBN 978-802-4735-153.
  3. HAMBLETON, Ronald K., Hariharan SWAMINATHAN a H. Jane ROGERS. Fundamentals of item response theory. Newbury Park, Calif.: Sage Publications, c1991. ISBN 0803936478.
  4. A Practitioner's Introduction to Equating: With Primers on Classical Test Theory and Item Response Theory [online]. Washington: Council of Chief State School Officers, 2021 [cit. 2021-10-1]. Dostupné z: https://ccsso.org/resource-library/practitioners-introduction-equating
  5. Han, K. T. (2009). IRTEQ: Windows application that implements IRT scaling and equating [computer program]. Applied Psychological Measurement, 33(6), 491-493.
  6. ALBANO, Anthony D. Equate: An R Package for Observed-Score Linking and Equating. Journal of Statistical Software [online]. 2016, 74(8) [cit. 2021-10-1]. ISSN 1548-7660. Dostupné z: doi:10.18637/jss.v074.i08