Kniha (2022)/Adaptivní testování
Při běžném testu obdrží účastník řadu položek, z nichž některé pro něj nemusí být zcela relevantní. Mohou být těžší, nebo lehčí, než je jeho úroveň. Informační funkce testových položek pokrývají interval úrovní obtížnosti, v němž se pohybují schopnosti většiny testovaných jedinců. Nechtěným vedlejším jevem je, že každý účastník testu odpovídá na řadu úloh, které jsou pro něj moc snadné, nebo naopak moc obtížné. Přitom obojí je demotivující a z pohledu testující instituce jde o plýtvání časem. Při elektronickém testován si proto lze představit algoritmus, který bude testovanému vybírat položky, jejichž obtížnost bude přizpůsobována jeho výkonu při řešení předchozích úloh.
Tento přístup se nazývá "počítačové adaptivní testování" (computer adaptive testing, CAT). Umožňuje změřit latentní schopnost studenta se stejnou přesností jako klasický test, ale s použitím menšího počtu položek.
Adaptivní testování tedy přizpůsobuje test testovanému, položku po položce, na základě jeho odpovědí. Správná odpověď vede k obtížnější položce, zatímco nesprávná odpověď vede k jednodušší položce. Obtížnost položek se průběžně přizpůsobuje schopnostem testovaného. Nadaný student obdrží obtížnější položky, zatímco průměrný student obdrží položky snazší. Počet použitých položek souvisí s požadovanou přesností měření. To znamená, že test se zastaví, když je dosaženo předem stanovené požadované přesnosti psychometrických kritérií. U adaptivního testování je test jen tak dlouhý, jak je skutečně třeba.

Metoda je založena na teorii odpovědi na položku (item response theory, IRT), o které pojednávala předchozí kapitola.
Výhody a nevýhody počítačového adaptivního testování (CAT)
CAT je moderní způsob testování, který využívá algoritmy k optimálnímu přizpůsobení testu pro každého zkoumaného. V tradičním pojetí jsou položky sestavovány do testové sady a jsou předkládány studentům v této sadě. Nejviditelnější nevýhodou je tohoto přístupu je neefektivita. Obtížnost testových položek nijak nereflektuje schopnosti testovaného. Představme si mimořádně schopného studenta, který správně zodpoví všechny nejtěžší otázky. Můžeme mu s jistotou přiřadit vysoké skóre bez ztráty času na zodpovídání všech jednoduchých otázek. Zatímco u jednoho studenta se tato úspora může zdát ještě malá, uplatníte-li stejnou metodu na celou testovanou skupinu, jsou úspory času markantní.
Dalším problémem je nestejná přesnost měření pro studenty s různou úrovní znalostí. V tradičních testech bývá obvykle zastoupeno nejvíce položek se střední obtížností. To má dobrý důvod: mezi testovanými bude pravděpodobně velké množství lidí se střední úrovní schopností. Lidé s průměrnými schopnostmi budou testem velmi přesně vyhodnoceni. Stane se tak ale na úkor malé přesnosti měření u studentů s nízkou, nebo naopak vysokou úrovní schopností. Ti jsou hodnoceni s mnohem menší přesností. Ze stejného důvodu mohou mít studenti s nadprůměrnými, nebo podprůměrnými schopnostmi špatnou zkušenost s testem. Slabí studenti se mohou cítit vyčerpaní a odrazení tím, že většina položek je příliš obtížná, zatímco nadprůměrní studenti mohou být demotivováni tím, že většina položek je pro ně příliš snadná.
- Výhody CAT
- Kratší testy (až o 50 %)
- Stabilní přesnost
- Příznivá zpětná vazba testovaných
- Lepší motivace testovaných
- Menší expozice testových položek
- Možnost využití pro měření pokroku studenta (jeho test na konci bude jiný)
- Nevýhody CAT
- Nemožnost se v průběhu testu vracet k dříve zodpovězeným položkám
- Citlivost na testovou úzkost
- Potřeba předchozí kalibrace položek
- U položek s výhodnými vlastnostmi může jejich příliš časté využití způsobit jejich vynesení
- Vyžaduje dostatek pilotních testerů (několik set)
- Příprava vyžaduje velmi kvalifikované odborníky
- Náročnější na vysvětlení veřejnosti - vyšší náklady na public relations
Požadavky na počítačové adaptivní testování (CAT)
CAT mají mnoho výhod, včetně zkrácení doby testování na polovinu, ale vyžadují zkušené psychometriky, rozsáhlé pilotní vzorky a specializovaný software. Uveďme na tomto místě základní přehled toho, co je potřeba zvážit při rozhodování o adaptivním testování.
- Položky musí být hodnotitelné automaticky, protože podle výsledku položky předešlé se v reálném čase volí položka následující. Tím jsou vyloučeny některé jinak užitečné formy testových položek (otázky s tvořenou odpovědí, esej apod.)
- Je třeba mít zdroje na vývoj bank s velkým počtem položek. Obvykle potřebují banky alespoň třikrát více úloh, než je zamýšlená délka testu (i když to často není více, než je potřeba pro tradiční formy testu).
- Musí proběhnout rozsáhlé pilotní testy. IRT vyžaduje, aby pro pilotní testování byl použit vzorek alespoň 100–1000 testovaných. Požadovaný počet závisí na složitosti použitého modelu IRT. Komplexnější modely IRT vyžadují větší vzorky.
- Je třeba mít odborníky na psychometrii. Pro úspěšné nasazení jsou třeba kvalifikovaní odborníci zejména na kalibraci položek a IRT analýzu, případně i pro simulaci adaptivního testování s danou testovou sadou.
- K dispozici musí být analytický software. Pro kalibraci položek je potřeba software pro analýzu IRT (např. volně dostupný ShinyItemAnalysis nebo komerční ekvivalenty).
- Nezbytná je položková banka podporující IRT, schopná ukládat IRT parametry položek a podporovat navrhování CATs.
- Konečně je potřeba mít vhodný systém pro doručování testu. Ten musí být schopný adaptivního testování na základě IRT, přinejmenším s příslušnými kritérii ukončení a algoritmy výběru položek.