Kniha (2022)/Teorie odpovědi na položku

Z StaTest

Klasická testová teorie dává dobré výsledky, pokud mají testovaní srovnatelnou úroveň znalostí a schopností. Představme si, že tomu tak v nějakém konkrétním případě není. Například, že skupina testovaných je složena z těch, kdo už absolvovali řidičský kurz, a těch kdo, s ním právě začínají. Pokud jim předložíte stejnou otázku o přednosti vozidel na křižovatce, může být tato otázka pro jedny lehká a pro druhé obtížná. Vidíme tedy, že s konceptem obtížnosti úlohy postaveným na klasické testové teorii v tomto případě nevystačíme. Řešením by bylo skupinu rozdělit a měřit obtížnost úlohy na opět na homogenních podskupinách. Dostali bychom tak dvě různé hodnoty obtížnosti, odpovídající dvěma úrovním znalostí.

Pokud bychom skupinu členili podrobněji, např. podle délky školení, mohli bychom nakonec získat (téměř) spojitou informaci o obtížnosti zkoumané položky. Tato spojitá křivka popisuje chování položky pro různé úrovně znalostí a dovedností studentů a nazývá charakteristická funkce položky (item characteristic function, ICF).

Obr. 6.6.1 Pravděpodobnost správné odpovědi v závislosti na úrovni znalostí studenta, (odvození IRT)

Slabší studenty budeme tedy hledat v levé části křivky (světlá kolečka v našem grafu) a lepší studenty v pravé části (tmavá kolečka). Na tomto konceptu je založena celá teorie odpovědi na položku (Item Response Theory - IRT).

Vlastnosti IRT modelů

Předpokládejme, že z proběhlých testů známe pravděpodobnosti správných odpovědí pro různé úrovně studentů. Pokud máme takových měření dost, mohli bychom se jimi pokusit proložit křivku a odhadovat pravděpodobnost úspěchu pro další možné testované. Proložená charakteristická funkce položky má většinou typický esovitý tvar, který se dá matematicky popsat jako logistická funkce. Esovitý tvar je společný i pro jiné charakteristické funkce (mimo oblast psychometrie), např. funkce zčernání fotografické emulze v závislosti na osvícení a další. Esovitost charakteristické křivky vyjadřuje skutečnost, že převod mezi podnětem a reakcí je efektivní jen v omezeném rozsahu podnětů. Představme si, že skupině různě starých jedinců předložíme test rozpoznávání tvarů. Pro předškoláky bude asi příliš obtížný a pro maturanty příliš snadný. Plochost charakteristické křivky pro okrajové hodnoty úrovně schopností odpovídá tomu, že v těchto skupinách test nebude dobře rozlišovat schopnější od méně schopných.

Charakteristická funkce popisující chování položky stojí v základu řady matematických modelů, které se snaží popsat, jak vyšetřovaní reagují na položky. Proto se tomuto přístupu říká teorie odpovědi (odezvy) na položku (item response theory, IRT).

IRT, nebo též teorie latentních vlastností, je psychometrická teorie, která byla vytvořena s cílem lépe porozumět tomu, jak jednotlivci reagují na jednotlivé položky v psychologických a vzdělávacích testech. Pojem latentní znak se používá v IRT proto, že charakteristiky jednotlivců nelze přímo pozorovat; musí být odvozeny pomocí určitých předpokladů o procesu reakce, které pomáhají odhadnout tyto parametry. Parametr θ na vodorovné ose IRT grafu reprezentuje úroveň latentního rysu jedince, kterým může být lidská schopnost nebo vlastnost měřená v testu. Tou může být kognitivní schopnost, fyzická schopnost, dovednost, znalost, postoj, atd.

Teorie odezvy na položky překonává klasickou teorii testů (CTT) v řadě aspektů. Poskytuje efektivnější popis toho, jak položky skutečně fungují, odstraňuje problém se závislostí vlastností položek na vzorku testovaných, dovoluje vytvářet testy se srovnatelnými vlastnostmi a vyrovnávat různé verze (běhy) testu, umožňuje odhadnout vliv hádání odpovědi a umožňuje využít detailní znalost vlastností položek pro adaptivní testování.

Nejjednodušší IRT model počítá s jednou proměnnou - obtížností. Různě obtížné položky jsou reprezentovány charakteristickými křivkami stejného tvaru, jen posunutými vlevo (pro lehčí položky) nebo vpravo (pro těžší položky). [1]

Obr. 6.6.2 Charakteristické křivky různě obtížných položek v jednoparametrickém IRT modelu

Jednoparametrický IRT model se někdy též označuje jako Raschův model. Je to trochu zjednodušení, protože, ač jsou si oba modely vnějškově velmi podobné, vycházejí z jiných předpokladů a přístupů. IRT má více deskriptivní povahu, protože si klade za cíl přizpůsobit model datům. V porovnání s tím, Raschův model klade důraz na zapadnutí dat do modelu. Co se tím myslí? Jedním z předpokladů Raschova modelu je "jednorozměrnost" testu, tedy že test měří jen jeden základní konstrukt. Pokud položka měří jiný konstrukt, musí být z testu vyloučena. Součástí práce s Raschovým modelem je proto identifikace nadbytečných rozměrů testu a eliminace položek, které jejich vznik způsobují. Dalším předpokladem je nezávislost položek. Tedy, že pravděpodobnost správné odpovědi na jednu položku by měla být nezávislá na odpovědi na ostatní položky. Předpoklad nezávislosti není naplněn, pokud mají položky vysokou pozitivní korelaci. Pro dodržení nezávislosti položek by měla být vždy jedna ze vzájemně závislých položek z testu vynechána. V tomto smyslu se tedy "upravují" data, aby odpovídala modelu. S daty se dále pracuje podobně jako v IRT analýze. Zájemce o toto téma odkazujeme na rozsáhlou literaturu.[1],[2],[3],[4] V praxi je důležité, aby bylo vždy deklarováno, se kterým modelem se pracuje, aby nemohlo dojít k nedorozumění.

Realitu věrněji popisují komplexnější IRT modely, které kromě obtížnosti pracují i s citlivostí položky. Příkladem může být dvouparametrický logistický model. Zatímco obtížnost je, stejně jako v jednoparametrickém modelu, reprezentována polohou křivky, citlivost je reprezentována jejím sklonem. Dává to dobrý smysl, čím je charakteristická křivka strmější tím ostřeji bude test rozlišovat mezi podobně nadanými jedinci. Citlivost je jistě žádoucí vlastnost položky, ale snadno nahlédneme, že velmi citlivá položka bude fungovat jen v omezeném rozmezí úrovní schopností testovaných.

Obr. 6.6.3 Schematické znázornění parametrů v tříparametrickém modelu IRT. Obtížnost položky souvisí s polohou charakteristické křivky (respektive vzdáleností od svislé osy), citlivost souvisí se sklonem charakteristické křivky v daném bodě (představte si, že bychom u koeficientu ULI zjemnili dělení na vodorovné ose nade všechny meze, pak jako měřítko citlivosti rovněž dostaneme sklon v daném bodě.) Třetím parametrem je uhádnutelnost položky, která je v grafu reprezentována čerchovanou vodorovnou čárou (asymptotou). Pokud máme položku s výběrem z šesti nabízených odpovědí, pak i zcela neznalý student má šanci 0,17, že správnou odpověď uhádne.)


Obr. 6.6.4 Souvislost informační funkce položky a charakteristické funkce položky
Informační funkce položky

Podíváme-li se na typickou charakteristickou funkci položky standardního esovitého tvaru, pak vidíme, že položka dobře rozlišuje jen v určitém okolí svého inflexního bodu, kde sklon charakteristické funkce zajišťuje, že se posun na ose latentní vlastnosti (úroveň znalosti) promítne do změny pravděpodobnosti správné odpovědi. S rostoucí vzdáleností je charakteristická křivka položky stále plošší a položka pro tyto hodnoty schopnosti testovaného přestává rozlišovat mezi lepšími a horšími účastníky testu.

Informace, kterou z použití položky můžeme vytěžit, je nejvyšší v okolí inflexního bodu charakteristické funkce a pak rychle klesá. Funkce popisující informační přínos položky má zvonovitý tvar, nazývá se informační funkce položky a můžeme ji získat derivováním charakteristické funkce položky.

Informační funkce testu

Informační funkci celého testu získáme jako součet informačních funkcí jednotlivých položek (předpokládáme, že odpovědi na položky jsou na sobě pro konkrétní hodnotu latentní schopnosti nezávislé).

Z tvaru charakteristické funkce položky se odvíjí tvar informační funkce položky. Vysoce rozlišující položky (se strmou charakteristickou křivkou) mají vysokou a úzkou informační křivku. Taková položka má vysokou informační hodnotu, ale jen v úzkém rozsahu obtížnosti. Položky s plošší charakteristickou křivkou, a tedy nižší hodnotou informační funkce, mohou mít pro danou úroveň latentního parametru nižší rozlišovací schopnost, ale zase mohou být přínosem v širším rozsahu obtížností. Pokud známe informační funkce položek, můžeme při plánování testu sledovat pokrytí intervalu latentní schopnosti informační funkcí testu, aby nedocházelo k nadbytečné redundanci podobně fungujících položek a na druhé straně, aby byl pokryt celý interval schopností, který nás zajímá.


Obr. 6.6.5 Schéma ilustrující, jak se informační funkce testu skládá z informačních funkcí jednotlivých položek. Přerušované křivky představují informační funkce položek. Plnou čarou nad nimi je znázorněna informační funkce celého testu.
Software pro výpočet IRT modelů

Zatímco odhady obtížnosti a citlivosti v rámci klasické testové teorie jsou výpočetně poměrně jednoduché, v případě IRT je situace nepoměrně složitější. Neznámou latentní schopnost studenta odhadujeme hledáním maxima funkce věrohodnosti jak odhadované parametry popisují chování položek. Tyto optimalizační procedury jednak vyžadují sofistikovaný softwarový nástroj a za druhé, aby byl odhad dostatečně robustní je zapotřebí velký počet testovaných. Nejméně stovky, lépe však tisíce. Čím přesnější (víceparamteričtější) model, tím větší je požadavek na počet testovaných.

Vzhledem k tomu, že matematické modely IRT mohou být pro běžného smrtelníka poněkud nepřehledné, je pro další studium možno zvolit literaturu, která se drží v přijatelných mezích obtížnosti. Můžeme doporučit např. přehled literatury, který podává Hynek Cígler v časopise Testfórum.[5]

Pro výpočet modelu v rámci teorie odpovědi na položku je k dispozici řada programů. Můžete zvolit pronájem některého komerčního programu, jako je například Stata (ve verzi 14 a vyšší), IRTPRO, nebo Xcalibre. Nebo naopak sáhnout po příslušných knihovnách v open source prostředí R. Komerční software je zpravidla uživatelsky přátelštější, ale dražší, zatímco prostředí R je zadarmo, ale předpokládá, že se naučíte základy prostředí a budete používat programové kódy z knihoven, nebo si s jejich využitím budete vytvářet kód vlastní, což může být časově dost náročné.

Na pomezí těchto dvou světů je zdarma dostupná webová aplikace ShinyItemAnalysis od Patricie Martínkové a jejích spolupracovníků, kterou používáme a můžeme doporučit. Je postavená na prostředí R, ale její rozhraní je "klikací", takže se snadno používá. [6], [7]



Odkazy

Reference

  1. 1,0 1,1 TAVAKOL, Mohsen a Reg DENNICK. Psychometric evaluation of a knowledge based examination using Rasch analysis: An illustrative guide. Medical Teacher. 2013, 35(1), e838-e848. ISSN 0142-159x. Dostupné z: doi:10.3109/0142159X.2012.737488
  2. STEMLER, Steven E. a Adam NAPLES. Rasch Measurement v. Item Response Theory: Knowing When to Cross the Line. Practical Assessment, Research, and Evaluation. 26(11). ISSN 1531-7714. Dostupné z: doi:10.7275/v2gd-4441
  3. KEAN, Jacob, Erica F. BISSON, Darrel S. BRODKE, Joshua BIBER a Paul H. GROSS. An Introduction to Item Response Theory and Rasch Analysis: Application Using the Eating Assessment Tool (EAT-10). Brain Impairment [online]. 2018, 19(1), 91-102 [cit. 2021-11-21]. ISSN 1443-9646. Dostupné z: doi:10.1017/BrImp.2017.31
  4. BOONE, William J., Amity NOLTEMEYER a Gregory YATES. Rasch analysis: A primer for school psychology researchers and practitioners. Cogent Education [online]. 2017, 4(1) [cit. 2021-11-21]. ISSN 2331-186X. Dostupné z: doi:10.1080/2331186X.2017.1416898
  5. CÍGLER, Hynek. Jak začít s Teorií odpovědi na položku?: S pomocí knihy „Applying The Rasch Model: Fundamental Measurement in the Human Sciences“. Testfórum [online]. 2014, 2014, (3) [cit. 2021-9-28]. Dostupné z: https://testforum.cz/article/download/TF2014-3-15/10487
  6. Martinková, P., & Drabinová, A. (2018). ShinyItemAnalysis for teaching psychometrics and to enforce routine analysis of educational tests. The R Journal, 10(2), 503-515. doi: 10.32614/RJ-2018-074.
  7. Martinková, P., Drabinová, A., & Houdek, J. (2017). ShinyItemAnalysis: Analýza přijímacích a jiných znalostních či psychologických testů. TESTFÓRUM, 6(9), 16-35. doi: 10.5817/TF2017-9-129.