Kniha (2022)/Férovost testů a položek
Férovostí (spravedlivostí, objektivností) testu myslíme jeho schopnost měřit studovaný rys nebo konstrukt se stejnou validitou ve všech podskupinách testované populace. Férovostí jsme se zabývali při recenzi testových úloh a zmiňovali jsme, že patří mezi důkazy validity. Ale protože se nám pro její ex-post analýzu (z dat proběhlého testu) budou hodit nástroje teorie odpovědi na položku, vracíme se zde k tomuto tématu znovu.
Položku označujme jako "diferencující" (differential item functioning - DIF), když lidé se stejnou latentní schopností, ale z různých podskupin, mají různou pravděpodobnost správné odpovědi. Samotný rozdíl v průměrném výkonu mezi skupinami ještě nemusí být nutně neférový. Neférovost nastává pouze tehdy, pokud rozdíl v měřeném výkonu neodpovídá skutečnému rozdílu latentní vlastnosti, kterou má test měřit.
Představme si například, že zkoumáme spravedlnost testu porozumění čtenému textu. Přitom zjistíme, že studenti se zrakovým postižením dosahují horších výsledků. Znamená to, že test je vůči těmto studentům nespravedlivý? To zatím nevíme. Je možné, že studenti s zrakovým postižením mají skutečně nižší čtenářské dovednosti než ostatní studenti.
Předpokládejme nyní, že test vytiskneme znovu s výrazně větší velikostí písma a zjistíme, že průměrný výsledek postižených studentů stoupne na úroveň studentů bez postižení. To naznačuje, že test čtení v původní verzi s malým písmem byl pro postižené žáky nespravedlivý (neobjektivní). Výsledek také naznačuje, že test je spravedlivý, pokud je prezentován ve verzi s velkým písmem. Malá velikost písma vnášela do konstrukce testu systematickou chybu.
Rozlišujeme proto tzv. "benigní" DIF, kdy rozdíl v pravděpodobnosti správné odpovědi souvisí s měřeným latentním znakem, a "nepříznivý" DIF, kde se do výsledku promítají artefakty v procesu měření, nestejné možnosti přípravy, na jazykovém prostředí závislá interpretace textu a podobně. Neexistuje žádná jednoznačná kvantitativní metoda, která by dokázala rozlišit tyto dva případy od sebe. Pokaždé, když narazíte na diferenciální fungování položky, je třeba položku pozorně přezkoumat v týmu odborníků. [1]
- Diferenciální funkce položky pohledem IRT
Pro zkoumání férovosti položek lze použít analýzu založenou na teorii odpovědi na položku vztaženou na zkoumané podskupiny testované populace. Teoreticky by měly být problematické položky vyřazeny nebo opraveny již při recenzi položek, kdy se ověřuje obsahová a konstruktová validita, ale ani pečlivá recenze nemusí zachytit vše. Analýza odpovědí testovaných studentů zahrnující chování položek vůči různým podskupinám testovaných může pomoci zachytit problematické položky a zlepšit kvalitu a férovost testu v dalších kolech.
V praxi se zkoumá, zda obtížnost položky není rozdílná pro vybrané podskupiny testovaných (např. absolventi gymnázií vs. absolventi ostatních středních škol), které mají jinak stejné schopnosti (měřeno např. celkovým skóre). Pro dané skupiny proložíme naměřenými body charakteristické křivky podle IRT teorie a porovnáme tyto křivky mezi sebou. Jako index popisující rozdílné fungování položky pro obě skupiny pak bereme plochu mezi oběma křivkami.
Ve Spojených státech se v testech SAT se vyskytla otázka na verbální analogie: Najděte podobný vztah
- Běžec : Maraton
- (a) vyslanec : velvyslanectví
- (b) mučedník : masakr
- (C) veslař : regata
- (d) rozhodčí : turnaj
- (e) kůň : stáj
Je snadné najít správnou odpověď („veslař“ a „regata“) pokud jste z prostředí, kde se pojmy "maraton" a "regata" používají. Při analýze testů se ukázalo, že na tuto otázku odpovídali prokazatelně hůře afroameričtí studenti (22 % správných odpovědí), než jejich bílí kolegové (53 % správných odpovědí), ačkoli v jiných otázkách tomu tak nebylo. Otázka předpokládala „samozřejmou“ znalost sportu rozšířeného jen mezi jednou ze subpopulací. [2]


Využití IRT pro analýzu férovosti přináší detailní informace, které by byly základě recenze férovosti jen těžko odhadnutelné. Ukázalo se například, že v otázkách k přijímacím testům na lékařskou fakultu se vyskytují diferencující položky, na které odpovídaly ženy výrazně lépe, než muži. Byly to zejména úlohy týkající se dětských nemocí.
Pro odhady férovosti je možné využít i další statistické metody, například vizualizaci pomocí grafického zobrazení proporcí správných odpovědí, či analýzu kontingenčních tabulek (metoda Mantel-Haenszel). Všechny uvedené nástroje najde zájemce v aplikaci ShinyItemAnalysis.
Problematika férovosti svým rozsahem překračuje rozsah tohoto textu. Případným zájemcům doporučujeme publikace, kurzy a nástroje, které se tématem zabývají hlouběji. [4], [5], [6]
Odkazy
Reference
- ↑ BRESLAU, Joshua, Kristin N. JAVARAS, Deborah BLACKER, Jane M. MURPHY a Sharon-Lise T. NORMAND. Differential Item Functioning Between Ethnic Groups in the Epidemiological Assessment of Depression. Journal of Nervous & Mental Disease [online]. 2008, 196(4), 297-306 [cit. 2021-11-11]. ISSN 0022-3018. Dostupné z: doi:10.1097/NMD.0b013e31816a490e
- ↑ CULBERTSON, John C. An Essay Review: The Bell Curve: Class Structure and the Future of America. Education Policy Analysis Archives [online]. 1995, vol. 3, no. 2, s. 1-12, dostupné také z <http://epaa.asu.edu/ojs/article/view/645/767>. ISSN 1068-2341.
- ↑ MARTINKOVÁ, Patrícia, Adéla DRABINOVÁ a Jakub HOUDEK. ShinyItemAnalysis: Analýza přijímacích a jiných znalostních či psychologických testů. TESTFÓRUM [online]. 2017, 6(9), 16-35 [cit. 2021-11-09]. ISSN 1805-9147. Dostupné z: doi:10.5817/TF2017-9-129
- ↑ VLČKOVÁ, Katarína. Férovost didaktických testů a jejich položek. Praha, 2014. Diplomová práce. MFF UK. Vedoucí práce Patrícia Martínková.
- ↑ CÍGLER, Hynek. Férovost a zkreslení při testování: Přednáška 8. Fakulta sociálních studií MU: Katedra psychologie [online]. Brno: MUNI, 2020, 24. 11. 2020 [cit. 2021-11-06]. Dostupné z: https://is.muni.cz/el/fss/podzim2020/PSYn4790/um/PSYn4790_2020_P08.pdf?lang=en
- ↑ MARTINKOVÁ, Patrícia, Adéla DRABINOVÁ a Jakub HOUDEK. ShinyItemAnalysis: Analýza přijímacích a jiných znalostních či psychologických testů. TESTFÓRUM [online]. 2017, 6(9), 16-35 [cit. 2021-11-09]. ISSN 1805-9147. Dostupné z: doi:10.5817/TF2017-9-129