Kniha (2022)/Férovost testů a položek

Z StaTest

Férovostí (spravedlivostí, objektivností) testu myslíme jeho schopnost měřit studovaný rys nebo konstrukt se stejnou validitou ve všech podskupinách testované populace. Férovostí jsme se zabývali při recenzi testových úloh a zmiňovali jsme, že patří mezi důkazy validity. Ale protože se nám pro její ex-post analýzu (z dat proběhlého testu) budou hodit nástroje teorie odpovědi na položku, vracíme se zde k tomuto tématu znovu.

Položku označujme jako "diferencující" (differential item functioning - DIF), když lidé se stejnou latentní schopností, ale z různých podskupin, mají různou pravděpodobnost správné odpovědi. Samotný rozdíl v průměrném výkonu mezi skupinami ještě nemusí být nutně neférový. Neférovost nastává pouze tehdy, pokud rozdíl v měřeném výkonu neodpovídá skutečnému rozdílu latentní vlastnosti, kterou má test měřit.

Představme si například, že zkoumáme spravedlnost testu porozumění čtenému textu. Přitom zjistíme, že studenti se zrakovým postižením dosahují horších výsledků. Znamená to, že test je vůči těmto studentům nespravedlivý? To zatím nevíme. Je možné, že studenti s zrakovým postižením mají skutečně nižší čtenářské dovednosti než ostatní studenti.

Předpokládejme nyní, že test vytiskneme znovu s výrazně větší velikostí písma a zjistíme, že průměrný výsledek postižených studentů stoupne na úroveň studentů bez postižení. To naznačuje, že test čtení v původní verzi s malým písmem byl pro postižené žáky nespravedlivý (neobjektivní). Výsledek také naznačuje, že test je spravedlivý, pokud je prezentován ve verzi s velkým písmem. Malá velikost písma vnášela do konstrukce testu systematickou chybu.

Rozlišujeme proto tzv. "benigní" DIF, kdy rozdíl v pravděpodobnosti správné odpovědi souvisí s měřeným latentním znakem, a "nepříznivý" DIF, kde se do výsledku promítají artefakty v procesu měření, nestejné možnosti přípravy, na jazykovém prostředí závislá interpretace textu a podobně. Neexistuje žádná jednoznačná kvantitativní metoda, která by dokázala rozlišit tyto dva případy od sebe. Pokaždé, když narazíte na diferenciální fungování položky, je třeba položku pozorně přezkoumat v týmu odborníků. [1]

Diferenciální funkce položky pohledem IRT

Pro zkoumání férovosti položek lze použít analýzu založenou na teorii odpovědi na položku vztaženou na zkoumané podskupiny testované populace. Teoreticky by měly být problematické položky vyřazeny nebo opraveny již při recenzi položek, kdy se ověřuje obsahová a konstruktová validita, ale ani pečlivá recenze nemusí zachytit vše. Analýza odpovědí testovaných studentů zahrnující chování položek vůči různým podskupinám testovaných může pomoci zachytit problematické položky a zlepšit kvalitu a férovost testu v dalších kolech.

V praxi se zkoumá, zda obtížnost položky není rozdílná pro vybrané podskupiny testovaných (např. absolventi gymnázií vs. absolventi ostatních středních škol), které mají jinak stejné schopnosti (měřeno např. celkovým skóre). Pro dané skupiny proložíme naměřenými body charakteristické křivky podle IRT teorie a porovnáme tyto křivky mezi sebou. Jako index popisující rozdílné fungování položky pro obě skupiny pak bereme plochu mezi oběma křivkami.

Ve Spojených státech se v testech SAT se vyskytla otázka na verbální analogie: Najděte podobný vztah

Běžec : Maraton
(a) vyslanec : velvyslanectví
(b) mučedník : masakr
(C) veslař : regata
(d) rozhodčí : turnaj
(e) kůň : stáj

Je snadné najít správnou odpověď („veslař“ a „regata“) pokud jste z prostředí, kde se pojmy "maraton" a "regata" používají. Při analýze testů se ukázalo, že na tuto otázku odpovídali prokazatelně hůře afroameričtí studenti (22 % správných odpovědí), než jejich bílí kolegové (53 % správných odpovědí), ačkoli v jiných otázkách tomu tak nebylo. Otázka předpokládala „samozřejmou“ znalost sportu rozšířeného jen mezi jednou ze subpopulací. [2]

Obr. X.XX Ilustrace nejjednoduššího případu neférového chování položky. Charakteristické křivky IRT pro dvě skupiny řešící stejnou, leč rozdílně fungující položku (viz příklad výše). Velikost plochy mezi křivkami odpovídá velikosti koeficientu DIF. Obě charakteristické křivky jsou stejně diskriminující, ale vykazují pro sledované skupiny odlišnou obtížnost. Případ, kdy neférová položka poskytuje v celém intervalu schopností výhodu jedné skupině studentů oproti druhé (jako zde), se označuje jako "uniform DIF".


Obr. X.XX Ilustrace nejednotného diferenciálního chování položky. Charakteristické křivky spočtené pro obě sledované podskupiny vykazují nejen různou obtížnost položky pro obě skupiny, ale i různou diskriminaci. Pro první skupinu (čárkovaná charakteristická křivka) je položka snazší na většině intervalu schopností, vyjma nejvyšších hodnot, kde se položka naopak stává snazší pro druhou skupinu (plná charakteristická křivka). Tento typ diferenciálního chování položky se označuje jako "non-uniform DIF". Rozdílný tvar a hodnoty má pro obě skupiny i informační funkce této položky. Průběh křivek převzat z interaktivní tréninkové sekce webové aplikace ShinyItemAnalysis. [3]

Využití IRT pro analýzu férovosti přináší detailní informace, které by byly základě recenze férovosti jen těžko odhadnutelné. Ukázalo se například, že v otázkách k přijímacím testům na lékařskou fakultu se vyskytují diferencující položky, na které odpovídaly ženy výrazně lépe, než muži. Byly to zejména úlohy týkající se dětských nemocí.

Pro odhady férovosti je možné využít i další statistické metody, například vizualizaci pomocí grafického zobrazení proporcí správných odpovědí, či analýzu kontingenčních tabulek (metoda Mantel-Haenszel). Všechny uvedené nástroje najde zájemce v aplikaci ShinyItemAnalysis.

Problematika férovosti svým rozsahem překračuje rozsah tohoto textu. Případným zájemcům doporučujeme publikace, kurzy a nástroje, které se tématem zabývají hlouběji. [4], [5], [6]



Odkazy

Reference

  1. BRESLAU, Joshua, Kristin N. JAVARAS, Deborah BLACKER, Jane M. MURPHY a Sharon-Lise T. NORMAND. Differential Item Functioning Between Ethnic Groups in the Epidemiological Assessment of Depression. Journal of Nervous & Mental Disease [online]. 2008, 196(4), 297-306 [cit. 2021-11-11]. ISSN 0022-3018. Dostupné z: doi:10.1097/NMD.0b013e31816a490e
  2. CULBERTSON, John C. An Essay Review: The Bell Curve: Class Structure and the Future of America. Education Policy Analysis Archives [online]1995, vol. 3, no. 2, s. 1-12, dostupné také z <http://epaa.asu.edu/ojs/article/view/645/767>. ISSN 1068-2341. 
  3. MARTINKOVÁ, Patrícia, Adéla DRABINOVÁ a Jakub HOUDEK. ShinyItemAnalysis: Analýza přijímacích a jiných znalostních či psychologických testů. TESTFÓRUM [online]. 2017, 6(9), 16-35 [cit. 2021-11-09]. ISSN 1805-9147. Dostupné z: doi:10.5817/TF2017-9-129
  4. VLČKOVÁ, Katarína. Férovost didaktických testů a jejich položek. Praha, 2014. Diplomová práce. MFF UK. Vedoucí práce Patrícia Martínková.
  5. CÍGLER, Hynek. Férovost a zkreslení při testování: Přednáška 8. Fakulta sociálních studií MU: Katedra psychologie [online]. Brno: MUNI, 2020, 24. 11. 2020 [cit. 2021-11-06]. Dostupné z: https://is.muni.cz/el/fss/podzim2020/PSYn4790/um/PSYn4790_2020_P08.pdf?lang=en
  6. MARTINKOVÁ, Patrícia, Adéla DRABINOVÁ a Jakub HOUDEK. ShinyItemAnalysis: Analýza přijímacích a jiných znalostních či psychologických testů. TESTFÓRUM [online]. 2017, 6(9), 16-35 [cit. 2021-11-09]. ISSN 1805-9147. Dostupné z: doi:10.5817/TF2017-9-129