Kniha (2022)/Recenze testových úloh

Z StaTest


V procesu přípravy testů, zvláště u zkoušek s velkým významem, má nezastupitelnou roli kontrola položek pomocí recenze expertů před jejich použitím v testu (tzv. panel review). Zatímco u kvízu, kterým zjišťuje učitel znalosti žáků z přírodovědy ve čtvrté třídě, nemusí být nutné, aby obsah testu posoudili další učitelé, u testů, které jsou součástí přijímací zkoušky nebo odborné certifikační zkoušky to již potřeba je. Položky projdou několika úrovněmi nezávislé kontroly, než je uvidí první účastník testu.

Oponentura, nebo též recenze položek je rozdělena do několika fází, které se vždy zaměřují na specifickou oblast. Jejím cílem je odhalení nedostatků, které zpravidla položky a testy ve své počáteční podobě obsahují. Motivací je zajištění správnosti, optimalizace testu a odstranění subjektivních vlivů. I když recenze bývá zpočátku časově a organizačně poněkud náročnější, její přínos je nepopiratelný a roste s významem testu. Po úspěšném zvládnutí všech níže uvedených revizí (obsahová revize, revize férovosti, redakční revize) by měl finální podobu jednotlivých úloh znovu projít autorský tým a všechny provedené změny odsouhlasit.

Proč je kontrola položek a celého testu potřeba?

Testové položky jsou součástí nástroje, jímž měříme nějakou schopnost testovaných. Kontrola správnosti, formulační přesnosti a nerozpornosti položek dělá test lepším měřícím nástrojem a snižuje pravděpodobnost, že test bude neférový a že si někdo z účastníků na něj nebo na jeho jednotlivou položku bude stěžovat.

Kdo má položky kontrolovat?

To se může značně lišit podle významu testu. U testování menšího významu bohatě postačí jeden další recenzent. Požádáte kolegu, aby vám test prošel a zkontroloval. U zkoušek velkého významu, jako jsou přijímací zkoušky, maturitní testy a podobně, musí být položka zkontrolována několika recenzenty s jasně přidělenými rolemi. Recenzující experti musí být současně experty na danou oblast a současně by měli znát testovanou populaci.

Co kontrolující kontrolují?

Záleží na typu recenzenta a jeho roli v procesu recenze. Testující instituce často vytvářejí kontrolní seznamy, podle kterých recenzenti postupují. Recenzent může kontrolovat, zda je kmen položky dobře formulovaný. Zda není gramaticky návodný a neusnadňuje tak výběr správné odpovědi. Zda je klíč správný a distraktory nesprávné a zda jsou všechny možnosti srovnatelně dlouhé. Korektor může zkontrolovat správnost interpunkce, správné použití horních a dolních indexů, dodržení zvyklostí při zápisu proměnných a jednotek.

Jak se recenzní práce organizuje?

I když může být recenzní formulář (kontrolní seznam) i v papírové podobě, je běžnější, že má podobu elektronickou. Často je přímo integrován v položkové bance, takže položky ani při recenzi neopouštějí bezpečné prostředí banky. Administrátor testu může v položkové bance kontrolovat stav recenzí a motivovat recenzenty k vyšším výkonům.

Pro oponenturu je, podobně jako přípravu kompletní testové agendy, základem týmová spolupráce. Několik zainteresovaných odborníků nezávisle na sobě posuzuje vhodnost jednotlivých úloh a společnými silami se snaží o odstranění všech nedostatků, které by mohly při praktické realizaci vadit. Týmová spolupráce hraje při oponování testů a testových položek zcela klíčovou roli.

Proces oponentury položek a testu lze rozdělit do tří fází, kterými oponenta provede formulář pro recenzenty úloh (podrobněji rozebrán dále v textu).

Obsahová revize

Jsou odpovědi správně a přesně formulované? Nejsou distraktory diskutabilní?

V rámci revize obsahu je velmi vhodné, aby zadání otázek a nabízené odpovědi zkontrolovali jak spoluautoři celého testu, tak i nezávislí odborníci, kteří nebyli zapojeni do jejich vytváření. Subjektivní postoj autora může být příčinou nejednoznačné, tedy nesprávně utvořené testové položky, jejíž použití by snížilo hodnotu testu.

Zvláště obtížnou činností při vytváření položek pro většinu pedagogů bývá formulace alternativních odpovědí (distraktorů). Obecně by distraktory neměly být nesmyslnými tvrzeními nebo absurdními možnostmi, které testovaný automaticky vyloučí, ale naopak by jej měly donutit k zamyšlení a následné eliminaci po logickém zdůvodnění. Mimořádně náchylné k nejednoznačným formulacím distraktorů jsou dosud velmi rozšířené položky s mnohočetným výběrem odpovědí typu MTF.

U jiných typů otázek mohou vyvstat jiné typy obsahových nedostatků. Otázky s jedinou nejlepší odpovědí (SBA) musí být revidovány tak, aby existovala shoda expertů o jednoznačně nejlepší odpovědi.

Stojí-li pedagog před úkolem vytvořit více testových úloh a krom správných odpovědí i navrhnout řadu vhodných distraktorů, může si pomoci tím, že v rámci formativního testování zadá studentům své nové položky jako úlohy s krátkou tvořenou odpovědí. Studenti při tvorbě odpovědí často navrhnou skvěle fungující a atraktivní distraktory.

V obecné rovině se po obsahové stránce doporučuje kontrolovat zejména

  • přesnost formulace zadání/kmene položky,
  • zda jsou nabízené možnosti v každé úloze formulovány tak, aby za žádných okolností, v žádné interpretaci ani v žádném uvažovaném případě nemohl být distraktor správnou odpovědí a obráceně (platí zejména pro MTF),
  • zda položky v testu odpovídají plánu testu (blueprint).


Redakční revize

Jsou otázky dostatečně srozumitelné, typograficky jednotné a bez typografických chyb?

Redakční revize se může na první pohled jevit jako nepříliš časově náročná, nicméně v praxi to může být složitější. Je nutné projít všechny testové položky a ověřit, zda jsou dostatečně čitelné, srozumitelné a formálně i typograficky jednotné. Složitá větná souvětí, dvojité zápory a krkolomná zadání úloh je vhodné přepracovat do jednodušší formy tak, aby student nemohl ve formulaci zabloudit. Zadání úlohy i nabízené možnosti by měly být konstruovány co možná nejsrozumitelněji. Jednotnost a styl vytváření testových položek se liší podle autorů. V této fázi oponentury se provádí sjednocení jak po stránce terminologické, tak po stránce typografické. Nedílnou součástí kontroly jakýchkoli textů je gramatická správnost. To platí i pro vytváření testovacích položek. Eliminace veškerých gramaticky nesprávných či sporných výrazů dle pravidel pravopisu by měla být závěrečnou fází redakční revize.

V praxi se ukazuje, že jedna recenze je zcela nedostatečná. Ideálního stavu, kdy je recenzí 5-7, je s omezenými finančními prostředky těžké dosáhnout, ale jako použitelné minimum se jeví 3 recenze. Často přitom na problém upozorní jen jeden z recenzentů. Proto musí být zpracovatel recenzí velmi pozorný k návrhům recenzentů, aby nepřehlédl možný problém.

Příklad: Při redakční revizi můžeme odhalit i gramaticky nebo graficky návodné formulace otázek (tzv. sugestivní zadání): Místem narození Jana Amose Komenského byl:

  1. Uherský Brod
  2. Nivnice
  3. Komňa
  4. Brno

Formulář pro recenzenty úloh

Z praktického hlediska je výhodné vybavit recenzenty formulářem, který je bude oponenturou testových položek „provádět“. Tím, že recenzent odpovídá na jednotlivé otázky ve formuláři, musí se testovou položkou zabývat ze všech úhlů pohledu, které formulář postihuje. Není nezbytně nutné, aby každá testová položka zcela vyhověla ve všech sledovaných parametrech; oponent by však případné odchylky měl zaregistrovat a komentovat. Příklad takového formuláře pro recenzenty úloh najdete níže.

Tab. X.X Recenze otázky s jedinou nejlepší odpovědí
Zadání otázky
Recenzent
Ano ✓
 nebo  
Ne ✗
Poznámky
Zkouší podstatnou znalost
Odpovídá tématu dle plánu testu
Zkouší aplikaci znalostí, nikoli jen vybavení izolovaných údajů
Odpovídá požadované úrovni znalostí
Zadání je jasně formulované
Zadání neobsahuje chytáky (např. dvojí zápor)
Správná odpověď odborníka napadne, i když nezná nabízené možnosti
Distraktory jsou homogenní
Formulace možností nenapovídá správnou odpověď
Žádná možnost není nepřiměřeně obtížná
Nemá podobu „které tvrzení je správné“ nebo „všechna tvrzení jsou správná kromě“
Neobsahuje slova „vždy“, „obvykle“, „zřídka“, „nikdy“ apod.
Právě jedna z nabídnutých možností je nejlepší
Nabídnuté možnosti jsou seřazené abecedně či v jiném logickém pořadí
Možnosti mají podobnou délku a obsah
Možnosti jsou kompatibilní s otázkou

Revize férovosti

Měří úlohy pouze požadovanou konkrétní znalost či dovednost a nic jiného?

Každá položka, každý test, by měly testovat právě požadovanou vědomost, znalost či schopnost a nic jiného. Podle definice je férovost testu míra, do jaké jsou závěry učiněné na základě výsledků testů validní pro různé skupiny účastníků testů.

Pokud jsou k zodpovězení otázky nutné znalosti a dovednosti, které z jakéhokoli důvodu nebyly srovnatelně dostupné všem testovaným osobám, tedy pokud neměli všichni testovaní stejnou možnost požadované znalosti či dovednosti získat, není položka férová. Taková otázka je snazší pro skupinu studentů, kteří byli nějakým způsobem zvýhodněni, a naopak obtížnější pro druhou skupinu, která byla bez vlastního zavinění znevýhodněna. Příkladem může být nadbytečné používání odborných výrazů nebo složitých větných konstrukcí, které nemusí být pro všechny srozumitelné. Ačkoli chtěl autor otázky ověřit určitou znalost, současně v tomto případě nechtěně testuje jazykovou vybavenost a zběhlost v odborné terminologii. V této souvislosti může být další komplikací také testování pozornosti studentů prostřednictvím "chytáků v zadání", případně používání dvojitých záporů a podobně.

Položka by neměla zvýhodňovat žádnou skupinu podle věku, pohlaví, původu, společenského a ekonomického postavení, víry, rasy, mateřského jazyka, atd. Vzhledem k tomu, že členění na skupiny není nijak omezené, není reálné zkoumat férovost pro všechny možné skupiny v populaci účastníků testování. Doporučuje se proto zkoumat spravedlivost vůči těm skupinám, u nichž zkušenosti nebo výzkumy ukázaly, že by mohly být nepříznivě ovlivněny. Často se jedná o skupiny, které byly diskriminovány na základě takových faktorů, jako je etnický původ, zdravotní postižení, pohlaví, nebo rodný jazyk. Studenti z různých skupin se shodnou úrovní znalosti by měli na danou otázku odpovídat správně se stejnou pravděpodobností.


Základní doporučení a pravidla tvorby testových položek a testů týkající se férovosti položek jsou obsaženy například ve standardech ETS pro férovost a kvalitu testů (ETS Standards for Quality and Fairness). [1]. Tyto standardy doporučují ověřit, že testové položky:

  • nejsou urážlivé ani kontroverzní,
  • neposilují stereotypní pohledy na žádné skupiny,
  • jsou bez rasových, etnických, genderových, socioekonomických a jiných forem zaujatosti,
  • nemají obsah, který by byl považován za nevhodný nebo hanlivý vůči jakékoli skupině.

Neférovost položek lze často odhalit důkladnou revizí férovosti samotného zadání. Někdy ji však neodhalí ani zkušený oponent. Proto při analýze výsledků testu zkoumáme i diferenciální chování položek, jak ukážeme v kapitole věnované položkové analýze.



Odkazy

Reference

  1. Educational testing service. EETS Standards for Quality and Fairness [online] Educational Testing Service, 2014. Dostupné také z <https://www.ets.org/about/fairness>.