Kniha/Položková a testová analýza

Z StaTest

< Kniha

Po dokončení ostrého běhu testu pravděpodobně nejprve budeme chtít test vyhodnotit, abychom zjistili, jak si v něm studenti vedli. Avšak odpovědi studentů neobsahují jen informaci o jejich znalostech a schopnostech, do výsledků testu se promítají i vlastnosti testových úloh. Tak jako vyhodnocením testu můžeme získat informaci, jak si vedli jednotliví účastníci testu, můžeme položkovou analýzou zkoumat (psychometrické) vlastnosti položek. Položková analýza je důležitá i pro autory a recenzenty úloh, protože jim poskytuje objektivní zpětnou vazbu o tom, jak se jimi vytvořené či recenzované položky v praxi chovají. Zatímco recenzenti dobře dokážou posoudit např. obsahovou validitu, jejich odhady obtížností úloh bývají často velmi subjektivní. Proto nás položková analýza zajímá jako zdroj objektivní reflexe našich položek, nástroj pro jejich průběžné vylepšování a pro edukaci autorů a recenzentů úloh. [1]

Základním předpokladem položkové analýzy je, že analyzovaný test je konzistentní, tj. že ho psali kvalifikovaní učitelé, a že se tedy skládá z úloh měřících jednu oblast znalostí nebo schopností. Kvalita jednotlivých položek se posuzuje porovnáním odpovědí studentů na položku s jejich celkovým skóre v testu.

Hlavními charakteristikami úloh jsou jejich obtížnost a citlivost.

Obtížnost položky

Jednou ze základních charakteristik testové úlohy je, jestli na ni alespoň někteří účastníci testu dokážou správně odpovědět, jestli není pro testované příliš obtížná.

Obtížnost položky můžeme odhadnout podle toho, jaký podíl účastníků testu na ni dokázal správně odpovědět. Tomuto podílu se říká index obtížnosti a značí se :

.

kde je počet testovaných, kteří na danou položku odpověděli správně a je počet všech testovaných.

Index obtížnosti nabývá hodnot mezi 0 a 100 % (respektive 0 a 1). Čím víc studentů na položku odpovědělo správně, tím je hodnota indexu blíže ke 100 % (respektive 1). Je to trochu matoucí, neboť mluvíme o obtížnosti a tento index je nejvyšší, když je položka nejsnazší.

Proto se zavádí doplňková veličina, hodnota obtížnosti. Hodnota obtížnosti udává poměr testovaných, kteří na danou úlohu odpověděli nesprávně, jde tedy o doplněk indexu obtížnosti:

.

Pro složitěji bodované úlohy se indexy počítají pomocí aritmetického průměru bodových hodnocení všech testovaných v dané položce a nejvyššího dosažitelného počtu bodů za ni.

Při sumativním testování přinášejí největší užitek, nejlepší diskriminaci, úlohy, jejichž hodnota obtížnosti není ani příliš velká, ani příliš malá (typicky 20-80 %). Je to logické, protože položky, které jsou příliš obtížné, nerozliší mezi slabšími a lepšími účastníky testu, neboť příliš těžkou úlohu prostě nikdo nevyřeší. Podobě na opačném konci obtížností nepřinese téměř žádnou informaci příliš snadná položka, protože příliš snadnou úlohu vyřeší i velmi slabí účastníci testu. U položek s okrajovými hodnotami obtížnosti se tedy zákonitě snižuje jejich diskriminační schopnost.

Povšimněme si, že tento odhad obtížnosti položek (zavedený v rámci klasické testové teorie, CTT) je závislý na testovaných. Pro každou skupinu vyjde hodnota jinak a budou-li se skupiny navzájem výrazněji lišit, může obtížnost téže úlohy vycházet pro každou skupinu úplně jinak. Překonání této provázanosti mezi obtížnosti a testovanými umožňuje teorie odpovědi na položku, v níž je schopnost testovaných jedním z parametrů.

Citlivost položky

Citlivost úlohy, neboli její diskriminace, popisuje její schopnost rozlišovat mezi různě výkonnými studenty. Představme si, že skupinu studentů rozdělíme na lepší a horší, např. podle jejich celkového výsledku v testu. Rozdíl mezi průměrnou úspěšností obou skupin při řešení konkrétní úlohy vyjadřuje schopnost této položky rozlišovat mezi lepšími a horšími studenty a označuje se jako upper-lower index (ULI).

ULI spočítáme jako rozdíl úspěšnosti mezi skupinou lepších (U – upper) a horších (L – lower) studentů při řešení konkrétní položky.

.
Obr. 6.4.1 Index ULI - rozdíl v pravděpodobnosti správné odpovědi na položku mezi lepšími a horšími studenty.

Pro testy, které mají rozlišit mezi nejlepšími a druhými nejlepšími, např. při přijímacích testech s velkým převisem zájemců, nás může zajímat, jak položka rozlišuje právě v okolí dělícího skóre mezi přijatými a nepřijatými. V takovém případě lze použít index ULI zaměřený na předěl mezi určitými percentily, mezi něž padá dělící skóre.

Obr. 6.4.2 Index ULI54 - rozdíl v pravděpodobnosti správné odpovědi na položku mezi pětinou nejlepších a pětinou dalších studentů.

Index ULI může teoreticky nabývat hodnot mezi −1 a 1, ale záporné hodnoty jsou příznakem velmi hrubé chyby v položce (nebo chyby v klíči) a v praxi jsou vzácné. ULI rovné jedné znamená, že všichni lepší studenti položku zvládnou, zatímco a všichni horší nikoli. Byčkovský [2]uvádí, že

  • pro položky s obtížností mezi 0,2 a 0,3, nebo obtížností mezi 0,7 a 0,8 by citlivost ULI měla být alespoň 0,15,
  • v případě úloh s obtížností mezi 0,3 a 0,7 bys rozlišovací schopnost ULI měla být aspoň 0,25.

Pokud je hodnota ULI nižší, je třeba úlohu považovat za podezřelou. V praxi se položky kolem uvedených hranic považují za sice nikoli ideální, ale tolerovatelné. Pokud je však hodnota ULI příliš nízká (ULI < 0,1), je třeba úlohu zkontrolovat, jestli je dobře zkonstruována a zda neobsahuje nějakou závažnou chybu. Pokud pracujeme s jemnějším dělením intervalu schopností (jako v případě ULI54), může být hodnota indexu kolem 0,1 naprosto v pořádku. Nicméně jakmile je hodnota libovolně pojatého ULI blízká nule, nebo dokonce záporná, znamená to, že úloha nefunguje. Záporná hodnota ULI znamená, že horší studenti odpovídali lépe než lepší. V položce tedy může být něco, co lepší studenty zavede na nesprávnou stopu, např. v úloze hledají chyták. Záporným ULI se také projeví chyba v klíči, podle kterého se úloha boduje. Takovou položku je třeba buď opravit, nebo z testování rovnou vyřadit. Zajímavý problém představuje metodika rozdělení intervalu schopností na menší díly. Může se stát, že interval nejde "strojově" rozdělit úplně ideálně, např. proto, že na pomezí mezi skupinami je velká skupina se stejnými výsledky. V praxi se ukazuje, že pro představu o citlivosti položky je způsob dělení na hraně intervalu málo významný. I když spornou skupinu na hraně intervalů rozdělíte arbitrárně, výsledné ULI dává většinou velmi dobrou představu o chování položky.

Některé práce používají jiné dělení intervalu schopností. Zkoušející například rozdělí studenty na tři skupiny podle výsledků v testu. Často se používá rozdělení testovaných na „horní třetinu“ a „spodní třetinu“, ale studie ukázaly, že když jsou studenti rozděleni na skupiny, které mají v "horní" a "dolní" skupině po 27 % studentů, hodnota diskriminace se zvyšuje. [3] Je zřejmé, že 46 % procent studentů se středním skóre v testu se při výpočtu indexu diskriminace neprojeví. Této praxe se přidržuje např. i testovací systém Rogō, který počítá ULI na základě dolních a horních 27,5 % studentů.


Vizualizace výsledků položkové analýzy

Příklady položek a grafické vyjádření jejich vlastností

Ukažme si několik příkladů chování položek použitých v přijímacích testech a jejich grafické vyjádření.

Příklad první:

Obr. 6.4.3 Vizualizace chování položky. Položka "Člověk slyší zvuk v rozsahu ...", je tak snadná, že prakticky nerozlišuje mezi různě schopnými studenty.
Člověk slyší zvuk v rozsahu
A)    16 až 20 000 Hz 
b)    do 100 000 Hz 
c)    méně než 16 Hz 
d)    více než 20 000 Hz 

Při recenzi položky bychom mohli diskutovat řadu chyb, které položka vykazuje. Například navržené distraktory c) a d) nemají povahu "rozsahu", o němž se mluví v zadání. Podívejme se však, jak dopadlo použití této položky v reálném testu.

Studenti byli rozděleni na pětiny podle celkového výsledku v testu. Pro tyto pětiny byly spočteny pravděpodobnosti správné odpovědi. Vidíme, že již nejslabší studenti dosáhli v této položce více než 90% úspěch. Studenti v lepších skupinách již téměř 100%. Položka je tak snadná, že prakticky nerozlišuje mezi lepšími a horšími studenty.

Obr. 6.4.4 Vizualizace chování položky. Položka "Energie fotonu je...", je spíše obtížná. Pro nejslabší studenty je velmi obtížná a nerozlišuje mezi nimi, ale velmi dobře rozlišuje mezi studenty výtečnými a nejlepšími. Vidíme také značný rozdíl mezi nejslabšími a nejlepšími studenty. Položka může být v testu velmi užitečná.

Příklad druhý:

Energie fotonu je
a) nepřímo úměrná frekvenci.
b) přímo úměrná vlnové délce.
C) přímo úměrná frekvenci.
d) nezávislá na vlnové délce.

Metodika je stejná jako v předchozím příkladu, opět jsme studenty rozdělili na pět stejně početných skupin podle jejich celkového výkonu v testu. Povšimněte si, že poslední pětina pokrývá rozsah 40 bodů ve stobodovém testu. Je tady patrné, že test jako celek byl poměrně těžký. Podobně se chová i tato konkrétní úloha. Její maximální rozlišovací schopnost je mezi čtvrtou a pátou pětinou. Položky, které rozlišují na "obtížném" konci spektra bývají poměrně ceněné a napsat je nebývá snadné. U této úlohy bylo takové chování překvapením, protože odborníci při recenzi odhadovali, že bude snadná.

Analýza distraktorů

Jako analýza distraktorů se označuje rozbor, jak ke kvalitě výběrové úlohy přispívají nabízené možnosti - tedy správná odpověď (klíč) a především pak nesprávné možnosti (distraktory). Snažíme se zjistit, zda jsou distraktory pro studenty dostatečně atraktivní a jaký podíl z celkového počtu studentů si distraktory vybral.

Podívejme se vizualizaci analýzy distraktorů na konkrétním příkladu. Studenti byli v testu o 70 úlohách tázáni, jak vzniká metanol:

Obr. 6.4.5 Distraktorová analýza.
Jakou reakcí může vzniknout methanol?
a) Oxidací oxidu uhelnatého. 
b) Oxidací methanalu.
C) Redukcí formaldehydu.
d) Oxidací methylaldehydu.

Jako správnou odpověď označili autoři testu možnost C).

Studenti byli rozděleni do pěti skupin podle toho, kolik celkem získali bodů za celý test. Šedé sloupce uvádějí, jaký byl podíl správných odpovědí pro každou z těchto pěti skupin. Vidíme tedy, že nejslabší skupina studentů - šedý sloupec nejvíce vlevo - odpovídala správně mnohem méně často než nejlepší skupina podle celkového dosaženého skóre (sloupec zcela vpravo). Rozdíl výšky posledního a prvního šedého sloupce ULI51 = 0,7 ukazuje, že položka dobře rozlišuje mezi nejlepšími a nejhoršími studenty, přestože můžeme diskutovat, zda je opravdu dobře sestavená. I rozdíl výšky pátého a čtvrtého sloupce ULI54 = 0,14 je uspokojivý a ukazuje na dobrou diskriminaci mezi nejlepšími a druhými nejlepšími studenty. Položka jako celek tedy velmi dobře funguje.

Podívejme se nyní na fungování nabízených možností. Jejich chování popisují barevné lomené čáry, které pro každou skupinu (podobně úspěšných) studentů ukazují, s jakou pravděpodobností by si tito studenti nabízenou odpověď vybrali. Červená čára (distraktor A) je pro všechny skupiny studentů prakticky nepřijatelná volba. Jen v nejslabší skupině tuto možnost volí asi 12 % studentů, ale potom už prakticky nikdo další. Modrozelená čára správné odpovědi (klíč C) spojitě roste v celém intervalu schopností. To vypovídá o tom, že tato odpověď je správně vytvořena. V nejslabší skupině volí studenti odpověď C se stejnou pravděpodobností jako oba další distraktory, takže - vyjma neatraktivního distraktoru A - studenti nejslabší skupiny vlastně hádají. To je opět příznak dobře rozlišující položky. Zatímco distraktor D (tmavě modrá čára) monotónně klesá v celém intervalu schopností, což ukazuje na jeho správné fungování, distraktor B (žlutá čára) s rostoucí schopností studentů nejprve trochu roste a pak teprve začne klesat. Z nejlepších studentů jej nevolí prakticky nikdo. Nicméně to, že pokles není monotónní, znamená, že studenti druhé nejslabší skupiny o něm uvažují způsobem, který autor nepředpokládal. V této úloze autoři použili tři různé názvy pro tutéž látku - formaldehyd, methanal a methylaldehyd. První dva jsou poměrně běžné. Ve druhé nejslabší skupině bylo pravděpodobně hodně studentů, kteří sice věděli, že metanol lze vytvořit jednoduchou reakcí z formaldehydu čili methanalu, pak už ale jen tipovali, jestli je onou reakcí oxidace nebo redukce.

Podívejme se nyní na analýzu distraktorů v případě nefunkční položky. Studenti byli v testu o 100 položkách tázáni na vzácné plyny:

Obr. 6.4.6 Distraktorová analýza.
Vzácné plyny
A) Jsou v přírodě málo zastoupené a netvoří téměř žádné sloučeniny
B) Alespoň jeden se využívá v lékařství
c) Jsou netečné, ale jinak normální plyny s dvouatomovou molekulou jako má např. vodík
d) Jsou vždy těžší než vzduch 

Podíváme-li na výšku šedivých sloupců vidíme, že na položku odpovídají nejhůře právě nejlepší studenti. Správnou odpověď má představovat současná volba nabízených odpovědí A) a B). Zatímco pravděpodobnost, že student zvolí možnost B), roste s jeho schopností, u možnosti A) tomu tak není. Tuto odpověď volí studenti ve dvou nejhorších skupinách, ale potom pravděpodobnost jejího výběru strmě klesá. Nabízená odpověď A) obsahuje zásadní problém, který tuto položku zcela znehodnocuje. Prozkoumáme-li jej, vidíme, že obsahuje chyb hned několik. Jde nikoli o jedno, ale o kombinaci dvou tvrzení: "Vzácné plyny jsou v přírodě málo zastoupené." a "Vzácné plyny netvoří téměř žádné sloučeniny." Problematické jsou relativizující termíny "málo" a "téměř žádné", které způsobují, že rozhodnutí, zda je možnost správná, záleží na čistě subjektivním pohledu. Ještě větší problém představuje vymezení "v přírodě", protože autor měl patrně na mysli biosféru, zatímco nadaní studenti si pod "přírodou" zřejmě představili spíše vesmír. A při tomto pohledu tato odpověď pravdivá není. Zbývající dva distraktory (c, d) fungují správně, ale to už položku nezachrání. Pokud už se stane, že takovou položku autor napíše, neměla by projít recenzí. Analýza distraktorů je pak posledním okamžikem, kdy díky objektivnímu pohledu můžeme napravit opomenutí autora a recenzentů a položku z testu vyřadit před jeho obodováním.

Aby se daly distraktorové analýzy dobře interpretovat, je třeba mít testová data nad dostatečně velkým souborem studentů. Zatímco samotná úspěšnost jednotlivých skupin v položce (šedé sloupce) je poměrně stabilní, protože se na ní projeví data všech studentů skupiny, jednotlivé distraktory již celá skupina nevolí a jsou proto výrazně citlivější na ovlivnění náhodným "šumem". Pokud si má zobrazení chodu distraktorů uchovat rozumnou vypovídací schopnost, musí být (při rozdělení na pět podskupin) v celé testované skupině více než několik set lidí. Pokud jsou počty menší, lze použít rozdělení na menší počet podskupin, v krajním případě jen na dvě (dva šedé sloupce). Tím sice přijdeme o jemnost detailního pohledu, ale výsledek bude méně ovlivněn náhodnými jevy.

Distraktor je považován za funkční (plausibilní), pokud si jej zvolí nejméně 5 % z testované skupiny. Navrhnout dostatečně atraktivní distraktory může být poměrně obtížné, mimo jiné proto, že učitel již si nemusí být schopen představit, co je pro studenty obtížné a co ne. Při tvorbě nových položek může učitel pro návrh distraktorů použít předchozí, nejlépe formativní testování, v němž studentům předloží podobnou položku jako úlohu s krátkou tvořenou odpovědí. Distraktory pro výběrovou úlohu pak vytvoří podle nesprávných odpovědí.

Grafický náhled na výsledky celého testu

Dvoubarevný graf

Pro rychlou orientaci, jak se podařilo sestavit test, můžeme v položkové analýze s výhodou požít dvoubarevný graf. V literatuře bývá též nazýván jako difficulty-discrimination plot, nebo zkráceně "DD-plot". Na vodorovné ose jsou položky seřazené podle obtížnosti, od nejlehčích k nejtěžším. U každé úlohy je červeným sloupečkem vynesena její obtížnost a modrým její citlivost. Na tomto grafu na první pohled rozpoznáme "podivně" se chovající položky, jejichž citlivost je malá, nebo dokonce záporná, a můžeme se zabývat jejich podrobnější analýzou, abychom zjistili příčiny anomálií.

Obr. 6.4.7 Dvoubarevný graf (difficulty-discrimination plot, DD-plot) ukazuje testové položky seřazené podle obtížnosti (výška červeného sloupce). U každé položky je vynesena její diskriminace (modré sloupce). Vodorovná přerušovaná linka ukazuje mez (20 %), pod niž by neměla diskriminace fungující položky klesnout. Položka č. 12 je velmi snadná a její diskriminační schopnost je velmi malá. Položka č. 20 je velmi obtížná a její diskriminační schopnost je velmi malá a navíc záporná, tj. lepší studenti odpovídají hůře než slabší. Tato úloha pravděpodobně obsahuje nějaký další problém, kterého si autor nebyl vědom. Tuto položku je nutno z testu vyřadit.

Jinou, možná ještě názornější podobu grafu dostaneme, pokud vyneseme diskriminaci položek (na svislé ose) v závislosti na jejich obtížnosti (na vodorovné ose).

Obr. 6.4.8 Pro stejný test o 20 položkách je vynesena diskriminace položek (na svislé ose) proti obtížnosti položek (na vodorovné ose). Test je spíš obtížný a diskriminace úloh v něm spíše podprůměrná. Obě podezřelé položky (č. 12 a č. 20.) se v tomto zobrazení jasně vydělují.

Indexy Rit a Rir

Pro posouzení citlivosti položky je rovněž možno použít korelační koeficient mezi bodovým ziskem za položku a bodovým ziskem za celý test, který se označuje Rit (correlation item-test), případně korelační koeficient mezi položkou a zbytkem testu, Rir (correlation item-rest).

Koeficient Rit se počítá jako bodově biseriální korelační koeficient mezi skóre položky a celkovým skóre z testu. Říká nám, do jaké míry daná položka přispívá k výběru správně odpovídajících respondentů ze všech účastníků testu. Jinými slovy, reflektuje rozlišovací schopnost položky a vypovídá o výkonu položky oproti testu jako celku. Kladné hodnoty blízké 1 znamenají, že studenti úspěšní při řešení dané položky byli rovněž úspěšní při řešení celého testu. Záporné hodnoty ukazují, že studenti, kteří správně vyřešili danou testovou úlohu, dosáhli spíše nízkého celkového skóre ve zbytku testu. Korelace ukazuje, zda položka měří stejný konstrukt jako zbytek testu. Pokud je test zaměřen na více témat, je třeba to brát při intepretaci tohoto koeficientu v úvahu. Hodnota Rir je podobná Rit, ale přesnější, protože se nebere v úvahu příspěvek ke korelaci od samotné položky. Rir je vždy o něco nižší než Rit.

Pro číselné hodnoty korelačního koeficientu Rit existují doporučení podobně jako pro index ULI:

  • Vyhněte se otázkám s hodnotou Rit pod 0,20.
  • Vždy se dívejte na Rit v kombinaci s obtížností P.

Přestože posuzování diskriminace pomocí ULI je běžnější, například CERMAT používá při analýze úloh v testech velkého významu právě Rit[4].


Odkazy

Reference

  1. Položková analýza testů studijních předpokladů jako součást zkvalitňování procesu přijímání na vysokou školu. In: MAIEROVÁ, Eva, Lenka ŠRÁMKOVÁ, Kristýna HOSÁKOVÁ, Martin DOLEJŠ a Ondřej SKOPAL. PHD EXISTENCE 2015: česko-slovenská psychologická konference (nejen) pro doktorandy a o doktorandech. Olomouc: Univerzita Palackého v Olomouci, Filozofická fakulta, 2015, s. 75-84. ISBN 978-80-244-4694-3.
  2. Chybná citace: Chyba v tagu <ref>; citaci označené Byčkovský není určen žádný text
  3. SWERDLIK, Mark, Edward PROFESSOR a Ronald COHEN. Psychological Testing and Assessment : An Introduction to Tests and Measurement. - vydání. McGraw-Hill Education, 2012. 752 s. ISBN 9780078035302.
  4. Hodnotící zpráva Matematika+ 2018: Pokusné ověřování obsahu, formy, organizace a hodnocení výběrové zkoušky ze středoškolské matematiky. CERMAT: Centrum pro zjišťování výsledků vzdělávání [online]. Praha, 2018 [cit. 2021-11-16]. Dostupné z: https://data.cermat.cz/files/files/Matematika/MA-PLUS_hodnotici_zprava_2018.pdf