Kniha (2022)/Forenzní analýza testů
Při narušení akademické integrity nemusí skóre testů odrážet schopnosti a znalosti testovaných. Forenzní analýza testů (educational data forensics, EDF) je statistická analýza výsledků testů s cílem detekovat odchylky, které potenciálně naznačují neoprávněný zásah, zvýhodnění, nebo přímo testovací podvod. Pokud by docházelo k porušování akademické integrity na úrovni správců testu nebo administrátorů položkové banky, je forenzní analýza prakticky jediným nástrojem, jak tuto činnost systematicky odhalovat.
- Analýza nám má odpovědět na
- Otázky zaměřené na jedince
- Je na tomto vyšetřovaném něco neobvyklého?
- Odpověděl na každou položku „C“?
- Odpovídal příliš rychle?
- Strávil 10 minut u každé z prvních 5 položek a zbytek přeskočil?
- Získal vysoké skóre v podezřele krátké době?
- Změnil nápadně mnoho špatných odpovědí na dobré?
- Otázky zaměřené na vztahy mezi jedinci
- Jsou odpovědi některých účastníků nápadně podobné?
- Seděli tito účastníci poblíž sebe? Ve stejné učebně?
- Ukazuje se při porovnání tohoto vyšetřovaného s ostatními něco neobvyklého?
- Existují v jeho okolí jedinci, kteří mají téměř stejné odpovědi?

- Otázky na úrovni skupiny
- Vedou si některé školy nebo učitelé neobvykle dobře?
- Mají některá testovací centra nezvykle vysokou míru úspěšnosti a současně krátkou dobu testu?
- Jsou podobně zodpovězené testy společné pro určitou skupinu účastníků testu?
- Co je společným znakem této skupiny?
- Odpovídá nějaká skupina uchazečů výrazně lépe na otázky z jednoho profilového předmětu?
- Odpovídá nějaká skupina uchazečů výrazně lépe na otázky, které jsou nové, nebo naopak staré?
- Nebo nově zrecenzované? Zrecenzované jedním recenzentem?
- Jsou významné rozdíly mezi učebnami?
- Jsou významné rozdíly mezi uchazeči z různých kol testu?
Statistické indikace možného podvodného jednání
Existuje mnoho různých forenzních datových metod, které lze použít k detekci podvádění. [1] Statistické metody pro detekci podezřelých nesrovnalostí mohou zahrnovat:
- Hodnocení podobnosti odpovědí mezi dvojicemi zkoumaných. Nejjednodušší metody používají popisnou statistiku ke shrnutí počtu (nebo podílu) společně správných odpovědí nebo společných chyb. Například responses in common index (RIC) je počet otázek, na které mají dva zkoumaní stejnou odpověď. Složitější metody pracují s odhadem pravděpodobnosti, zda podobnost společných odpovědí může být ještě náhodná.
- Analýza změněných (smazaných) odpovědí sleduje počet změněných odpovědí studentů v odpovědních arších a testovacích programech. Nepravděpodobně velký počet změněných odpovědí ve třídě může naznačovat neoprávněnou manipulaci (např. hromadné opisování v při absenci dohledu). Počet změn ze špatné odpovědi na dobrou je mimořádně silným indikátorem podvodného jednání. [2], [3]
- Analýza předpokládané vs. aktuální úspěšnosti: Statistická analýza výsledků testů z předchozího roku může předpovědět budoucí výkon. Neočekávaně úspěšné souhrnné výsledky testů mohou indikovat podvádění, zvláště když se velké zisky nezopakují v dalším roce, nebo vynesení testů, pokud se vysoká úspěšnost potvrdí i v dalších letech. Efekt zlepšování výsledků pocházejících z lepší výuky je postupnější a dlouhodobý.
- Analýza odpovědí studentů: Za podezřelé je třeba považovat, pokud studenti neodpoví na velké množství snadných otázek a současně mají správně zodpovězené nepravděpodobné množství obtížných otázek. Podobně mohou testující hledat i další statisticky významné podobnosti napříč testy.
- Porovnání skóre mezi subjekty: Podezřelé je, pokud dojde k významné odlišnosti ve výsledcích u subjektů, jejichž výsledky spolu jinak vysoce korelují. Např. studenti v rámci jedné testové místnosti dosáhnou nepravděpodobně vysokého skóre v jednom předmětu.
- Neshoda mezi výsledky testů a předchozími studijními výsledky: Pokud v testech získají vysoké skóre studenti, kteří mají současně horší předchozí studijní výsledky, může to ukazovat na podvádění. Inovativní je v tomto směru přístup využívající pro detekci těchto anomálií strojového učení. [4]
Nástroje pro forenzní analýzu testů
Hledáme způsob, jak z testových dat identifikovat nepravděpodobné stavy, které mohou ukazovat na případné podvádění. Uživatelsky přátelských softwarových nástrojů pro datovou forenzní analýzu není příliš mnoho.
PerFit
Jedna ze strategií je taková, že můžeme pro každého studenta vytvořit graf relativní úspěšnosti zodpovězení položek seřazených podle obtížnosti. Z logiky věci lze očekávat, že graf by měl být monotónně klesající funkcí s rostoucí obtížností položek. Významné odchylky jsou dobře rozpoznatelné. Pro tuto analýzu můžeme použít např. balíček PerFit v R. [5]
Jde o uplatnění analýzy "person-fit", která s určitou (asi 25%) senzitivitou a určitou (asi 90%) specificitou ukazuje nestandardní výstup testu pro daného studenta. Nemusí jít přímo o podvádění (kopírování nebo znalost otázek předem), může jít i o náhodné tipování třeba jen v určité části testu apod. Přestože senzitivita a specificita tohoto zkoumání nejsou samospasitelné, může jít o cenný způsob vytěžení dat, která už beztak existují.
Balíček nepotřebuje žádná externí data. Pracuje s maticí otázek a studentů, kde je jen hodnota 1 (správně) nebo 0 (nesprávně) coby dichotomické skóre položek. Nástroj sám vypočítá obtížnost položky a pravděpodobnost správného zodpovězení pro daného studenta. Výsledné grafy jsou založené na hrubých datech z daného testu, nic víc není potřeba.
Postup je dobře použitelný pro případy, kdy mají všichni stejný test, případně kdy se dají data na stejný test přepočítat (např. pokud měli všichni stejné úlohy, pouze v jiném pořadí a s proházenými možnostmi). Cesta od matice ke grafu je přímočará, stačí 2-3 řádky kódu a získáte graf pro daného studenta.
SIFT
SIFT (Software for Investigation Fraud in Testing) je nástroj využívající pokročilých statistických metod pro vyšetřování podvodů při testování. Poskytuje jej bezplatně (za registraci) jeden z předních dodavatelů komerčních testových systémů - společnost Assessment Systems Corporation (ASC). K programu je k dispozici uživatelský manuál a ukázková data, nikoli však podpora, kterou je možné si dokoupit. SIFT vypočítává řadu indexů ukazujících na různé druhy podvodů (opisování, pomoc učitele, uniklé položky a další) a může agregovat výsledky seskupením podle proměnných, jakými jsou učebna, nebo poloha testovaného v rámci této učebny a pod. Podporuje všechny tři oblasti analýz - zaměřené na jedince, na relace mezi nimi i na skupiny. SIFT poskytuje objektivně změřené statistiky pro rozhodování, ale jejich interpretace v dané situaci je na uživateli.[6]
CopyDetect
CopyDetect (Zopluoglu, 2016) je balíček v open-source R statistickém programovacím jazyce (R Core Team, 2013), který v rámci modelu IRT i mimo něj počítá několik indexů podvádění. Je mezi nimi index Omega, zavedený Wollackem [7], K indexy [8] a S indexy [9]. CopyDetect zpracovává najednou vždy jen jeden pár zkoumaných. Je tedy na uživateli, aby si dopsal rutinu pro zpracování větších dávek dat. U balíčků R je třeba vzít v potaz, že jde o open-source software, takže je třeba přistupovat k němu s jistou mírou opatrnosti.
Díky statistickým metodám můžeme vyslovit podezření na nepovolenou spolupráci při vyplňování testu, ale závěry bychom měli dělat opatrně. Statistické postupy by neměly být jediným důkazem opisování, zvláště pokud se používají pro obecné skríningové účely. Je sice zřejmé, že čím vyšší je shoda mezi odpověďmi, tím je pravděpodobnější, že došlo k testovacímu podvodu, ale ani vysoká míra shody není nezvratným důkazem, že je opravdu způsobená podváděním. Vždy existuje šance, že shoda v testech je (byť velmi nepravděpodobným) výsledkem poctivého vyplnění testů. Pokud naopak někdo opíše méně než 10 % položek, nejsou to statistické metody schopné odlišit od náhodných jevů.
Odkazy
Reference
- ↑ Cizek, Gregory J. and James A. Wollack , "Handbook of Quantitative Methods for Detecting Cheating on Tests" (Abingdon: Routledge, 2016).
- ↑ Maynes, D.; Educator cheating and the statistical detection of group-based test security threats. In WOLLACK, James A. a John J. FERMER. (Eds.), Handbook of test security (pp. 187–214). New York, Routledge, Psychology Press, 2013. ISBN 978-0-203-66480-3.
- ↑ Ranger, J., Schmidt, N., & Wolgast, A. (2020). The Detection of Cheating on E-Exams in Higher Education-The Performance of Several Old and Some New Indicators. Frontiers in psychology, 11, 568825. https://doi.org/10.3389/fpsyg.2020.568825
- ↑ Kamalov F, Sulieman H, Santandreu Calonge D (2021) Machine learning based approach to exam cheating detection. PLoS ONE 16(8): e0254340. https://doi.org/10.1371/journal.pone.0254340
- ↑ TENDEIRO, Jorge N., Rob R. MEIJER a A. Susan M. NIESSEN. PerFit: An R Package for Person-Fit Analysis in IRT. Journal of Statistical Software [online]. 2016, 74(5), 1-27 [cit. 2021-10-7]. ISSN 1548-7660. Dostupné z: doi:10.18637/jss.v074.i05
- ↑ THOMPSON, Nathan. SIFT: A new tool for statistical detection of test fraud: SIFT: Software for Investigating Test Fraud. Assessment Systems Corporation (ASC) [online]. 2016 [cit. 2021-11-16]. Dostupné z: https://assess.com/sift-new-tool-statistical-detection-test-fraud/
- ↑ WOLLACK, James A. A Nominal Response Model Approach for Detecting Answer Copying. Applied Psychological Measurement [online]. 1997, 21(4), 307-320 [cit. 2021-10-6]. ISSN 0146-6216. Dostupné z: doi:10.1177/01466216970214002
- ↑ VAN DER LINDEN, Wim J. a Leonardo SOTARIDONA. Detecting Answer Copying When the Regular Response Process Follows a Known Response Model. Journal of Educational and Behavioral Statistics [online]. 2006, 31(3), 283-304 [cit. 2021-10-6]. ISSN 1076-9986. Dostupné z: doi:10.3102/10769986031003283
- ↑ SOTARIDONA, Leonardo S. a Rob R. MEIJER. Two New Statistics to Detect Answer Copying. Journal of Educational Measurement [online]. 2003, 40(1), 53-69 [cit. 2021-10-6]. ISSN 0022-0655. Dostupné z: doi:10.1111/j.1745-3984.2003.tb01096.x