Kniha (2022)/Automatizace tvorby úloh

S tím, jak přibývá počítačem podporovaného testování, a zvláště pak s rozvojem adaptivního testování, přitahují pozornost metody, kterými by se tvorba testových úloh mohla zjednodušit. V tradičním přístupu ke konstrukci testů vytvářejí jednu každou položku specialisté na konkrétní oblast. Nejprve úlohu napíše autor, potom ji další odborníci oponují, následně ji pedagog prověří v pilotním testu a podle výsledku ji revidují a upravují. Teprve poté se položka konečně použije pro testování. Celý proces je dlouhý a nákladný. V důsledku toho je stále obtížnější pokrýt rostoucí poptávku po zkušebních položkách ^[1]. Automatické generování položek (automatic item generation, AIG) by mohlo představovat velkou úsporu času i prostředků a je proto předmětem intenzivního výzkumu. Některé koncepty řešení tohoto úkolu se dostaly již do stádia praktického testování.

V prvním z konceptů můžeme proces automatického klonování položek rozdělit do dvou kroků. Autoři testových úloh nejprve vytvářejí modely položek, které slouží jako jakési šablony. Snaží se z úloh vydestilovat jejich podstatu, která je zásadní pro prokázání znalostí. Na vhodná místa v těchto šablonách jsou pak navrhovány různé alternující termíny (často strojově, např. pomocí slovníků synonym). S využitím sady zástupných termínů pak algoritmus změní tuto šablonu na skupinu souvisejících položek vytvořením všech možných permutací. Tím dochází ke generování "nových", nikoliv však nezávislých položek. V konkrétním běhu testu nemůže být použita víc než jedna položka z každé skupiny klonů. Navíc některé permutace povedou ke vzniku nesmyslných, nebo nepravděpodobných kombinací, takže musí být vyloučeny. ^[2], ^[3], ^[4]

Je pak předmětem diskuze, zda v položkových bankách mají být až výsledné klony, nebo zdrojové šablony a variabilní součásti položek. Účelem je získat položky, jejichž psychometrické charakteristiky by byly odhadnutelné ze známých výsledků jiné položky ze stejné série klonů. Díky náročnému procesu tvorby, který vede k nutnosti ujasnit si podstatu každé položky, jsou takto vzniklé úlohy často překvapivě kvalitní. Poznamenejme, že použitelnost strojově generovaných variant je závislá i na konkrétním jazyce. Například v češtině s její komplikovanou gramatikou by to bylo mimořádně obtížné.

Podobný postup byl testován i při snahách vytvářet položkově srovnatelné testy pro ověřování reliability metodou test-retest. Ukázalo se, že pokus modifikovat původně funkční položky změnou alternujících termínů vedl k vytváření položek s vyšší obtížností. ^[5]. To poněkud nabourává původní představu, že klonované položky budou mít stejné psychometrické parametry jako originál. Je tedy otázkou, zda celý proces dává smysl, když sice vzniknou nové položky, ale tak jako tak je třeba je kalibrovat.

Druhý koncept automatizované tvorby testových úloh otevírají první práce zabývající se využitím umělé inteligence. Modelový postup byl předveden na workshopu při jednání Evropské rady lékařských hodnotitelů v Braze v Portugalsku. Skupina autorů dostala za úkol vytvořit k danému tématu (bolest břicha) kognitivní mapu. Kognitivní mapa pomáhá popsat problém po prvcích (např. věk, pohlaví, kontext, vitální funkce, příčina, diagnóza). Každý z těchto prvků může mít sadu různých hodnot. Zkušení vývojáři testů potřebují na vytvoření kognitivní mapy několik hodin. Poté počítač vygeneroval sadu položek, které představují různé kombinace prvků kognitivní mapy. Při workshopu bylo toto namíchání prvků provedeno s pomocí aplikace Excel. Autorům testů by nasazení podobného systému mohlo v budoucnosti usnadnit život. ^[6] Problém tohoto přístupu spočívá v časové náročnosti a nákladnosti vytváření kognitivní mapy. V publikaci věnované automatizované tvorbě položek z matematiky pro první stupeň se ukazuje, že automatizovaná tvorba je nákladově výhodná (oproti tradiční tvorbě), pokud lze z jednoho kognitivního modelu vygenerovat sadu více než 200 položek. ^[7]

V témže roce byl prezentován i další systém, který pomocí umělé inteligence dokáže dolovat data z oborové bibliografické databáze a využít je pro tvorbu kmenů položek i návrhy distraktorů. Tyto návrhy položek mohou sloužit lidským autorům jako polotovar pro snazší tvorbu nových úloh. ^[8]

Odkazy

Reference

↑ DRASGOW, Fritz, Richard M LUECHT a Randy E BENNETT. Technology and testing. In Brennan, Robert L. Educational measurement. 4. vydání. Praeger Publishers, 2006. 779 s. Washington, DC: American Council on Education. ISBN 0275981258, 9780275981259
↑ GIERL, Mark J a Thomas M HALADYNA. Automatic item generation: Theory and practice. 1. vydání. New York : Routledge, 2012. 256 s. ISBN 978-0-415-89750-1.
↑ GIERL, Mark J. a Hollis LAI. The Role of Item Models in Automatic Item Generation. International Journal of Testing [online]. 2012, 12(3), 273-298 [cit. 2021-9-26]. ISSN 1530-5058. Dostupné z: doi:10.1080/15305058.2011.635830
↑ GIERL, Mark J, Hollis LAI a Simon R TURNER. Using automatic item generation to create multiple-choice test items. Medical Education [online]. 2012, 46(8), 757-765 [cit. 2021-10-4]. ISSN 03080110. Dostupné z: doi:10.1111/j.1365-2923.2012.04289.x
↑ FIŘTOVÁ, Lenka. Klonování úloh jako cesta k vyrovnání obtížnosti různých variant testu? In: Konference Psychologická diagnostika. Brno: MUNI FSS, 2021
↑ VAN DER VLEUTEN, Cees. Automatic Item Generation by Cees van der Vleuten [online]. Maastricht University, 2019 [cit. 2021-10-4]. Dostupné z: https://www.maastrichtuniversity.nl/news-events/newsletters/article/NyJydZFCFpcpCYHi4Fadew
↑ KOSH, Audra E., Mary Ann SIMPSON, Lisa BICKEL, Mark KELLOGG a Ellie SANFORD‐MOORE. A Cost–Benefit Analysis of Automatic Item Generation. Educational Measurement: Issues and Practice [online]. 2018, 38(1), 48-53 [cit. 2021-10-4]. ISSN 0731-1745. Dostupné z: doi:10.1111/emip.12237
↑ Davier, M.V. (2019). Training Optimus Prime, M.D.: Generating Medical Certification Items by Fine-Tuning OpenAI's gpt2 Transformer Model. ArXiv, abs/1908.08594.

[1] DRASGOW, Fritz, Richard M LUECHT a Randy E BENNETT. Technology and testing. In Brennan, Robert L. Educational measurement. 4. vydání. Praeger Publishers, 2006. 779 s. Washington, DC: American Council on Education. ISBN 0275981258, 9780275981259

[2] GIERL, Mark J a Thomas M HALADYNA. Automatic item generation: Theory and practice. 1. vydání. New York : Routledge, 2012. 256 s. ISBN 978-0-415-89750-1.

[3] GIERL, Mark J. a Hollis LAI. The Role of Item Models in Automatic Item Generation. International Journal of Testing [online]. 2012, 12(3), 273-298 [cit. 2021-9-26]. ISSN 1530-5058. Dostupné z: doi:10.1080/15305058.2011.635830

[4] GIERL, Mark J, Hollis LAI a Simon R TURNER. Using automatic item generation to create multiple-choice test items. Medical Education [online]. 2012, 46(8), 757-765 [cit. 2021-10-4]. ISSN 03080110. Dostupné z: doi:10.1111/j.1365-2923.2012.04289.x

[5] FIŘTOVÁ, Lenka. Klonování úloh jako cesta k vyrovnání obtížnosti různých variant testu? In: Konference Psychologická diagnostika. Brno: MUNI FSS, 2021

[6] VAN DER VLEUTEN, Cees. Automatic Item Generation by Cees van der Vleuten [online]. Maastricht University, 2019 [cit. 2021-10-4]. Dostupné z: https://www.maastrichtuniversity.nl/news-events/newsletters/article/NyJydZFCFpcpCYHi4Fadew

[7] KOSH, Audra E., Mary Ann SIMPSON, Lisa BICKEL, Mark KELLOGG a Ellie SANFORD‐MOORE. A Cost–Benefit Analysis of Automatic Item Generation. Educational Measurement: Issues and Practice [online]. 2018, 38(1), 48-53 [cit. 2021-10-4]. ISSN 0731-1745. Dostupné z: doi:10.1111/emip.12237

[8] Davier, M.V. (2019). Training Optimus Prime, M.D.: Generating Medical Certification Items by Fine-Tuning OpenAI's gpt2 Transformer Model. ArXiv, abs/1908.08594.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]