Inimeste ravi toetavad TI-mudelid põhinevad kohati kahtlastel andmetel

Käsikäes tehisaru pealetungiga kasutavad haigladki üha enam sellel põhinevaid insuldi- ja diabeedimudeleid. Austraalia teadlased leidsid, et enam kui sajas taoliste mudelite alustalaks olevas teadustöös on kasutatud kahtlast päritolu andmeid. Nende enda uuring pole aga veel pälvinud teiste teadlaste sõltumatut hinnangut.
Arstid saavad tänapäeval patsientide diabeedi- ja insuldiriski hindamisel toetuda muu hulgas tehisarumudelitele. Uues uuringus osutus osa selliseid mudeleid aga probleemseks: nende õpetamiseks kasutatud andmestikud sisaldasid bioloogiliselt võimatuid anomaaliaid. Näiteks leidus 100 000 väidetava patsiendi peale vaid 18 erinevat veresuhkru väärtust. Päriselus kogutud terviseandmed pole kunagi niivõrd ühetaolised, vahendab Nature News.
Arendajad kasutavad oma algoritmide ehitamiseks sageli Kaggle'i tasuta platvormi andmebaase. Paraku puudub sealses keskkonnas range meditsiiniline kvaliteedikontroll. Masinõppes kehtib aga põhimõte, et vigastele andmetele toetuv tehisaru ei suuda reaalsuses turvaliselt toimida.
Ohule juhivad nüüd tähelepanu ka Queenslandi Tehnoloogiaülikooli uurijad oma värskes ja veel eelretsenseerimata teadustöös. Uurimisrühm analüüsis 124 artiklit, mis toetusid kahele vabavaralisele andmestikule. Nende analüüs tõi ilmsiks märke kunstlikult loodud terviseinfost. Sellest hoolimata on vähemalt kaks sellist algoritmi juba Hispaania ja Indoneesia haiglates kasutusel. Samuti on mõlemad andmestikud internetis vabalt kättesaadavad.
Lisaks käibib üks probleemne mudel Ameerika Ühendriikide meditsiiniseadme patenditaotluses. George'i Globaalse Tervise Instituudi teaduri Soumyadeep Bhaumiki sõnul pole teadmata päritoluga andmetel treenitud mudelitel meditsiinis kohta. Ta hoiatas, et sellised tööriistad võivad teha vääraid ennustusi, mistõttu võivad arstid määrata patsientidele tarbetuid ravimeid või jätta nad vajaliku abita.
Liiga põhjalik, et olla tõsi
Suur osa uues uuringus avastatud vigadest pärines Hispaania andmeteadlase üleslaaditud insuldiriski ennustamiseks kasutatavast andmekogust, mis koondas endas üle 5000 inimese terviseinfot. Fail sisaldas andmeid kehamassiindeksi, perekonnaseisu ja varasemate südamehaiguste kohta. Laadija väitis platvormil, et info pärineb konfidentsiaalsest allikast.
Uuringu ühe autori ja statistiku Adrian Barnetti sõnul äratas failis kahtlust, et kõik andmeväljad olid eeskujulikul täidet. Päris uuringutes tekib alati lünki, sest osa uuritavaid jätab arstilkäike vahele või ei osale projektis lõpuni. Seega viitas andmete täiuslikkus selgelt moonustustele.
Barnetti töörühm tuvastas 104 teiste teadlaste loodud insuldimudelit, mis neil kahtlastel andmetel põhinevad. Üks nende alusel loodud algoritmidest jõudis käibele ühes Indoneesia haiglas. Teist mudelit katsetas USA südamekliinik väikese rühma patsientide peal.
Teine murekoht puudutab India andmeinseneri avaldatud diabeedi ennustamise andmestikku. Selles andmebaasis leidus info väidetavalt 100 000 inimese kohta. Andmestiku üleslaadija keeldus privaatsusreeglitele viidates algallikat avaldamast. Kaggle'i keskkonna haldajad pole vahejuhtumit ametlikult kommenteerinud.
Uurimisrühm leidis diabeediga seotud andmestikust tuhandeid korduvaid väärtusi. Nii äärmuslikult ühetaolised veresuhkru tasemed tegid kogutud materjali bioloogiliselt ebausutavaks. Sellegipoolest loodi nende andmete põhjal 21 erinevat diabeedi ennustamise mudelit. Seni pole uuringu autoritele teadaolevalt ükski neist kliinilisse kasutusse jõudnud.
Vaja on tihedamat sõela
Kriitika peale on mitmed valimisse jõudnud mudelite loojad oma valikuid kaitsnud. Näiteks märkis India arvutiinsener M. Karpagam, et arendajad kasutavad avalikke andmebaase sageli algoritmide raamistike testimiseks. Tema kinnitusel ei plaaninud nad mudelite abil kliinilisi järeldusi teha. Mudelit kirjeldava uuringu avaldamisajal polnud autorid andmete kunstlikust päritolust teadlikud.
Samal ajal peavad teadusajakirjad tegelema eelretsenseerimise käigus tekkinud praagiga. Väljaande Scientific Reports peatoimetaja Rafal Marszaleki sõnul vaatab toimetus praegu üle viit kahtlast artiklit. Alates märtsi lõpust on ajakiri andmete paikapidavuse kahtluse tõttu eemaldanud teaduskirjandusest kolm teadustööd. Olemasolev hindamissüsteem ei suutnud ohtlikke vigu õigel ajal tabada.
Sarnaseid samme astuvad ka teised suured teaduskirjastused. Frontiersi uurimiseetika meeskonna esindajad kinnitavad, et nad uurivad probleemseid artikleid põhjalikult vastavalt eetikajuhistele. Probleemsele insuldiandmestikule toetunud uuringu avaldanud Indoneesia väljaanne Nature'i päringutele ei reageerinud.
Uus uuring ise ootab samuti veel ametlikku eelretsenseerimist. Praegu puudub täpne ülevaade vigaste mudelite tekitatud otsesest kahjust patsientidele. Samuti pole selge, kui palju kohalikud kliinikud neid algoritme rakendavad.
Riskide vähendamiseks soovitab Soumyadeep Bhaumik asutustel nõuda aga arendajatelt ranget andmete päritolu tõestamist. Tema hinnangul peavad ajakirjad niisuguse infota artiklid automaatselt tagasi lükkama. Barnetti sõnul peaks aga Kaggle'i-suguste platvormide haldajad ohtlikud andmestikud kohe eemaldama. Nii ei loo eksperdid rohkem uusi vigaseid mudeleid.
Uuringu esmaversioon on leitav võrguvaramust medRxiv.
Toimetaja: Airika Harrik



















