Brez podatkov ni umetne inteligence

23. januar 2025

Kolaž fotografij in ilustracij. V ospredju je tehtnica z denarjem na eni strani, ki pretehta ljudi na drugi strani, okoli so nadzorne kamere s človeškimi očesi. V ozadju je binarna koda, ki ponazarja podatke, zamegljeni stolpi knjig in oznaka za lokacijo.

Montaža Danes je nov dan.

Umetnointeligenčni modeli zaznavajo, analizirajo in prepoznavajo okolje z interpretacijo podatkov, ki jih imajo na voljo. S pomočjo metode strojnega učenja obdelujejo ogromne količine podatkov, da lahko za določene cilje podajajo rezultate, kot so napovedi, priporočila in odločitve. To pomeni, da modeli na podlagi dejanskih primerov (npr. fotografij mačk) prepoznavajo nove situacije (npr. mačko na sliki) ali ustvarjajo nove vsebine (npr. sliko mačke). Količina in kakovost podatkov, na katerih modeli trenirajo, zato ključno vplivajo na rezultate, ki jih nato ustvarjajo.

Kako razvijalke modelov umetne inteligence pridejo do podatkov?

Za treniranje modelov UI ni dovolj zgolj nekaj fotografij, besedil, zvočnih ali video posnetkov, saj ti potrebujejo ogromne količine informacij in vstopnih podatkov. Razvijalkam so na voljo obstoječe podatkovne baze, podatke pa lahko na različne načine pridobijo tudi same in s tem ustvarijo nove baze:

Odprte baze podatkov so javno in prosto dostopne zbirke, ki jih ponujajo države, podjetja in raziskovalne institucije. Ker so mnoge produkt dela zahodnih raziskovalk, se v njih odražajo družbeni predsodki, kar vpliva na njihovo kakovost, saj lahko med drugim predstavljajo samo del sveta, prekomerno zastopajo bele moške itd. Prav tako mnoge baze vključujejo le omejene podatke in zato nimajo velike uporabnosti (npr. baza časopisnih člankov vključuje le novice o temah, ki so bile dovolj “pomembne”, da se je o njih pisalo).
Razvijalke lahko podatke prenesejo s spleta, denimo z družbenih omrežij. A takšno pridobivanje pogosto poteka brez privolitve avtoric besedil, fotografij in drugih materialov, hkrati pa največkrat ne odraža vseh demografskih skupin ali vrst vedenja.
Podatkovne baze podjetij vsebujejo informacije o naših klikih, nakupih in interakcijah na spletu. Ti podatki so dragoceni, saj jih podjetja uporabljajo za lastno optimizacijo ali jih prodajajo drugim organizacijam, vendar pa lahko tovrstno obsežno zbiranje podatkov krši pravico uporabnic do zasebnosti, še posebej, če te niso jasno in izrecno obveščene o njihovi uporabi ali če pride do njihove preprodaje. Obenem imajo uporabnice pogosto malo ali pa sploh nič nadzora nad tem, kako se njihove podatke uporablja ali analizira.
Razvijalke lahko podatke ustvarijo same. Takšni podatki se imenujejo sintetični podatki in velikokrat ne odražajo resničnega sveta, v njih pa lahko manjkajo subtilnosti ali nepričakovane lastnosti, ki so sicer prisotne v našem vsakdanu.
Podatkovne baze se lahko gradijo tudi s pomočjo množičnega zbiranja podatkov na podlagi prostovoljnih prispevkov uporabnic, a so tako zbrani podatki lahko pristranski, pomanjkljivi ali selektivni.

Zakaj moramo v kontekstu umetne inteligence nujno govoriti o podatkih?

V stroj, ki ponazarja umetnointeligenčni model, vstopajo vreče smeti, iz njega pa letijo smeti. Stroj ponazarja slabe podatke, ki proizvajajo slabe rezultate.

Montaža Danes je nov dan.

Umetna inteligenca temelji na človeškem delu

UI ne deluje samostojno, ampak temelji na številnih oblikah dela, brez katerih njen obstoj ni možen. Tako se modeli urijo iz obstoječih avtorskih prispevkov, kot so knjige, blogi in fotografije, katerih avtorice pogosto niso niti privolile v uporabo svojega dela za te namene (ker jih tudi nihče ni vprašal) niti za svoj prispevek k razvoju niso bile plačane. UI orodja in aplikacije, ki velikim tehnološkim korporacijam prinašajo ogromne zaslužke, zato pogosto temeljijo na kraji avtorskih del, ki bi bila v drugih primerih nedopustna.

Tudi označevanje (anotiranje) podatkov, na podlagi katerih umetna inteligenca trenira, je rezultat človeškega dela. Da lahko model "prepozna" mačko na sliki, je bilo potrebno ročno označiti milijone slik, kar je pogosto zelo kompleksno, a hkrati izjemno podplačano delo. Ker so pri dojemanju informacij važni kulturni, družbeni in jezikovni konteksti (kaj je poročna obleka ni enako v vseh kulturah, kaj šele, kako se izraža jeza), je označevanje izjemno pomemben proces, slabo ali pomanjkljivo označeni podatki pa vedno vodijo do slabih rezultatov.

Podatki so surovina

S porastom tehnologij in produktov, ki temeljijo na umetni inteligenci, podatki postajajo ena najdragocenejših surovin sodobnega sveta.

Naši kliki na spletu niso zgolj naši – v trenutku, ko se zgodijo, postanejo last korporacij, ki izkoriščajo naše digitalne sledi za povečevanje lastnih dobičkov. Ko med jutranjo kavo brskamo po Facebooku, opravljamo neplačano delo za korporacijo Meta. Naše vedenjske vzorce bo ta uporabila za izboljšanje algoritmov in tako še podaljšala čas, ki ga preživimo na platformi, s čimer bo povečala prihodke iz oglaševanja. Tovrstni sistemi pa imajo lahko zelo hude posledice – Facebookovi algoritmi so namreč dokazano prispevali k radikalizaciji uporabnic. Čeprav to ni bil želeni cilj razvijalk, pa so algoritmi namensko usmerjali k vsebinam, ki šokirajo in povečujejo angažiranost, s tem pa čas na platformi.

A zgodba naših podatkov se tukaj ne zaključi, saj so ti postali ogromen posel. Naša digitalna sled tako ne ostane le v rokah podjetja, ki jih je zbralo, saj se podatki pogosto prodajajo naprej – brez našega vedenja ali privolitve.

Čeprav mislimo nasprotno, pa zgornji oris razkriva pomembno resnico: v svetu umetne inteligence in podatkovne ekonomije podatki ne delajo za nas.

Rezultati so odvisni od kakovosti podatkov

Rezultati UI modelov so lahko uporabni, če temeljijo na kakovostnih in dobro strukturiranih podatkih, a kaj ko ti pogosto sploh ne obstajajo. Namesto tega so večinoma neposreden odraz družbe, ki je polna predsodkov in neenakosti. Tako podatkovne baze prednost dajejo podatkom, ki izhajajo iz življenjskih izkušenj belih moških, medtem ko so informacije o drugih skupinah ljudi slabše zastopane. To ni izključno težava umetne inteligence – podobni vzorci so denimo prisotni v medicinskih raziskavah, kjer rezultati, osnovani na belih moških, pogosto niso primerni za ženske. Predstavljanje podatkov kot nevtralnih lahko vodi do napačnih ali celo škodljivih rezultatov, kot so rasistični izidi pri sistemih za prepoznavo obrazov ali algoritmih za napovedovanje zločinov, ki stereotipizirajo temnopolte osebe.

Poleg predsodkov, vgrajenih v podatke, ki jih uporabljajo UI sistemi, pa moramo upoštevati tudi dejstvo, da modeli strojnega učenja niso zares inteligentni, temveč zgolj prepoznavajo vzorce. Zaradi omejene kakovosti podatkov lahko torej prihaja do napačnih rezultatov – tako je na primer model za prepoznavanje kožnega raka, usposobljen na visokokakovostnih fotografijah, za pozitiven primer raka zmotno prepoznal že mersko oznako in zrnatost fotografije. Takšne napačne asociacije razkrivajo omejitve umetne inteligence in poudarjajo pomen transparentnosti podatkovnih baz, ki bi neodvisnim strokovnjakinjam omogočila preverjanje njihove kakovosti. A kaj, ko so podatki pogosto predragocena surovina, da bi bili javno dostopni.

Kako naprej?

Razmišljanje o UI skozi prizmo podatkov nam pomaga bolje razumeti umetno inteligenco. Ta ni "inteligentna" sama po sebi – temelji na človeškem delu, surovinah in odločitvah, ki oblikujejo podatke. Ob razvoju in rabi sistemov moramo zato nujno obravnavati kakovost, dostopnost in pravičnost podatkov, saj ravno te oblikujejo rezultate in učinke UI v našem svetu.

Prispevek je povzetek tretjega predavanja iz serije Mini tečAI: Umetna inteligenca od A do NVO. Dogodki so bili zasnovani posebej za nevladne in civilnodružbene organizacije ter vse, ki morda nimajo poglobljenega znanja o tehnoloških vidikih umetne inteligence, a želijo bolje razumeti, kako umetna inteligenca vpliva na njihovo delo in kako se z njo učinkovito spoprijeti.

Posnetek tretjega predavanja: O podatkih

Na tretjem predavanju se nam je kot gostujoča govorka pridružila Niamh O’Mahony, direktorica upravljanja pri organizaciji Football Supporters Europe.

Povezani zapisi

Kaj se skriva za umetno inteligenco?

Se sprašuješ, kaj sploh je umetna inteligenca? Se ne moreš odločiti, ali bo rešila vse naše težave, kot navdušeno trdijo nekateri, ali nas pokopala, kot svarijo drugi? Kaj pa, če sta ti dve skrajnosti le krinka za nevarnosti, ki jih že občutimo? Preveri, zakaj moraš že zdaj preizpraševati in nadzorovati rabo umetne inteligence in s tem zagotoviti varnejšo in boljšo prihodnost za vse!

25. november 2024

Kako deluje UI? Meme Smart guy, ki se trka po glavi. V ozadju primer izbirnega drevesa velikega jezikovnega modela, predloga poti na zemljevidu in slik čivave ter muffinov.

Kako deluje tehnologija, ki poganja umetno inteligenco?

Se ti zdi, da se ne moreš vključevati v debate o rabi in regulaciji umetne inteligence, ker ne poznaš čisto vseh tehničnih aspektov? Brez skrbi, dovolj je, da razumeš logiko UI sistemov, ki pa ni veliko bolj zapletena kot – kuhanje. Preveri, kateri ključni sestavini mora vključevati umetna inteligenca in zakaj tehnologija, ki jo poganja, sploh ni nič posebnega!

5. december 2024

Mini tečAI: Umetna inteligenca od A do NVO

20. avgust 2024

Več zapisov