Meta "uhvaćena" u treniranju AI modela na terabajtima knjiga skinutih s torrenta
Novi dokazi u sudskoj parnici, u kojoj književnici tuže Metu za neovlašteno korištenje zaštićenih djela, ukazuju na to da je kompanija svjesno preuzimala terabajte piratskog sadržaja za treniranje AI modela

Skupna tužba književnika i općenito autora tekstualnih djela protiv Mete otkrila je neke zanimljive pojedinosti. Tužba je podignuta krajem 2023. godine, kad su pojedini autori otkrili svoje tekstualne isječke u rezultatima koje generira Metin veliki jezični model Llama. Tvrdili su tada da je on obučen na ilegalno pribavljenim digitalnim kopijama njihovih radova, odnosno da je obuka provedena uz kršenje autorskih prava i bez njihove dozvole za takvo korištenje intelektualnog vlasništva.
Deseci terabajta piratskih knjiga
Ovih dana sudski je proces dobio i novi zaplet. Novootkrivena interna e-mail komunikacija među zaposlenicima Mete, koji su radili na treniranju AI modela, objavljena je i razotkriva njihove poprilično etički upitne prakse. Dokazi upućuju na to da su Metini stručnjaci materijale za obučavanje jezičnog modela pribavljali putem – torrenta.
Pokupili su tako najmanje 81,7 terabajta digitaliziranih knjiga s niza ne baš legalnih repozitorija, kao što su Anna’s Archive, Z-Library i LibGen, a prije toga navodno su već imali pristup do preko 80 terabajta materijala s LibGena. Pritom su bili svjesni da je riječ o knjigama koje su učinjene dostupnima na ilegalan način, tj. piratiziranjem, što je dokazano i u e-mailu u kojem jedan zaposlenik piše kako "torrentanje sa službenog laptopa nije dobro", što je popraćeno emotikonom smijanja.
Znamo li da je veličina jedne knjige, koja se u digitalnom obliku preuzima s torrenta, u pravilu ispod 5 megabajta – u 80-ak terabajta moglo bi se smjestiti više od 17 milijuna knjiga.
Znali za ilegalne prakse
Kako god da se ono obavlja, preuzimanje piratiziranog je sadržaja ilegalno, a razmjeri Metinog korištenja takvih materijala su zapanjujući, tvrde tužitelji. Navode i da su sudovi dosad bili prilično strogi u sličnim slučajevima, pa su kazneni postupci pokretani i za piratiziranje na razini od samo 0,008% ovoga u čemu je sada "uhvaćena" Meta. U kompaniji su, kako daljnja komunikacija pokazuje, znali da se bave ilegalnim praksama, no odlučili su sve pokušati sakriti i zataškati.
U skidanju torrenta ustrajali su navodno sve do travnja 2024. godine, pa oštećeni autori u svjetlu novih dokaza sada traže od suda da se optužnica proširi, a svjedoci iz Mete, koji su korištenje torrenta negirali, ponovno pozovu na ispitivanje. K tome, postoje i inkriminirajući dokazi o tome da je Meta i seedala torrente, odnosno distribuirala piratski sadržaj dalje, što je pak novo kršenje autorskih prava.