Microsoft: Umjetna inteligencija lošija od ljudi u debugiranju koda

Najnovije istraživanje Microsoft Researcha pokazuje da umjetna inteligencija još uvijek nije dovoljno dobra u debugiranju, aktivnosti koja zauzima većinu vremena programera

Drago Galić subota, 12. travnja 2025. u 16:59

Novo istraživanje Microsoft Researcha objavljeno u blogu od 10. travnja pokazalo je da debugiranje programa, aktivnost na koju otpada daleko više vremena od samog kodiranja, i dalje bolje rade ljudi od umjetne inteligencije.

Microsoft Research razvio je novi alat nazvan debug-gym za testiranje i poboljšanje sposobnosti AI modela u debugiranju softvera. Debug-gym, dostupan na GitHubu i detaljno opisan u blog postu, predstavlja okruženje koje omogućuje AI modelima da pokušaju debugirati postojeće repozitorije koda s pristupom alatima za debugiranje koji nisu bili dio procesa za ove modele. Istraživači su otkrili da su bez ovog pristupa modeli izrazito loši u zadacima debugiranja. S pristupom alatima za debugiranje, modeli postižu bolje rezultate, ali su i dalje daleko od sposobnosti iskusnog ljudskog programera.

Alat proširuje prostor djelovanja i promatranja agenta s povratnim informacijama iz korištenja alata, omogućujući postavljanje prekidnih točaka, navigaciju kroz kod, ispis vrijednosti varijabli i stvaranje testnih funkcija.

Rezultati testiranja pokazuju da agenti koji koriste alate za debugiranje značajno nadmašuju one koji ih ne koriste, ali njihova stopa uspjeha i dalje nije dovoljno visoka. Najbolji slučaj pokazuje stopu uspjeha od samo 48,4%, što nije dovoljno za produkcijsku upotrebu. Ograničenja su vjerojatno posljedica činjenice da modeli ne razumiju u potpunosti kako najbolje koristiti alate i jer njihovi trenutni podaci za treniranje nisu prilagođeni ovom slučaju upotrebe.

Sljedeći korak je fino podešavanje modela za traženje informacija specijaliziranog za prikupljanje potrebnih informacija za rješavanje bugova. Ako je model velik, najbolji potez za uštedu troškova zaključivanja mogao bi biti izgradnja manjeg modela za traženje informacija koji može pružiti relevantne informacije većem modelu, kaže se u istraživanju

Ovo nije prvi put da su viđeni rezultati koji sugeriraju da su neke ambiciozne ideje o AI agentima koji izravno zamjenjuju programere prilično daleko od stvarnosti. Već postoje brojne studije koje pokazuju da, iako AI alat ponekad može stvoriti aplikaciju koja se čini prihvatljivom korisniku za uski zadatak, modeli obično proizvode kod pun bugova i sigurnosnih ranjivosti, a općenito nisu sposobni riješiti te probleme.