Aurkezpena

Aurre entrenatuko eredu sortzaile handiak, hala nola GPT3 eta antzekoak, sare neuronal sakonen arkitektura mota bat dira, eta gaur egun arrakasta handiz erabiltzen ari dira adimen artifizialaren arloan. Eredu horiek giza hizkuntza ulertzea eta sortzea eskatzen duten zereginetan erabiltzen dira.

Hizkuntza eredu sortzaile hauek mila milioi parametroko eredu neuronal handiak dira. Testuen bilduma zabalekin aurreentrenatzen dira, ikaskuntza sakoneko algoritmoen bidez, eta ereduari hizkuntza ulertzeko eta sortzeko gaitasun orokorra ematen zaio.

Eredu horien abantaila nagusietako bat da zuzenean aplika daitezkeela giza hizkuntzarekin zerikusia duten lan ugari ebazteko. Zuzeneko aplikazio hori Testuinguruaren bidezko ikaskuntza (In-Context Learning) izeneko paradigmari esker egin daiteke. Gainera, paradigma horrek hizkuntza-teknologien garapen mailakatua ahalbidetzen du, ez baita ia adibide-daturik behar hizkuntza-lanak egiteko.

Hala ere, hizkuntza sortzeko ereduak eraikitzeak eta testuinguruan ikasteko tekniken bidez aplikatzeak erronka handiak sortzen ditu.

Proiektuaren helburu nagusia da hizkuntza-eredu autorregresiboei buruzko ezagutza sortzea, algoritmo eta arkitektura neuronal berriak ikertuz, konputu-erregimenetara eta entrenamendu aurreko datu-multzo mugatuetara egokitzeko, eta, NLParen funtsezko erabilerako kasuetan, testuinguruko ikaskuntza-algoritmoen bidez eredu horiek ahalik eta ondoen ustiatzeko.