Alibaba AI overstiger mennesker i leseforståelsestest

For det første var det AlphaGo AI fra Googles DeepMind-datterselskap som slo verdens beste Go-spillere på sitt eget spill for å lage en plate. Deretter overgikk en AI ved navn Libratus, utviklet av Carnegie Mellon University, pokerproffene i en turnering for å rette verdens oppmerksomhet mot det raske tempoet AI utvikler seg i. I det siste eksemplet på en AI som overlever mennesker, en dyp nevral nettverksmodell utviklet av Alibaba klarte seg bedre enn mennesker i en leseforståelsestest.

AI-modellen utviklet av Alibaba Institute of Data Science and Technologies flammet forbi SQuAD (Stanford Question Answering Dataset) -testen - en av de mest pålitelige leseforståelsestestene for å evaluere en maskins språkferdigheter - i en konkurranse som satte den mot menneskelige rivaler.

Alibabas AI scoret kumulative 82.44 Exact Match (EM) poeng, og overtok sine menneskelige konkurrenter som manglet å plassere 82.304 poeng på resultattavlen. I følge en rapport publisert i South China Morning Post - også eid av Alibaba - markerer denne prestasjonen første gang når en maskin har slått sine menneskelige kolleger i en leseforståelsestest.

Når det gjelder netto F1-poeng i SQuAD-vurderingen, Alibabas AI-modell toppet diagrammet med 88,607 poeng, og posisjonerte seg høyere enn lignende systemer utviklet av Microsoft og Facebook. Resultatene er virkelig imponerende fordi språkforståelse tradisjonelt har blitt sett på som et svakt punkt i AI-systemer. Den nevnte mangelen begrenser sterkt deres evne til å føre en virkelig produktiv samtale med en person, og ikke bare knase tall og behandle informasjon.

Med ordene fra Si Luo, en sjefforsker for naturlig språkbehandling ved Alibabas forskningsarm, vil de nylige resultatene åpne for nyere veier for å distribuere AI-systemer i kundeassistansjobber, takket være deres forbedrede språkbehandlingsmuligheter.

Vi mener at den underliggende teknologien gradvis kan brukes på mange applikasjoner som kundeservice, museumsopplæring og online svar på henvendelser fra pasienter, noe som frigjør menneskelig innsats på en enestående måte

Resultatene oppnådd av Alibabas dype nevrale nettverksmodell indikerer at AI-systemer snart vil kunne svare på objektive spørsmål som 'hva som forårsaker regn' ved å behandle den store mengden informasjon som de har til rådighet, og svare med det mest kontekstuelle og presise svaret.