(TF)² #3 – Vem är världsbäst på AI?
Vem är egentligen bäst i världen på AI? Detta frågade min dotter en kväll för att slippa läggdags. AI är naturligtvis ett forsknings- och tillämpningsområde och inte en väldefinierad tävling, men jag tror och tycker även vuxna borde vara intresserade av denna fråga. Det är viktigt för att veta vem man ska lära sig av, var man kan se fronten av vad som är möjligt inom olika områden just nu och för att få saker pressar en disciplin till sitt yttersta lika mycket som en tävling.
Kaggle
Svaret på den mest bokstavliga tolkningen av frågan finns hos Kaggle. Hos Kaggle tävlar man i data science och maskininlärning. Där kan företag ladda upp data och utlysa penningpriser för den som lyckas förutsäga utfallet givet kända variabler bäst. Data delas upp i en stor mängd som alla får se och lära sig från och en dold mängd som används för att mäta modellkvalitet. Kaggle är en enormt populär webplats med över en miljon användare och 50 000 publicerade datamängder inom en stor mängd områden. Om man gör extremt bra ifrån sig där, så kan man få titeln stormästare, vilket drygt 200 användare har lyckats med just nu.
Här är deras rankinglista. Om man ska gå på Kaggle-metodiken för att se vem som är bäst, så är det i skrivande stund den österrikiske doktorn i datavetenskap Philipp Singer (Psi).
State-of-the-art
I AI-världen finns det en filosofi att det enda sättet att avancera ett område är att definiera vad det betyder att vara bra på en viss uppgift. Detta gör man genom standard-datamängder (och ibland även standard-miljöer och simulatorer för mer öppet lärande algoritmer) för olika uppgifter, tillsammans med standardsätt att mäta hur bra en algoritm lyckas. Lyckas man få bästa poäng på någon väldefinierad syssla, så har man uppnått state-of-the-art, eller SOTA.
Den utmärkta siten Papers with Code har kategoriserat vilka vetenskapliga artiklar som just nu lyckats bäst inom flera tusen olika uppgifter. Dessa artiklar publicerar även sin kod på Github så det går finfint att använda och lära sig av de allra senaste resultaten om man orkar gräva sig igenom och förstå någon forskares ofta odokumenterade kod. Med detta sätt att mäta så har du väldigt många olika vinnare, baserat på vad det är du försöker göra.
För att ta några slumpmässiga exempel, så är Bayesian timeSVD++ flipped just nu bäst på rekommendationssystem, PointLSTM är bäst för att känna igen handgester och Agent57 är bäst på att spela Crazy Climber på Atari 2600. Agent57 är imponerande, eftersom den sedan i somras slår människor på Atari, och har lärt sig spela 57 olika atarispel helt själv. Den slår även den långt mer hypeade MuZero.
H-index och antal citat
I forskningsvärlden så vill man ha så bra h-index som möjligt. Du vill alltså gärna att så många som möjligt ska citera din artikel. Google Scholar indexerar mer eller mindre alla forskningsartiklar och gör det sökbart. De publicerar även listor på vilka journaler som har mest inflytande och vilka artiklar per journal, som har flest citeringar. För AI kan vi se de mest inflytelserika journalerna och konferenserna här. De senaste åren har ICLR (International Conference on Learning Representations) och NeurIPS (Neural Information Processing Systems) varit de två tillfällen då det är mest prestige att publicera.
De mest citerade resultaten handlar nästan uteslutande om neuronnät. ADAM, som är en populär metod för att träna neuronnät från 2015, är just nu mest citerat.
Världens mest citerade AI-forskare är Geoffrey Hinton, som redan på 80-talet populariserade den träningsalgoritm som ligger till grund för hur neuronnät fungerar än i dag. Världens näst mest citerade forskare, men den med högst h-index, är kanadensaren Yoshua Bengio. Dessa två anses tillsammans med Yann LeCun vara uppfinnarna av djupinlärning och refereras ofta till som "The Godfathers of AI".
Företag
Det finns 2-3 företag som lägger mer pengar på AI och har mycket bättre PR-apparat än vanliga dödliga universitet och företag. Därför har de tillgång till mer datorkraft, större datamängder att träna på och en mycket mer välpolerad PR-trumma när de publicerar nya resultat. De som märks allra mest är OpenAI och Deep Mind. Länkarna går till deras bloggar, som alltid är mycket pedagogiska och läsvärda även för icke-experter. Ett hedersomnämnade går även till Facebook som också publicerar bra resultat och har några bra Pythonbibliotek, som vi gärna använder på Tenfifty.
Värt att notera är att Google äger Deep Mind, Google Scholar och Kaggle, medan Facebook äger Papers with Code. De håller på att bilda en svårgenomtränglig hegemoni.
Min dotters läggdags-strategi fungerade förresten inte. Hon somnade gott redan efter några minuter av mitt monologande kring ovanstående.