Vad har hänt?

Det har väl inte gått någon förbi att i år har varit de stora språkmodellernas år. Givet att OpenAI hittills har varit så dominanta med ChatGPT så är det värt att ställa sig frågan hur långt före de ligger i början på det nya året 2024. Utvärderingen av språkmodeller är komplex, med flera etablerade benchmarks som används av utvecklarna. Benchmarks leder till dock till två huvudproblem: för det första risken för att modellerna anpassas, medvetet eller omedvetet, för att prestera väl på dessa specifika benchmarks. För det andra finns det en risk för datakontaminering, där testfrågorna oavsiktligt kan bli en del av träningsdata, vilket leder till att modellerna i viss mån “får se provet i förväg”.

Det är viktigt att komma ihåg att språkmodeller kan göra fler saker än att vara chattbottar, men eftersom chatt är det mest populära exemplet just nu så är det där vi kommer fokusera. Ett svårslaget test för just chattbottar är att låta två olika modeller anonymt generera svar på en användarfråga och låta användaren välja vilken de gillade bäst. Detta blir matcher mellan modellerna som sedan kan få en Elo-rating baserad på sin prestation med en metod lånad från schackets värld. Chatbot Arena gör en sådan tävling som uppdateras med både kommersiella och öppet tillgängliga modeller. Senaste uppdateringen från 20 december 2023 visar följande topplista:

Olika versioner av GPT-4 dominerar som synes tävlingen. I Elo-rating-systemet innebär en skillnad på 100 poäng att den högre rankade förväntas vinna två av tre matcher och förlora en. En viktig aspekt som inte framgår i dessa matcher är den beräkningskraft som krävs för att generera varje bokstav. GPT-4, som är en enorm modell, är både långsam och dyr att använda. Mindre modeller kan däremot svara snabbare och mer kostnadseffektivt, och möjliggör avancerade tekniker som till exempel “tankekedjan” (Chain-of-Thought), där modellen stegvis planerar och resonerar. Kostnaden för OpenAI att köra GPT-4 har lett till spekulationer om att de under året gjorde modellen dummare för att få ned driftkostnaden. Detta underbyggs delvis av att marsversionen 0314 rankar högre än juniversionen 0613. Turbo är dock den nyaste versionen från november och högst rankad. Just Turbo har dock en fördel som de tidigare inte har haft – den är tränad på data fram till april 2023, snarare än 2021 som de tidigare modellerna. Den kan alltså potentiellt vara “dummare”, men ändå ranka högre för att den har tillgång till mer aktuell information.

Andra än OpenAI

Efter GPT-4 på listan hittar vi Anthropics chattbott, Claude. Den är gjord för företagstillämpningar som till exempel kundtjänst och har en lite tråkigare personlighet än ChatGPT, vilket också gör den lite tryggare för ett företag. Den vägrar helt enkelt att svara på en del grejer. Tyvärr är den betydligt sämre på svenska än engelska. För svenska tillämpningar är det alltså viktigt att komma ihåg att tävlingen ovan endast utvärderar på engelska.

På imponerande 1121, strax över den senaste versionen av Claude och GPT-3.5 Turbo, finner vi open source-modellen Mixtral, en uppstickare från det franska AI-bolaget Mistral. Den är både bäst bland de öppna modellerna och mindre än de slutna modellerna. Jämfört med den kanske mest kända öppna modellen Llama 2, så är den både bättre och ca 6 ggr snabbare. Mistral har dessutom sedan några veckor sedan en sluten modell som man likt t.ex ChatGPT kan använda via API. Denna modell har det fantasifulla namnet “Medium” och de hävdar själva att den når GPT-4-kvalitet på benchmarks men till en tiondel av kostnaden. Den har tyvärr inte hunnit komma med i Elo-ratingen än.

Så var är Google?

Google uppfann 2017 transformer-arkitekturen som är den neuronnätstyp som används i dag av alla de stora aktörerna. De har dessutom tillgång till de största datacentren och nästan obegränsat med data, resurser och talang. Frågan som ställts under hela 2023 har därför varit – var är de? De har varit ytterst försiktiga med att släppa nya modeller och mer rädda än OpenAI för att modellerna ska bete sig på ett sätt som skadar deras varumärke. De kanske gjorde ett dåligt val när de köpte upp DeepMind och slog ihop med sin egen Google Research-avdelning. Dels så har det fungerat sisådär att få dem att samarbeta och dels så har Microsoft sannolikt agerat smartare med att helt enkelt ha en stor investering i OpenAI, så att deras varumärke blir mindre befläckat om OpenAI hamnar i hetluften.

Hursomhelst så finns nu Google Gemini Pro som erbjuder prestanda i paritet med GPT-3.5 till endast en fjärdedel av kostnaden. De hävdar att storebror Gemini Ultra är lite bättre än GPT-4, men bestämde sig för att skjuta på lanseringen av denna till i början på 2024. Gemini-familjen av modeller är ännu inte tillgängliga i EU av något slags GDPR-skäl, men på Tenfifty har vi testat Gemini Pro via API och den håller precis som ChatGPT en god svensk kvalitet.

Språka på svenska

Bland open source-modellerna (som dock inte alla är tillgängliga för kommersiellt bruk!) så gjorde vi i somras i ett projekt mer utförliga tester och fann då att deras svenska var betydligt sämre än deras engelska. Jag gjorde nyligen informella tester och fann då tyvärr att inte heller Mixtral håller måttet, vilket är särskilt beklagligt då det är en europeisk modell. För svenska användare skulle jag i stället rekommendera den kinesiska modellen Yi från 01.ai, som inte bara imponerar med sitt språkkunnande utan också klarar sig väl på engelska topplistan trots att den bara har 34 miljarder parametrar. En titt på traditionella benchmarks avslöjar att en finjusterad variant av Yi, Bagel, i skrivande stund leder framför de större 70-miljarder-modellerna.

I Sverige har också 40-miljarders-modellen GPT-SW3 kommit. Den är tränad på engelska, svenska, danska, norska och isländska. Det finns tyvärr inga vedertagna benchmarks för svenska språkmodeller så i sin forskningsartikel från i maj 2023 förlitar sig författarna på maskinöversatta varianter av testerna ovan. Det är svårt att avgöra hur väl detta speglar hur bra den är i praktiken, men i dessa tester så når de nästan samma prestanda som 175-miljarders-modellen GPT-3 davinci. De anger dock inte om det är davinci 001, 002 eller 003 i testerna, vilket är synd eftersom prestandan på dessa skiljer sig märkbart.

Vad kommer att hända?

I våras skrev jag i Breakit om att agenterna är nästa steg för språkmodellerna. Det handlar om att ge språkmodellerna möjlighet att agera – att ge en komplex uppgift och få den utförd. För att lösa det behövs bland annat möjlighet att planera framtiden och en koppling till digitala verktyg, till exempel en webbläsare, för att utföra handlingar. Under hösten har detta bekräftats då OpenAI lanserade sitt Assistant-API och Bill Gates fick rubriker genom att skriva att i framtiden kommer vi alla ha AI-drivna assistenter. Assistenter är alltså ett av flera användningsområden för agenter. Det är rimligt att tro att denna trend kommer få ännu mer fokus under 2024. Språkmodeller som blir ytterligare lite bättre på att chatta kommer inte leda till särskilt mycket press jämfört med den som lanserar den första assistenten som kan få uppdraget att förhandla dina låneräntor och elavtal eller förbereda och boka företagets nästa konferensresa.

Precis som för språkmodeller och chatt så finns det benchmarks för språkmodellsdrivna agenter. Dessa är dock fortfarande omogna och olika benchmarks ger väldigt olika resultat. Generellt har dock GPT-4 ett ännu större övertag just för att driva agenter än den har som generell språkmodell. Mixtral är till exempel lite av en besvikelse som agent. Detta är synd, eftersom GPT-4 är dyr per tecken och agentuppgifter kan bli ganska pratiga, när det ska planeras, läsas resultat från websökningar och funderas i flera omgångar. Det blir därför intressant att se om nästa generations modeller som verkar vara i kapp GPT-4 rent språkligt även klarar att matcha den som agent.

Nästa generations grundteknik

Transformerarkitekturen har funnits sedan december 2017 och visat sig extremt framgångsrik för stora modeller tränade på ohemula mängder data. Den har dock ett välkänt problem att den skalar dåligt för lång kontext, alltså när det krävs för mycket bakgrundsinformation för en uppgift. Sedan 2020 har det kommit en mängd potentiella ersättare: till exempel Longformer, Performer, Swin och LongNet. I år har vi sett en hel del hype för Microsofts Retentive Networks (RetNet) och nu senast i december Mamba som inte fungerar alls som transformers. Kanske blir RetNet eller Mamba det som exploderar under 2024, men det kommer hursomhelst fortsätta att komma nya utmanare och förr eller senare kommer transformers bli ersatta.

Företagen

OpenAI har skaffat sig ett försprång på LLM-marknaden med varumärket ChatGPT som kommer vara svårt att nå i kapp under 2024 även om andra företag skulle nå dem tekniskt. Det kommer dock vara spännande att se var nystartade Mistral tar vägen, hur Gemini Ultra faktiskt står sig när den möter verkligheten och om 01.ai klarar att göra ännu mer kompetenta lite mindre modeller.

Lite mindre modeller som passar mindre RAM-minne har också varit Apples fokus. Precis innan nyår släppte de Ferret, en modell med 13 miljarder parametrar, som är precis lagom stor för att passa att köra lokalt på deras egen hårdvara om de använder en teknik som de själva uppfunnit för att få modellerna körbara med så lite minnesförbrukning som möjligt.

Utöver dessa är marknaden förstås full av andra. X (tidigare Twitter) har en egen chattmodell som heter Grok, Amazon ryktas ta fram enorma modeller, Anthropic som har varit med relativt länge i branschen med sin Claude kommer naturligtvis fortsätta att utvecklas, etc. Kommer Deep Mind någonsin släppa sin Sparrow, eller har den tekniken bakats in i Googles Gemini?

Men LLM-rejset där alla tävlar i samma riktning är egentligen inte så intressant i sig. Vad jag egentligen hoppas se är att något av bolagen specialiserar sig på något mer. Till exempel någon av alla de tekniska utmaningar som finns kvar att lösas kring till exempel hallucinationer, bättre långtidsminne än så kallad RAG, planerande och resonerande, direktkopplingar till att styra datorprogram och operativsystem, kontinuerligt lärande och självförbättrande (i bland kallat Capability Acquisition).

Robotar

Mer spännande än digitala robotar är kanske de fysiska robotar som nu konstrueras. Där har vi under året sett nya teknikdemonstrationer från branschens nestor Boston Dynamics med humanoiden Atlas, men även Optimus från uppstickarna Tesla, Figure Robotics humanoid Figure 01 och Agility Robotics roliga strutsrobot, som testas i Amazons lager. Med så många utmaningar kvar innan vi kan släppa lös självständiga robotar i en digital värld så är det inte rimligt att förvänta sig några generellt användbara humanoida robotar under 2024, ens på forskningsstadiet. De kommer kunna testas och kanske till och med vara ekonomiskt försvarbara under kontrollerade former i fabriker och lager, men det ser ut som att det är flera år kvar innan någon mekaniserad hemhjälp dyker upp.

Politik och lagar

Något som däremot kommer dyka upp ännu mer under 2024 är politik och lagstiftning kring AI. Det juridiska läget kring vilken data en modell får lov att tränas på är fortfarande inte avklarat. Vi har sett stora stämningar dras i gång bland annat mot Microsoftägda Githubs programmeringsassistent Copilot, Getty Images mot Stability AIs bildmodell och för bara två veckor sedan New York Times stämning kring text av OpenAI och Microsoft. Dispyten här ligger både kring vilken data en modell får lov att tränas på och vem som är ansvarig om den genererar något som bryter upphovsrätt. Om det döms till förmån för upphovsrättsinnehavarna så är min uppfattning att det inte kommer påverka teknikriktningen för jättarna särskilt mycket. Google och Microsoft kan lätt ingå avtal med förlag och andra innehållsägare. De bolag som äger social media har också tillgång till enorma mängder “egen” data. De som framförallt påverkas då kommer vara forskning, open source och mindre bolag. Det blir en högre inträdesbarriär som vore olycklig i praktiken.

På Tenfifty är vi inte jurister, så vad som kommer hända med de juridiska processerna vågar jag inte uttala mig kring. Det står dock klart att när AI blir en större del av vårt samhälle och vår ekonomi så ökar också det politiska intresset. EUs nya AI-lagar AI Act kommer förmodligen röstas genom 2024, men exakt vad man kommer rösta på har blivit föremål för debatt. När Frankrike fick sitt LLM-bolag Mistral så blev det till exempel plötsligt väldigt viktigt för dem att basmodeller och generativ AI skulle få vissa undantag i AI Act. Meta och Stability har lobbyerat kraftigt för att open source-modeller också ska få vissa undantag från de potentiellt strikta AI Act-reglerna. Utfallet av juridiken och potentiella förtydliganden eller nya lagstiftningar kommer rimligen påverkas av politisk vilja.

Avslutande tankar

Det vore konstigt att inte fokusera på generativ AI, givet det transformativa år som gått, men traditionell AI har fortfarande 90% av marknaden. Även om vi jobbar en hel del med text och bild, så handlar majoriteten av de uppdrag vi tar oss an fortfarande om att hitta mönster i numerisk data och det finns fortfarande mycket att vinna på att hitta processer att optimera.

Trots att de strukturerade talens AI-värld är betydligt mognare än generativ AI så händer det ändå grejer där också. Boostade beslutsträd slår fortfarande neuronnäten på fingrarna på sådan data och under hösten släppte kungen på marknaden, XGBoost, version 2.0 med många intressanta nyheter. Ännu bättre blir det man om man kombinerar flera modeller och det är sådant som AutoGluon är experter på. Där släpptes version 1.0 i december och de imponerar både i sina egna tester och i oberoende mätningar.

Ett av framstegen som ledde till AutoGluon 1.0 var så kallad hyperparameteroptimering, alltså att optimera parametrar för en process som tar lång tid att utvärdera. Företag har fullt med sådana processer och kunde med fördel oftare använt de avancerade bayesiska metoder som finns för att optimera dessa parametrar. Även detta fält såg framsteg under 2023, här till exempel i en sammanslagning med neuronnät för att få det bästa från båda världar.

Ett annat vanligt användningsområde i praktiken är att göra prognoser av tidsserier, till exempel försäljning eller beläggning. Det senaste här är att omvandla tidsserierna till bilder och att göra analysen som ett 2D-problem. Metoden som är bäst på det mesta lanserades för ett knappt år sedan och heter TimesNet.

Mer “traditionell” bildanalys än den generativa sorten såg också många förbättringar, många av dem från Meta. Under våren släppte de både segment anything som självständigt delar upp en bild i objekt och DINOv2 som tar ut egenskaper från en bild och omvandlar dem till tal för vidare analys, till exempel klassificering.

Det är mycket nu..

Author

David Fendrich
CTO
David Fendrich is our Chief Technical Officer and one of the founders of Tenfifty. He has been working with AI and data science for almost two decades, helping companies put cutting edge solutions into practical use.