Vad är AI?

För att förklara vad AI är behöver man skilja på det som kallas mänsklig eller naturlig intelligens, som involverar medvetenhet och känslor, och den intelligens som maskiner kan åstadkomma genom att uppfatta sin miljö och vidta åtgärder för att uppnå sina mål, dvs artificiell intelligens.

Vi på Tenfifty ett ser på artificiell intelligens som ett samlingsbegrepp för följande akademiska områden som alla uppvisar någon form av intelligens. Det är dessa områden vi kommer att behandla både övergipande och lite mer på djupet här.

Maskininlärning

Maskininlärning är ett område inom artificiell intelligens där modeller tränas baserat på historiska data. Maskininlärning används för att träna modeller inom vitt skilda områden. Dagens populära neuronnätsmodeller som rönt stora framgångar inom bild-, ljud- och textanalys har alla tränats med maskininlärning.

Fördelar med maskininlärning är bland annat att det är ett snabbt och enkelt sätt att få tillgång till avancerade modeller. Det finns många vältestade algoritmer tillgängliga idag för en mängd olika typer av problem.

En nackdel med många maskininlärningsalgoritmer är att modellerna blir svarta lådor som kan ge väldigt bra resultat men som är hart när omöjliga att förstå hur de fungerar.

Maskininlärningsalgoritmer är också känsliga för skev, eller på annat sätt missvisande, data. Om träningsdatan inte är representativ för det problem man vill lösa så kommer modellen inte bli bra.

Maskininlärning passar för problem med ganska mycket tillgänglig träningsdata som också täcker utfallsrummet väl.

Lär dig vilka frågor du ska ställa till dig maskininlärningsmodell

Planering

I många fall är den värdeskapande processen hos ett företag lång, komplex och beroende på många parametrar. Att planera och optimera ledtider, beställningspunkter, lager och logistik är en ständigt pågående utmaning för alla företag.

Rätt använd kan maskininlärning och AI ta din planering till nästa nivå. Genom att använda prediktiva modeller för hur en handling påverkar ett utfall, så kan man simulera kedjor av handlingar och beslut och se vad som ger bäst utfall på en högre nivå. Tillsammans med planerande modeller kan man få ett mer strategiskt perspektiv på sina ML-modeller.

AI-baserad planering används ofta för att balansera risk mot intäkter och utgifter eller för att tidigt undvika flaskhalsar i komplexa processer. Nästan alla företag kan utveckla sin planering ytterligare och på så sätt ge stöd i prioriteringar och beslut för produktionen. Ingen produktionsprocess är dock helt stabil. Beroende på inre och yttre faktorer varierar resultatet och kvaliteten. Det är en ständig strävan att göra dessa variationer så små som möjligt men framförallt att bättre kunna förutse när de kommer och när de faller utanför tolerans.

Talsyntes

Traditionellt interagerar vi med våra datorer och mobiler genom att peka, klicka och trycka på tangenter. Sedan läser vi text och ser på bilder för att ta del av information. För oss människor är det dock mycket mer naturligt och ofta mer praktiskt att interagera via tal och hörsel. Till exempel hjälper det dig att hålla ögonen på vägen om din GPS läser upp instruktioner som “ta nästa vänster”, i stället för att du behöver snegla på skärmen.

I fallet med GPS:en finns det vanligen bara en fast lista med ett antal saker som din GPS kan tala om för dig. Det är lätt löst genom att en skådespelare läser in alla dessa olika meddelanden i förväg, så kan GPS:en sedan spela upp rätt meddelande vid rätt tillfälle.

Om vi istället tänker oss en digital assistent på mobilen, som många börjat använda de senaste åren, är situationen en annan. Assistenten kan behöva läsa upp vilket svar som helst som svar på en fråga. Det är omöjligt att låta en skådespelare läsa in alla dessa svar i förväg. Vi behöver därför ett sätt för en dator att läsa upp alla texter, så att det låter naturligt i våra öron.

Det har visat sig vara ett svårt problem att lösa. Bokstäver och ord uttalas annorlunda beroende på vad som står runtomkring dem. Därför låter en syntetiskt datorröst lite stolpig – det är svårt att lägga in de variationer av uttalet som en människa gör naturligt.

De senaste åren har stora framsteg gjorts med djupinlärning. Det är mestadels enkelt att höra vad din digitala assistent säger. Nu kan vi till och med få datorer att låta precis som en specifik person, till exempel en skådespelare eller politiker. Det är dock en del kvar att göra inom området – det är nog få personer som skulle tycka att det vore njutbart att lyssna på en hel roman uppläst av en datorröst.

Talförståelse

Talförståelse är motsatsen till talsyntes – här handlar det om att datorn ska förstå vad en människa säger. Det kan användas för att du ska kunna prata med din digitala assistent, för att automatiskt texta ett videoklipp, eller göra om ljudet i en podd till text som därmed blir sökbar.

Detta är ett mycket svårt problem att lösa. Det finns så många olika sätt som ett och samma ord kan låta på. Dialekter, bakgrundsbrus och olika röstlägen är bara några saker som ställer till det för datorerna.

På senare tid har ett genombrott gjorts med hjälp av djupinlärning, bland annat i och med introduktionen av transformermodeller. Ett vanligt förekommande sätt att lösa det är att dela upp problemet i två delar. Först försöker en akustisk komponent dela upp pratet i sina minsta beståndsdelar, så kallade fonem. Sedan tar en lingvistisk modell över och försöker foga samman dessa små delar till en rimlig följd av ord. Detta kan vara svårt även för oss människor, som brukar behöva ta hjälp av ett stort antal ledtrådar, som i vilken kontext orden förekommer. Ibland sprids det ljudklipp på nätet där olika människor tolkar orden som hörs på helt olika sätt, just för att vi inte har någon kontext att tillgå. Minns du Yanny och Laurel?

Språkförståelse

Säg att vi vill utveckla en digital assistent som kan svara på dina frågor. Talsyntes får assistenten att kunna läsa upp sitt svar och talförståelse gör så att assistenten kan omvandla ditt tal till en mer (för datorer) lättförståelig textform. Sedan återstår dock ett stort problem – vad betyder just denna sekvens av ord egentligen?

För en människa är det uppenbart att meningarna Vad blir det för väder i dag?, Ska det bli regn? och Kommer jag att behöva ett paraply? är varianter av samma fråga. Men för en dator finns det ingenting uppenbart i det. Meningarna har ju knappt några gemensamma ord!

Språkförståelse handlar i grund och botten om att få en dator att förstå vad mänskligt, naturligt språk betyder. Även inom detta område har utvecklingen gått fort framåt de senaste åren, tack vare djupinlärning och nya sätt att modellera mänskligt språk på.

Något som gör språkförståelse oerhört komplext är dock att för att verkligen förstå innebörden av en mening, behövs en bra förståelse av hur världen fungerar också. För att kunna besvara frågan om du kommer att behöva ett paraply måste ju datorn förstå att det gör du bara när det regnar!