Talsyntes
Traditionellt interagerar vi med våra datorer och mobiler genom att peka, klicka och trycka på tangenter. Sedan läser vi text och ser på bilder för att ta del av information. För oss människor är det dock mycket mer naturligt och ofta mer praktiskt att interagera via tal och hörsel. Till exempel hjälper det dig att hålla ögonen på vägen om din GPS läser upp instruktioner som “ta nästa vänster”, i stället för att du behöver snegla på skärmen.
I fallet med GPS:en finns det vanligen bara en fast lista med ett antal saker som din GPS kan tala om för dig. Det är lätt löst genom att en skådespelare läser in alla dessa olika meddelanden i förväg, så kan GPS:en sedan spela upp rätt meddelande vid rätt tillfälle.
Om vi istället tänker oss en digital assistent på mobilen, som många börjat använda de senaste åren, är situationen en annan. Assistenten kan behöva läsa upp vilket svar som helst som svar på en fråga. Det är omöjligt att låta en skådespelare läsa in alla dessa svar i förväg. Vi behöver därför ett sätt för en dator att läsa upp alla texter, så att det låter naturligt i våra öron.
Det har visat sig vara ett svårt problem att lösa. Bokstäver och ord uttalas annorlunda beroende på vad som står runtomkring dem. Därför låter en syntetiskt datorröst lite stolpig – det är svårt att lägga in de variationer av uttalet som en människa gör naturligt.
De senaste åren har stora framsteg gjorts med djupinlärning. Det är mestadels enkelt att höra vad din digitala assistent säger. Nu kan vi till och med få datorer att låta precis som en specifik person, till exempel en skådespelare eller politiker. Det är dock en del kvar att göra inom området – det är nog få personer som skulle tycka att det vore njutbart att lyssna på en hel roman uppläst av en datorröst.