Krönika: Tillbaks till röstkommunikation

AI Cirkeln sluts – är vi på väg tillbaka till att kommunicera främst med rösten? Det frågar sig Craig Walker, chef över molntjänster hos Alcatel-Lucent Enterprise

Krönika: Tillbaks till röstkommunikation

Den nya vågen av personliga assistenter som Siri, Cortana och Google Assistant, och nya startupföretag som bygger personliga följeslagare med hjälp av AI och analys, visar att vi är på väg att få ett nytt, röststyrt förhållande till tekniken. Som vi redan har sett på konsumentmarknaden kan vi mer eller mindre förutsätta att dessa röstaktiverade system så småningom kommer att ta sig in i företagsmiljön. De potentiella fördelarna med systemen kan vara enorma när det gäller att förenkla och automatisera aktiviteter.  Även om det kan ta lång tid innan vi ser någonting som helt liknar ”HAL” i filmen ”År 2001 – ett rymdäventyr” har vi redan tillgång till teknik som kan förbättra företagens sätt att arbeta.

Klart för tagning

Tänk vad mycket lättare det skulle vara för en läkare att bara säga ”Systemet: Uppdatera Lena Anderssons journal med följande: Patienten har magknip, skicka en apoteksbeställning på 200 mg Lugna Magen, signerat Doktor Må Bra.” Eller om man i ett konferensrum slapp fundera på vilken fjärrkontroll som hör till projektorn respektive skärmen och bara kunde säga ”Systemet: Sätt på projektorn, sätt på TV:n och dämpa ljuset”.

Utmaningarna

Var befinner vi oss då, på vägen mot ”voice-first”? Röstanalysföretaget VoiceLabs har givit sina synpunkter på vilka olika lager som kommer att krävas för att ge stöd till en ”voice-first”-attityd på konsumentområdet. För att vi ska kunna röra oss från de enklare, konsumentbaserade användningsfallen till en mer uttalad ” voice-first”-miljö i företagsvärlden måste vissa saker först ske.

Säkerheten kommer att vara helt central om våra företagssystem ska kunna bygga på röstkommandon. Ska vem som helst kunna styra kritisk utrustning och system bara genom att prata? Svaret är naturligtvis nej. Sekretessen är också en mycket viktig fråga, och även om exemplet med läkaren ovan är tydligt nog måste vi också tänka i termer av regelverk. Kan det innebära brott mot patientsäkerheten – till exempel i form av de amerikanska HIPAA-reglerna – om sådana här röstkommandon avslöjar patientens medicinska information för en tredje part?

Säker åtkomst

Vi har redan börjat se nästa steg i form av röstigenkänningssystem, där tekniken klarar att ge stöd till säker åtkomst.

Ett exempel är bankerna, som har börjat introducera röstautentisering i sina telefonbanksystem. Även om vissa kunder känner sig lite osäkra på hur detta påverkar kontosäkerheten har jag en känsla av att konceptet kommer att följa samma införandecykel som vi har sett inom e-handeln, där vi var tvungna att ta oss förbi den första oron för kreditkortsbedrägerier innan vi såg den enorma ökningen av nätshopping.

Vi kommer att få se fortsatt innovation inom system för röstigenkänning och förbättringar som gör att säkra röstsystem blir möjliga i företagsmiljö, där bara behöriga användare med rätt privilegier kan genomföra de aktuella åtgärderna.

Din mikrovågsugn kanske inte spionerar på dig, men vissa enheter måste vara på hela tiden, alltid lyssna och alltid kunna spela in. Det skulle bara krävas några få omskrivna fall av sekretessbrott, affärsspionage eller juridiska komplikationer för att få införandet att stanna upp. Detta antyder att det är viktigt att ”voice-first”-produkterna har av/på-knappar eller -funktioner så att användaren kan utnyttja fördelarna utan att riskera nackdelarna med ständig övervakning. Säker programvaruåtkomst måste också finnas på plats i produkterna för att förhindra och känna av intrångsförsök.

Ännu effektivare röstigenkänningssystem

De första användningsfallen handlar främst om röstsvarsystem, vare sig det gäller ett callcenter-perspektiv eller de enheter vi använder i bilen eller mobiltelefonen. Men som många av oss vet av egen erfarenhet fungerar detta i bästa fall marginellt. Igenkänningen och kontextualiserande måste förfinas genom teknisk utveckling innan vi realistiskt kan tänka oss ett införande i hela företagskommunikationen.

Genom forskningsprogram som Carnegie-Mellon Universitys Sphinx-projekt blir igenkänningen av det talade språket allt bättre. I en rapport om internet-trender av Mary Meeker uppgavs att år 2016 kunde Googles system för röstigenkänning känna igen över fem miljoner ord med runt 90 procents säkerhet – men det är ändå inte tillräckligt utförligt eller säkert. Räcker 90 procents säkerhet för att samverka med ett livsuppehållande system på ett sjukhus eller med ett elbolags nätverk?

Det handlar dessutom inte bara om att känna igen orden, utan också om att veta vad de ska användas till. Det är här som kognitiva motorer och AI spelar in. Vissa av branschens största aktörer – till exempel Microsoft, med sin motor för kognitiv igenkänning med öppen källkod – kan bidra till förståelsen av ordens sammanhang. ”Hur kommer jag till Green Park?” kan låta enkelt, men inte utan sammanhang. Platsmedvetenhet kan visa att du förmodligen menar Green Park i London och vissa slutsatser om transportmedel kan då dras. Om du sitter vid Piccadilly Circus kan svaret bli ”åk en hållplats västerut med Piccadilly Line”, men då har vi gjort antagandet att det gäller just Green Park i London och inte Green Park i Manchester eller Birmingham.

Jakten på en djupare mening

Den verkliga utmaningen ligger i vad som finns bakom röstigenkänningssystemet – från integrationen av IoT-enheter till systemet som helhet – och i att se till att de kommandon som ges är logiska. Här måste vi dra vidare nytta av de kognitiva motorerna som metoder för kontroll och bekräftelse. Tänk dig att någon av misstag ger kommandot ”stäng av kylsystemet till reaktor 4” i stället för reaktor 3, som redan har stängts av, eller att en läkare använder systemet för att skriva ut en farlig dos läkemedel genom att av misstag säga 400 gram istället för 400 milligram. Det är kanske extrema exempel, men vi måste ha ett helhetsperspektiv på de åtgärder som automatiseras för att förhindra fel på grund av den mänskliga faktorn, och införa en bredare intelligens för att förstå de åtgärder som är kopplade till röststyrda kommandon. Även om ”stäng av kylsystemet till reaktor 4” var rätt måste systemet kunna förstå de driftsmässiga rutiner som används för att genomföra dessa åtgärder.

API-plattform för lösningar med verklig röstintegration?

En intressant komponent som kan kopplas strategiskt till utvecklingen av verkligt röststyrda företagsmiljöer kommer från de innovationer som sker inom den traditionella röstkommunikationen. Vi ser en explosion av CPaaS (Communication Platform as-a-Service) inom företagen, där API:er utnyttjas för att omvandla befintliga applikationer till röstintegrerade lösningar. Vissa av de största leverantörerna av röstkommunikation är på väg in på den marknaden och tillhandahåller CPaaS-infrastrukturer med en standarduppsättning API:er som gör att företagen kan integrera kommunikation i sina affärsprocesser.

Vi ser traditionellt integration ur perspektivet att till exempel införliva röst- och videotjänster i befintliga program. Tänk dig till exempel ett bankprogram där du kan gå över från en webbapplikation till att ha ett röstsamtal med din bankrådgivare. Jag tror att dessa lösningar kommer att spela en stor roll för ”voice-first”-miljön genom att man kan utnyttjar API-infrastrukturen hos CPaaS för att kommunicera med program och föremål.

Förutom kraven på själva infrastrukturen för kommunikation måste de bakomliggande metoderna för hur CPaaS eller andra plattformar kommunicerar med olika enheter standardiseras. Först då kan vi se en snabb utveckling av rösttekniken. Vart och ett av dagens konsumentbaserade system för röststyrning har sitt eget gränssnitt och sina egna API-integrationer vilket, precis som med det historiska slaget om Beta eller VHS för flera årtionden sedan, kan leda till att vissa produkter blir föråldrade. På samma sätt som en konsument inte vill investera i den senaste ”smarta kaffebryggaren” och sedan upptäcka att plattformen den styrdes av inte längre tillverkas vill ett företag försäkra sig om att investeringar i ny teknik inte kommer att vara föråldrade innan de ger avkastning.

Vi har ännu det bästa framför oss

Den goda nyheten är att en rad tekniker som kan minimera potentiell föråldring redan är på väg. Ramverk som ”IoTivitiy” står under utveckling med målet att bygga en standardiserad plattform. Vi ser redan värde, fördelar och snabb utbyggnad av nya röstapplikationer för konsumenter. Inom en snar framtid kommer vi att se några av de enklare användningsfallen förflyttas in i företagen. På längre sikt, medan utvecklingen inom röstigenkänning, röstsäkerhet och förenkling/standardisering av anslutningen av enheter går framåt, kommer vi att se allt fler ”voice-first”-aktiviteter både bland konsumenter och i företagsvärlden som förenklar verksamheten och höjer produktiviteten.

Craig Walker är chef över molntjänster på Alcatel-Lucent Enterprise. 

 

 

Denna artikel var tidigare publicerad på tidningen telekomidag.se

Senaste artiklarna

Hämtar fler artiklar
Till startsidan
Techtidningen

Techtidningen Premium

Nyhetstjänsten för dig som jobbar med professionell kommunikation. Nu med nya nischade nyhetsbrev för ditt intresseområde och utbildnings-tv.