OpenAI julkaisi reaaliaikaiset äänimallit GPT-5-tason päättelyllä

OpenAI on julkaissut kolme uutta reaaliaikaiseen äänenkäsittelyyn tarkoitettua mallia API-alustalleen. Uudet mallit kantavat nimiä GPT-Realtime-2, GPT-Realtime-Translate ja GPT-Realtime-Whisper.

Mallien tarkoituksena on laajentaa tekoälypohjaista puhevuorovaikutusta tavallisista chatbot-keskusteluista huomattavasti pidemmälle. OpenAI painottaa erityisesti reaaliaikaista päättelyä, live-käännöksiä sekä jatkuvaa puheentunnistusta.

Uudet työkalut ovat jo saatavilla Realtime API:ssa ja Playground-ympäristössä, minkä ansiosta kehittäjät voivat integroida ne omiin sovelluksiinsa lähes välittömästi.

GPT-Realtime-2 tuo GPT-5-tason ääniavustajiin

Suurin huomio kohdistuu GPT-Realtime-2-malliin, jota OpenAI kuvailee ensimmäiseksi reaaliaikaiseksi äänimalliksi, jonka päättelykyvyt yltävät GPT-5-luokkaan. Käytännössä tämä tarkoittaa sitä, että AI pystyy käsittelemään huomattavasti monimutkaisempia keskusteluja samalla kun puhe jatkuu luonnollisesti ilman pitkiä viiveitä.

Mallin tärkeimpiä ominaisuuksia ovat:

monimutkaisten pyyntöjen käsittely reaaliajassa
useiden työkalujen käyttö samanaikaisesti
keskeytysten ja puhekatkosten käsittely
pidemmät keskustelumuistit
luonnollisempi äänen rytmitys ja reagointi

OpenAI kertoo myös parantaneensa mallin kykyä ymmärtää erikoissanastoa, kuten lääketieteellisiä termejä, yritysnimiä ja muita vaikeasti tunnistettavia käsitteitä.

Keskusteluista tulee aiempaa luonnollisempia

Yksi merkittävimmistä uudistuksista liittyy siihen, miten malli reagoi kesken keskustelun. Aiemmat puheavustajat toimivat usein vuoropohjaisesti: käyttäjä puhui, järjestelmä odotti ja vastasi vasta sen jälkeen.

GPT-Realtime-2 pyrkii rikkomaan tätä mallia. Se voi esimerkiksi sanoa kesken keskustelun asioita kuten:

”Tarkistan kalenteriasi juuri nyt”
”Selvitän asiaa”
”Hetki, etsin tiedon”

Tällaiset välivastaukset tekevät keskustelusta huomattavasti luonnollisemman tuntuisen.

OpenAI on myös lisännyt mahdollisuuden säätää mallin päättelyn määrää eri tilanteisiin. Kehittäjät voivat valita esimerkiksi matalan, keskitasoisen tai erittäin korkean päättelytason riippuen siitä, kuinka monimutkaisia tehtäviä sovellus käsittelee.

Konteksti-ikkuna kasvoi valtavasti

Yksi teknisesti suurimmista muutoksista on mallin konteksti-ikkunan laajeneminen. Aiemmassa GPT-Realtime-1.5-versiossa käytössä oli 32 000 tokenin muistiraja, mutta uudessa mallissa määrä kasvaa jopa 128 000 tokeniin.

Tämä mahdollistaa paljon pidemmät keskustelut ilman, että tekoäly unohtaa aiempia asioita. Käytännössä tämä voi parantaa esimerkiksi:

pitkien asiakaspalvelukeskustelujen laatua
kokousavustajien toimintaa
monimutkaisia työprosesseja
reaaliaikaisia koulutussovelluksia
ääniagentteja, jotka käyttävät useita palveluita yhtä aikaa

Pitkä muisti on ollut yksi tärkeimmistä haasteista puhepohjaisissa tekoälyjärjestelmissä.

GPT-Realtime-Translate tähtää reaaliaikaiseen kääntämiseen

Toinen julkaistu malli, GPT-Realtime-Translate, keskittyy live-käännöksiin. OpenAI kertoo mallin tukevan yli 70 syötekieltä ja 13 ulostulokieltä. Tekoäly pystyy kääntämään puhetta lähes samaa tahtia kuin käyttäjä puhuu.

Tämä avaa uusia mahdollisuuksia esimerkiksi:

kansainväliseen asiakaspalveluun
verkkokoulutuksiin
livestriimeihin
globaaleihin videopalveluihin
monikielisiin kokouksiin

Deutsche Telekom testaa teknologiaa monikielisessä asiakaspalvelussa, kun taas Vimeo kokeilee järjestelmää koulutusvideoiden reaaliaikaisessa kääntämisessä.

Jos teknologia toimii käytännössä yhtä hyvin kuin OpenAI väittää, reaaliaikainen kielimuuri voi madaltua merkittävästi lähivuosina.

GPT-Realtime-Whisper keskittyy jatkuvaan puheentunnistukseen

Kolmas julkaistu malli on GPT-Realtime-Whisper, joka on suunniteltu erittäin matalan viiveen puheentunnistukseen. Mallin tehtävänä on muuntaa puhuttu kieli tekstiksi lähes reaaliajassa samalla kun keskustelu etenee.

Tätä voidaan hyödyntää esimerkiksi:

live-tekstityksissä
kokousmuistioissa
puheavustajissa
asiakaspalvelupuheluissa
terveydenhuollon kirjauksissa
myyntikeskustelujen analysoinnissa

OpenAI painottaa erityisesti sitä, että järjestelmä pystyy seuraamaan keskustelua jatkuvasti eikä vasta puheenvuoron päätyttyä.

Äänitekoälystä on tulossa seuraava suuri kilpailualue

Viimeisen vuoden aikana tekoäly-yhtiöt ovat alkaneet panostaa yhä enemmän ääneen perustuviin käyttöliittymiin. Perinteiset tekstichatbotit ovat vähitellen muuttumassa jatkuvasti kuunteleviksi ja puhuviksi tekoälyavustajiksi, jotka kykenevät hoitamaan tehtäviä reaaliaikaisesti.

Myös Google, Microsoft, Meta ja Anthropic kehittävät parhaillaan omia puhepohjaisia tekoälyjärjestelmiään.

OpenAI näyttää kuitenkin pyrkivän siihen, että ChatGPT:n ympärille rakennetaan kokonainen reaaliaikaisten ääniagenttien ekosysteemi.

Hinnoittelu voi ratkaista kehittäjien kiinnostuksen

OpenAI julkaisi samalla myös uusien mallien hinnaston.

GPT-Realtime-2 maksaa:

32 dollaria miljoonalta äänisyötetokenilta
64 dollaria miljoonalta äänivastaustokenilta
0,40 dollaria välimuistitetuilta syötetokeneilta

GPT-Realtime-Translate maksaa 0,034 dollaria minuutilta, kun taas GPT-Realtime-Whisperin hinta on 0,017 dollaria minuutilta.

Hinnoittelu on tärkeässä roolissa erityisesti yrityksille, jotka rakentavat suuria reaaliaikaisia palveluita miljoonille käyttäjille.

Mitä tehokkaammiksi ääneen perustuvat tekoälypalvelut muuttuvat, sitä enemmän niiden käyttö voi kasvattaa myös palvelinkustannuksia.

OpenAI korostaa turvallisuutta ja läpinäkyvyyttä

OpenAI kertoo lisänneensä Realtime API:in aktiivisia turvallisuusluokittelijoita, jotka voivat keskeyttää keskustelut, jos ne rikkovat yhtiön sisältösääntöjä.

Lisäksi kehittäjät voivat rakentaa omia lisäturvaratkaisujaan Agents SDK:n avulla.

Yhtiö painottaa myös EU:n tietosuoja-asetusten huomioimista. Realtime API tukee EU Data Residency -ominaisuutta eurooppalaisille sovelluksille, mikä voi olla tärkeää erityisesti yrityskäytössä.

OpenAI muistuttaa lisäksi käyttöehdoissaan, että käyttäjille täytyy kertoa heidän keskustelevan tekoälyn kanssa, ellei tilanne tee sitä jo täysin selväksi.

Ääni voi olla tekoälyn seuraava suuri murros

Monien asiantuntijoiden mukaan puhepohjaiset tekoälyjärjestelmät voivat olla seuraava suuri askel tekoälyn arkipäiväistymisessä.

Kun tekoäly pystyy kuuntelemaan, puhumaan, muistamaan keskustelun ja käyttämään työkaluja reaaliaikaisesti, käyttäjäkokemus alkaa muistuttaa yhä enemmän oikeaa keskustelua ihmisen kanssa.

OpenAI:n uudet mallit näyttävät olevan yksi selkeimmistä merkeistä siitä, että kilpailu tekoälyavustajien tulevaisuudesta siirtyy nyt voimakkaasti juuri äänen ympärille.