OpenAI on julkaissut kolme uutta reaaliaikaiseen äänenkäsittelyyn tarkoitettua mallia API-alustalleen. Uudet mallit kantavat nimiä GPT-Realtime-2, GPT-Realtime-Translate ja GPT-Realtime-Whisper.
Mallien tarkoituksena on laajentaa tekoälypohjaista puhevuorovaikutusta tavallisista chatbot-keskusteluista huomattavasti pidemmälle. OpenAI painottaa erityisesti reaaliaikaista päättelyä, live-käännöksiä sekä jatkuvaa puheentunnistusta.
Uudet työkalut ovat jo saatavilla Realtime API:ssa ja Playground-ympäristössä, minkä ansiosta kehittäjät voivat integroida ne omiin sovelluksiinsa lähes välittömästi.
GPT-Realtime-2 tuo GPT-5-tason ääniavustajiin
Suurin huomio kohdistuu GPT-Realtime-2-malliin, jota OpenAI kuvailee ensimmäiseksi reaaliaikaiseksi äänimalliksi, jonka päättelykyvyt yltävät GPT-5-luokkaan. Käytännössä tämä tarkoittaa sitä, että AI pystyy käsittelemään huomattavasti monimutkaisempia keskusteluja samalla kun puhe jatkuu luonnollisesti ilman pitkiä viiveitä.
Mallin tärkeimpiä ominaisuuksia ovat:
- monimutkaisten pyyntöjen käsittely reaaliajassa
- useiden työkalujen käyttö samanaikaisesti
- keskeytysten ja puhekatkosten käsittely
- pidemmät keskustelumuistit
- luonnollisempi äänen rytmitys ja reagointi
OpenAI kertoo myös parantaneensa mallin kykyä ymmärtää erikoissanastoa, kuten lääketieteellisiä termejä, yritysnimiä ja muita vaikeasti tunnistettavia käsitteitä.
Keskusteluista tulee aiempaa luonnollisempia
Yksi merkittävimmistä uudistuksista liittyy siihen, miten malli reagoi kesken keskustelun. Aiemmat puheavustajat toimivat usein vuoropohjaisesti: käyttäjä puhui, järjestelmä odotti ja vastasi vasta sen jälkeen.
GPT-Realtime-2 pyrkii rikkomaan tätä mallia. Se voi esimerkiksi sanoa kesken keskustelun asioita kuten:
- ”Tarkistan kalenteriasi juuri nyt”
- ”Selvitän asiaa”
- ”Hetki, etsin tiedon”
Tällaiset välivastaukset tekevät keskustelusta huomattavasti luonnollisemman tuntuisen.
OpenAI on myös lisännyt mahdollisuuden säätää mallin päättelyn määrää eri tilanteisiin. Kehittäjät voivat valita esimerkiksi matalan, keskitasoisen tai erittäin korkean päättelytason riippuen siitä, kuinka monimutkaisia tehtäviä sovellus käsittelee.
Konteksti-ikkuna kasvoi valtavasti
Yksi teknisesti suurimmista muutoksista on mallin konteksti-ikkunan laajeneminen. Aiemmassa GPT-Realtime-1.5-versiossa käytössä oli 32 000 tokenin muistiraja, mutta uudessa mallissa määrä kasvaa jopa 128 000 tokeniin.
Tämä mahdollistaa paljon pidemmät keskustelut ilman, että tekoäly unohtaa aiempia asioita. Käytännössä tämä voi parantaa esimerkiksi:
- pitkien asiakaspalvelukeskustelujen laatua
- kokousavustajien toimintaa
- monimutkaisia työprosesseja
- reaaliaikaisia koulutussovelluksia
- ääniagentteja, jotka käyttävät useita palveluita yhtä aikaa
Pitkä muisti on ollut yksi tärkeimmistä haasteista puhepohjaisissa tekoälyjärjestelmissä.
GPT-Realtime-Translate tähtää reaaliaikaiseen kääntämiseen
Toinen julkaistu malli, GPT-Realtime-Translate, keskittyy live-käännöksiin. OpenAI kertoo mallin tukevan yli 70 syötekieltä ja 13 ulostulokieltä. Tekoäly pystyy kääntämään puhetta lähes samaa tahtia kuin käyttäjä puhuu.
Tämä avaa uusia mahdollisuuksia esimerkiksi:
- kansainväliseen asiakaspalveluun
- verkkokoulutuksiin
- livestriimeihin
- globaaleihin videopalveluihin
- monikielisiin kokouksiin
Deutsche Telekom testaa teknologiaa monikielisessä asiakaspalvelussa, kun taas Vimeo kokeilee järjestelmää koulutusvideoiden reaaliaikaisessa kääntämisessä.
Jos teknologia toimii käytännössä yhtä hyvin kuin OpenAI väittää, reaaliaikainen kielimuuri voi madaltua merkittävästi lähivuosina.
GPT-Realtime-Whisper keskittyy jatkuvaan puheentunnistukseen
Kolmas julkaistu malli on GPT-Realtime-Whisper, joka on suunniteltu erittäin matalan viiveen puheentunnistukseen. Mallin tehtävänä on muuntaa puhuttu kieli tekstiksi lähes reaaliajassa samalla kun keskustelu etenee.
Tätä voidaan hyödyntää esimerkiksi:
- live-tekstityksissä
- kokousmuistioissa
- puheavustajissa
- asiakaspalvelupuheluissa
- terveydenhuollon kirjauksissa
- myyntikeskustelujen analysoinnissa
OpenAI painottaa erityisesti sitä, että järjestelmä pystyy seuraamaan keskustelua jatkuvasti eikä vasta puheenvuoron päätyttyä.
Äänitekoälystä on tulossa seuraava suuri kilpailualue
Viimeisen vuoden aikana tekoäly-yhtiöt ovat alkaneet panostaa yhä enemmän ääneen perustuviin käyttöliittymiin. Perinteiset tekstichatbotit ovat vähitellen muuttumassa jatkuvasti kuunteleviksi ja puhuviksi tekoälyavustajiksi, jotka kykenevät hoitamaan tehtäviä reaaliaikaisesti.
Myös Google, Microsoft, Meta ja Anthropic kehittävät parhaillaan omia puhepohjaisia tekoälyjärjestelmiään.
OpenAI näyttää kuitenkin pyrkivän siihen, että ChatGPT:n ympärille rakennetaan kokonainen reaaliaikaisten ääniagenttien ekosysteemi.
Hinnoittelu voi ratkaista kehittäjien kiinnostuksen
OpenAI julkaisi samalla myös uusien mallien hinnaston.
GPT-Realtime-2 maksaa:
- 32 dollaria miljoonalta äänisyötetokenilta
- 64 dollaria miljoonalta äänivastaustokenilta
- 0,40 dollaria välimuistitetuilta syötetokeneilta
GPT-Realtime-Translate maksaa 0,034 dollaria minuutilta, kun taas GPT-Realtime-Whisperin hinta on 0,017 dollaria minuutilta.
Hinnoittelu on tärkeässä roolissa erityisesti yrityksille, jotka rakentavat suuria reaaliaikaisia palveluita miljoonille käyttäjille.
Mitä tehokkaammiksi ääneen perustuvat tekoälypalvelut muuttuvat, sitä enemmän niiden käyttö voi kasvattaa myös palvelinkustannuksia.
OpenAI korostaa turvallisuutta ja läpinäkyvyyttä
OpenAI kertoo lisänneensä Realtime API:in aktiivisia turvallisuusluokittelijoita, jotka voivat keskeyttää keskustelut, jos ne rikkovat yhtiön sisältösääntöjä.
Lisäksi kehittäjät voivat rakentaa omia lisäturvaratkaisujaan Agents SDK:n avulla.
Yhtiö painottaa myös EU:n tietosuoja-asetusten huomioimista. Realtime API tukee EU Data Residency -ominaisuutta eurooppalaisille sovelluksille, mikä voi olla tärkeää erityisesti yrityskäytössä.
OpenAI muistuttaa lisäksi käyttöehdoissaan, että käyttäjille täytyy kertoa heidän keskustelevan tekoälyn kanssa, ellei tilanne tee sitä jo täysin selväksi.
Ääni voi olla tekoälyn seuraava suuri murros
Monien asiantuntijoiden mukaan puhepohjaiset tekoälyjärjestelmät voivat olla seuraava suuri askel tekoälyn arkipäiväistymisessä.
Kun tekoäly pystyy kuuntelemaan, puhumaan, muistamaan keskustelun ja käyttämään työkaluja reaaliaikaisesti, käyttäjäkokemus alkaa muistuttaa yhä enemmän oikeaa keskustelua ihmisen kanssa.
OpenAI:n uudet mallit näyttävät olevan yksi selkeimmistä merkeistä siitä, että kilpailu tekoälyavustajien tulevaisuudesta siirtyy nyt voimakkaasti juuri äänen ympärille.