Kedy budeme ovládať počítače hlasom?

29. 07. 2006 | 12/2003 | Comments [0]

Kedy budeme ovládať počítače hlasom? V týchto nie príliš priaznivých časoch , keď sa trhy doterajších IT technológií, aspoň vo vyspelom svete, blížia k saturácii, keď 3G a iné novoty štartujú pomalšie, ako sa očakávalo, a keď investori sú značne opatrní, objavuje sa nová nádej - ľudský hlas. Ekonomickí prognostici predpovedajú prudký nárast využitia tohto najprirodzenejšieho média už v najbližšom čase. SRI Consulting Business Intelligence napríklad odhaduje, že výdavky na digitálne hlasové technológie stúpnu z tohtoročných 3,5 mld. USD na 20 mld. USD v roku 2005 a na 40 mld. USD v roku 2007.

Kedy budeme ovládať počítače hlasom?V týchto nie príliš priaznivých časoch , keď sa trhy doterajších IT technológií, aspoň vo vyspelom svete, blížia k saturácii, keď 3G a iné novoty štartujú pomalšie, ako sa očakávalo, a keď investori sú značne opatrní, objavuje sa nová nádej – ľudský hlas. Ekonomickí prognostici predpovedajú prudký nárast využitia tohto najprirodzenejšieho média už v najbližšom čase. SRI Consulting Business Intelligence napríklad odhaduje, že výdavky na digitálne hlasové technológie stúpnu z tohtoročných 3,5 mld. USD na 20 mld. USD v roku 2005 a na 40 mld. USD v roku 2007. Hlavnými predpokladanými klientmi sú vlády a veľké korporácie, významný potenciál však majú aj domácnosti.

Od kláves po povely

Pôvodne jediným spôsobom komunikácie s počítačom boli príkazy z klávesnice. Bola to určitá prekážka masového rozšírenia výpočtovej techniky: nie každý bol priateľom písania na stroji, mnohých odradzovala najmä nevyhnutnosť naučiť sa presné príkazy a kľúčové slová. Veľkú zmenu priniesol nástup grafických rozhraní: stačilo iba kliknúť myšou a aplikácia sa rozbehla. Vlastne tam niekde sa začala hegemónia Microsoftu na trhu desktopových systémov.

Terajšia doba si volá po ešte väčšom používateľskom komforte. Informačné technológie zasahujú čoraz masovejšieho používateľa, ktorého často odstrašuje spleť kláves, tlačidiel vôbec všetko, čo pripomína “počítačinu”. Je dosť takých, čo majú problémy s naprogramovaním svojho videorekordéra a veľmi by privítali, keby mu mohli jednoducho povedať, čo od neho chcú. Svoje zohráva aj nástup mobilných prístrojov s ich malými tlačidlami; nejeden používateľ túži po inom spôsobe ovládania. V rušných prevádzkach, na stavbách, nehovoriac už o automobiloch,. ide manipulácia s tlačidlami handheldu, či PDA niekedy až na úkor bezpečnosti. Práve tam sa veľmi žiada, aby prístroj vedel reagovať aj na slovný povel. Ruky, nohy, zrak sú často plne zaangažované do iných činností, voľná ostáva už len reč a občas sluch.

Na jednom vedeckom seminári roku 2001 predstaviteľ Intelu vyslovil predpoklad, že reč sa zaradí medzi primárne rozhrania medzi človekom a počítačom, najmä v mobilných aplikáciách. “Začíname prispôsobovať procesory na interakciu s človekom. Ak sa v praxi hlasová voľba telefónnych čísiel, stále menej a menej sa budeme stretávať s používaním kláves.” Avízoval, že jeho firma buduje celý “hlasovo podmienený internetový ekosystém”, ktorý bude zahrnovať aj e-biznis.

Popri myši aj mikrofón

Osobitne úsilie v oblasti využitia ľudskej reči v IT vyvíja firma IBM. Jeho riaditeľ pre hlasové technológie Gene Cox takto sformuloval svoju víziu pred pre britský Financial Times: “Jednotlivé aplikácie sa v budúcnosti už nebudú vyvíjať ako iba vizuálne, alebo iba hlasové. Budú zásadne multimodálne, umožňujúce prezentáciu v tej, či onej forme.” Inými slovami, všeobecne používaným vstupným prostriedkom sa popri klávesnici a myši stane aj mikrofón.

S tým súvisí aj vytáranie zvukových portálov na telefonickú komunikáciu s webom, čo je tiež jedna z novších foriem prezentácie. Niekoľkoročné skúsenosti bostonskej firmy SpeechWorks, ktorá uviedla portál Quack.com s hlasovým rozhraním hovorí, že telefonické otázky sú oveľa početnejšie, než tie, čo prichádzajú po počítačovej sieti.

Spoznaj správny hlas

Nie nevýznamnú úlohu budú hlasové technológie zohrávať v oblasti bezpečnosti. V časoch všadeprítomných teroristických a iných hrozieb stúpa význam biometriky človeka, ktorá okrem starých dobrých odtlačkov palca zahrnuje aj určovanie totožnosti človeka aj podľa zrenice oka a hlasovej vzorky. Výhodou hlasovej kontroly je menšia agresívnosť (mnohí ľudia sa v prípade kontroly zrenice ohradzujú voči záblesku do oka), ako aj nezávislosť od miesta kontrolného prístroja. Hlasová identifikácia sa totiž môže uskutočňovať aj na diaľku, po telefóne. Britská polícia si napríklad takýmto spôsobom zisťuje, či mladiství delikventi dodržiavajú zákaz nočného vychádzania. V určenom čase sa musia hlásiť z určenej pevnej linky a systém dokáže odlíšiť, či sa na druhom konci ozýva dotyčná osoba, alebo niekto iný. Veľký význam má rozpoznávanie hlasu najmä pri obchodných a finančných transakciách. Je zrejme podstatne bezpečnejšie, než doteraz obvyklé overovania prostredníctvom hesiel a PIN-ov (osobných identifikačných čísiel) – osobitne v telefonickom styku. V súčasnej etape hlasových systémov, keď sa treba telefonické “predstavenie sa” aj niekoľkokrát zopakovať, lebo stroj nebol schopný na prvý raz spoľahlivo určiť hovoriaceho, sa odporúča túto kontrolu kombinovať s uvedením PIN-u, alebo hesla. Nejde tu len o prípadné detské choroby hlasových technológií, ale aj o urýchlenie overovacej operácie: skracuje sa tým čas, potrebný na prehľadávanie databázy.

Kontroly hlasovej vzorky nájdu veľké uplatnenie ako automatickí vrátnici na vstupoch do objektov, kde časom zrejme nahradia dnes obvyklé čipové karty. Ich úplne prirodzenou sférou bude autorizácia prístupu do chránených počítačových sietí. Tá by už podľa všetkého nemala byť technologickým problémom. Rozpoznávanie “hlasu svojho pána” – bezprostredne prítomného, alebo volajúceho po telefóne – je viac-menej technicko-organizačnou otázkou vybavenia počítačov mikrofónmi, príslušným softvérom a databázou vzoriek.

INFORMUJE VÁS STROJ

Zatiaľ najviac využívanou, a zrejme najziskovejšou možnosťou uplatnenie hlasových technológií je automatizované poskytovanie informácií. Niektoré firmy využívajú počítače napríklad na telefonické tlmočenie reklamných odkazov. Vo viacerých veľkých call centrách sa takto vybavuje aj značná časť odpovedanie ne jednoduchšie otázky klientov (napr. na číslo účastníckej telefónnej stanice), ktorých. pochopenie je už v dosahu možností súčasných systémov. Stáva sa, že počítaču odpoveď trvá o niečo dlhšie, než človeku, zákazník to však má zohľadnené v cene.

Informatická príloha Financial Times z apríla t. r. uvádza príklad švédskej automatizovanej služby Autosvar, špecializovanej na vyhľadávanie telefónnych čísel. Na jej spojazdnenie museli vývojári spojiť tri softvéry, každý od iného výrobcu: prekladač hlasovej otázky na digitálny text, vyhľadávač z databáz čísel (komplikáciou bolo, že švédsky operátor Telia má svoje čísla usporiadané vo dvoch databázach), a napokon program na prečítanie výsledku hľadania v hlasovej forme. Služba funguje od roku 2001, stále však ešte bojuje o miesto na slnku. Napriek tomu, že je lacnejšia, najmä súkromní klienti stále ešte uprednostňujú tradičného živého operátora. Produktový manažér Autosvaru Richard Doos však nestráca optimizmus: “Ľudia, ktorí raz zakúsili naše služby, sa k nám vracajú.” Jeho zámerom je preniknúť aj na trhy ďalších štátov, aj keď to nebude jednoduché, pretože vznikne problém homogenizácie viacerých, často odlišne štrukturovaných databáz.

Podľa údajov firiem, prevádzkujúcich veľké informačné strediská, automatizovaná služba vychádza je najmenej o polovicu lacnejšie, ako živí operátori. Podľa zistenia Financial Times, automatizovaný hlasový systém pre call centrum môže stáť aj viac ako 600 tisíc dolárov. Čas ich návratnosť je však až obdivuhodne krátky, v niektorých prípadoch dokonca iba deväť mesiacov.

Zložitosti ľudskej reči

Tvorcovia hlasových systémov narážajú na reálny problém, ako naučiť stroje prijímať aj: odlišnú výslovnosť klientov, napríklad ak má niekto nádchu, alebo je ovplyvnený nejakým dialektom. Je zistené, že človek, aj keď sa veľmi snaží, nikdy nevysloví to isté slovo úplne rovnako. K tomu pristupuje aj otázka hlučnosti okolitého prostredia, či kvality prenosu. Táto vec, pokiaľ ide o jednoduché – a výrazne osobitne vyslovované – slová a ich kombinácie je už ako-tak zvládnutá.

Horšie je to s prepisom (a pochopením) zložitejších textov. Veľké starosti robí napríklad bežný spôsob reči, pri ktorom stroj ťažko zistí, kde sa jedno slovo končí a druhé začína. Aj preto prebiehajú rozsiahle výskumy mnohých jazykov; projekt pre slovenčinu, realizovaný na Ústave teórie riadenia a robotiky SAV, zohľadňuje aj také faktory, ako pôvod hovoriaceho v oblasti jedného z troch slovenských dialektov. V tejto súvislosti Nik Philpot z firmy Eckoh Technologies, špecialistu na hlasové systémy, varuje: “Prevod z reči na text pre hlasové portálové aplikácie zatiaľ trvá príliš dlho a je ťažké vycvičiť systém na každého hovoriaceho.” Rozličné zdroje naznačujú, že na spoľahlivý prevod reči na text, a teda aj na toľko očakávanú možnosť priameho diktátu do počítača, si ešte budeme musieť počkať.

Dobrou správou je, že opačným smerom, z textu na reč, to ide ľahšie. Už dnes si adresát môže pohodlne v kresle, či za volantom vypočuť hlasovú verziu prijatých e-mailov, alebo počítačových telefonických odkazov bez toho, aby musel čímkoľvek ručne manipulovať.

Konkurenčné štandardy

Za dôkaz, že digitálna hlasová technológia je pre výrobcov lukratívna, možno považovať skutočnosť, že už aj v tejto oblasti vypukol spor o štandardy. IBM a špecialista v tejto oblasti firma Nuance od konca 90. rokov spoločne vyvíjajú štandard na ovládanie aplikácií ľudským hlasom VoiceXML. Microsoft však dodatočne začal presadzovať konkurenčný systém SALT, ktorý je vraj pružnejší a lepšie prispôsobený multimodálnemu prostrediu. Podľa posledných správ spor pokračuje, podľa Larryho Veleza z výskumnej organizácie Meta Group má síce SALT “významnú podporu”, avšak jeho štart je otázny, pretože za VoiceXML je už veľa rokov práce. Nie je vylúčené, že za iniciatívou Microsoftu treba vidieť snahu o získanie významnej pozície v oblasti, ktorú si už pre seba začali vyhradzovať iní veľkí hráči.

Ľudský hlas, jeho rozpoznávanie a transformácia do digitálneho textu a späť sa zatiaľ využíva iba v malej miere. Odvetvie IT si uvedomilo, že ľudská reč je pre používateľov v domácnostiach, na cestách, alebo vo výrobných závodoch často najvhodnejším a najprijateľnejším spôsobom, ako ovládať celé skupiny zariadení. Využitie tohto priestoru sa zrejme stáva jedným z hlavných strategických smerov informatiky na najbližšie desaťročie.

Peter Fridner

Image gallery


Write review