Učíme stroje rozpoznávat lidskou řeč. V češtině používáme půl milionu slov

image00001

Na kvalitní přepis hlasového záznamu z angličtiny stačí programu znalost třiceti tisíc slov, pro přepis češtiny jich máme v databázi půl milionu. Denně jen v Česku archivuje čtyřicet tisíc článků z deseti tisíc zdrojů, říká Petr Herian, šéf a majitel společnosti Newton Media v rozhovoru pro Reportér Magazín.

Rozhovor si můžete poslechnout i ve formě podcastu ZDE

Náš dnešní rozhovor vychází na webových stránkách a také jako podcast. Jaké technologie se do něj „zakousnou“, aby jej zmonitorovaly?

Jednak to budou sledovací technologie, které hlídají, když se na webu objeví nová zpráva. A budou to i technologie na rozpoznávání řeči – to, o čem se budeme bavit, přepíšou do textové podoby, aby se pak v textu dalo vyhledávat.

Jak dlouho je obsah takového rozhovoru uchováván? A kde konkrétně je uložen?

Je v našem datacentru a je uchováván po neomezeně dlouhou dobu. Nejstarší materiály, které máme, jsou staré pětadvacet let. Uchováváme data ve všech podobách, u rozhovoru je to tedy audionahrávka i textový přepis.

Kde fyzicky ta data jsou?

Je to v Praze, v pronajatém datovém centru, kde je veškerý náš hardware.

Kolik zdrojů dnes Newton monitoruje? Pro začátek, řekněme, třeba v České republice…

V Česku ukládáme denně kolem čtyřiceti tisíc článků, a to ze zhruba deseti tisíc zdrojů.

Kolik jich je celkem i se světovými zdroji?

Primárně se soustředíme na monitoring a archivaci článků ze zemí, kde jako skupina působíme, což je střední a východní Evropa. Tam chceme mít plnotextové verze článků. Jinak spolupracujeme s podobně zaměřenými organizacemi ve světě, takže lze říct, že jsou to statisíce zdrojů denně.

Jak monitoring probíhá v praxi? Představuji si to tak, že nějaké algoritmy v určitém rytmu projíždějí všechny zmiňované zdroje.

Ten základ je stejný jako před pětadvaceti lety, už tehdy jsme se rozhodli spolupracovat s vydavateli. Primární část monitoringu je tak založena na tom, že každý den ukládáme vše, co v mediálních domech vyšlo. V případě internetu používáme technologii, která se dívá na změnu internetových stránek, jak na nich přibývají materiály. U sociálních sítí spolupracujeme s externími partnery a máme i vlastní technologii pro tento účel.

Zaznamenáváme všechno

Monitorujete pouze klíčová slova či oblasti zájmu dle požadavků klientů, nebo si děláte nějaký obecný monitoring, řekněme třeba všech bohemik ze světových zdrojů?

Monitorujeme úplně všechno, i když se na to nikdo neptá. Máme v databázích komplet znění všech článků z každých novin, které vyšly. Totéž platí pro zpravodajské a další servery. Můžeme v nich pak vyhledávat klíčová slova, určité osoby nebo třeba analyticky dohledávat informace, o které se klient zajímá.

To znamená, že když si dnes například vzpomenu, že by mě zajímalo, co se před osmi lety psalo o Slavii Praha, měl bych to tam najít…

To určitě ano. Díval jsem se, co je náš vůbec první článek v archivu a je to článek z Informačního servisu, pozdějšího Respektu, z 20. listopadu 1989. Z roku 1990 pak máme články z Rudého práva a Hornopočernického zpravodaje. Což bylo způsobeno tím, že si u nás kdysi Horní Počernice objednali zpracování archivu tamního zpravodaje. Od roku 1995, kdy naše firma vznikla, pak máme komplet archivy všech novin a také přepisů rozhlasových a televizních zpravodajských pořadů. Přesvědčit se může každý, před pár týdny jsme spustili volný přístup do archivu, který je na sedm dnů zdarma a každý se tak může podívat na články za celých pětadvacet let.

Mluvil jste o přepisech televizních a rozhlasových pořadů. Ukládáte i jejich video, případně audio verze?

Ano, v plné podobě. V minulosti to tak ale nebylo, kapacita disků byla menší.

Mediální oblast se neustále vyvíjí. Jen na malém českém trhu různá média vznikají a zanikají. Jak sledujete, které nové servery se objevují a jak vyhodnocujete, zda je zařadit či nezařadit do svého archivu?

U tištěných titulů se snažíme domluvit s vydavatelem. U internetových stránek se snažíme monitorovat, co nového vzniká a tam, kde je nějaký zpravodajský obsah, stojíme o zařazení do našeho monitoringu.

Hraje při zařazení do monitoringu roli například sledovanost? Zabýváte se i spolehlivostí poskytovaných informací?

Monitorujeme pokud možno všechno. Pro klienty pak propojujeme zdroje s tím, jak spolehlivé mohou jejich informace být.

Dosud jsme se bavili o médiích, ovšem ještě nepřehlednější je oceán informací na sociálních sítích. Jak vypadá monitorování Facebooku, Twitteru, Instagramu a podobně?

Není v našich silách monitorovat kompletní obsah sociálních sítí. Máme nějakou svou technologii pro základní monitoring a spolupracujeme se společnostmi, které se specializují na dané lokální trhy. A máme i systém, který je určen pro globální trhy. Je to dohromady poměrně komplikovaná sestava různých kroků a procedur.

Řekněme, že bych chtěl vědět, jak si na sociálních sítích aktuálně stojí třeba Reportér. Co všechno dovedete zjistit?

Jsme schopni zjistit zmínky na jednotlivých sítích, jaký měly dopad, kolik měly lajků. Jsme schopni sledovat i diskuse pod články. Záleží, do jaké hloubky chcete ten záběr mít. 

Co vaše klienty na sociálních sítích nejvíce zajímá?

Zajímá je případná kritika, nálada kolem značky i to, jak úspěšné jsou jejich aktivity.

Slovanské řeči jsou těžké

Jako laik si ještě dovedu představit, jak se projíždějí miliony textů a hledají se v nich určitá slova. Ale jak to funguje s obrazem a zvukem? Co vlastně hledáte?

Na obrázcích se nejčastěji hledají buď určité osoby, produkty nebo loga. Monitoring statických obrázků je ještě docela snadný, ale v případě videa je to opravdu komplikované. Je to obrovské množství jednotlivých obrazů, takže je to spíše pro klienty, kteří si mohou dovolit cenu, která se zpracováním tak velkého množství dat souvisí. 

Jak probíhá zvukový monitoring? Nějaké vaše stroje si přehrávají rozhlasové pořady či podcasty? Pracují pak při vyhledávání přímo se zvukem nebo s přepisy?

Stroj nejprve přepíše automaticky zvuk do textové podoby a pak ten přepis ještě zkontrolují a doplní editoři. Druhou možností, kterou používáme například u monitoringu zpráv, je jen automatický přepis, kde se dovedou naše technologie dostat na 98 až 99 procent spolehlivosti. Každý den se seznamují s novými výrazy, a tak jsou čím dál tím lepší.

Jakým systémem se stroje učí nová slova?

Máme dva modely. Akustický, který se učí rozpoznávat slova ve všech devatenácti jazycích, se kterými pracujeme bez ohledu na to, z jaké řeči pocházejí. A pak jazykový, který vždy funguje pro konkrétní řeč. Tím, že využívá slova z obrovských databází textů, které máme v našich archivech, tak dovede i v obtížných slovanských řečech vykazovat neuvěřitelně dobré výsledky.

Kolik slov v češtině ten váš systém zná?

V databázi máme kolem čtyř milionů slov, ale pro rozpoznávání řeči používáme slovník čítající kolem půl milionu slov, aby to všechny ty počítačové systémy vůbec mohly zvládnout. Například v angličtině stačí pro úspěšnost rozpoznávání slov na úrovni 98 procent nějakých třicet tisíc slov, v češtině se všemi našimi předponami, příponami, koncovkami a podobně je potřeba ke stejné úspěšnosti asi tři sta až čtyři sta tisíc slov. Na rozvoji technologií rozpoznávání hlasu dlouhodobě spolupracujeme s týmem profesora Jana Nouzy z Technické univerzity v Liberci a je to skvělá spolupráce.

Kde všude se dnes používá vaše technologie na přepis hlasů? Dala by se používat třeba pro záznam soudních jednání?

V poslední době máme pilotní projekt i v soudních síních, kde jsme schopni odlišovat a zaznamenávat promluvy soudce, obhajoby, obžaloby i svědků a znalců. Dokážeme tak velmi pomoci k zefektivnění práce soudních zapisovatelů. Je to velká pomoc zejména pro soudce, kteří mají během pár hodin po skončení jednání k dispozici dostatečně solidní zápis – byť samozřejmě ne absolutně přesný – toho, co v soudní síni zaznělo.

Ovšem nevypadá to, že by soudní zapisovatelky a zapisovatelé přišli o práci a byli v dohledné době nahrazeny krabičkami s technologií na přepis hlasu?

To určitě ne. Zapisovatelkám to hodně pomáhá, ale když je třeba vystoupení někoho před soudem hodně emotivní, nebo je třeba slabý zvukový signál, tak to technologie zvládnout na sto procent nemůže.

Pokud instalujete přepisovací technologii u soudů, musíte mít nějakou prověrku? Předpokládám, že takové věci musí být v nějakém speciálním režimu…

V tomto případě je systém přímo pod správou ministerstva spravedlnosti, které si na všechno dohlíží. Naše technologie se používají i pro přepisy jednání bankovní rady ČNB, jejichž obsah je ze zákona na sedm let tajný. Tomu samozřejmě odpovídá i nastavený režim, nikdo z naší firmy se k obsahu těch záznamů nemůže dostat.

Stroje lidi nenahradí

Pojďme k vašemu byznysu. Nabízíte řadu služeb postavených právě na získaných datech. O co mají dnes zákazníci největší zájem? Co je „nejlepší kšeft“?

Nejlepší kšeft, pokud to tak nazvete, je stále klasický monitoring. Vidíme ale obrovskou poptávku po rychlých analýzách – co se kde objevilo, proč se to stalo, jaký to má dopad… A to celé v kombinaci klasických médií i sociálních sítí. Nad to pak můžeme nabídnout práci našich expertů, kteří dokážou podrobně analyzovat a interpretovat, co se za těmi mediálními výstupy a ohlasy skrývá.

Předpokládám, že pro interpretaci informací získaných v monitoringu potřebujete reálné lidi a stroje na to nestačí? Kolik takových lidí zaměstnáváte?

V České republice je to přibližně sto lidí, v celé skupině jde asi o tři sta spolupracovníků.

Výsledky za rok 2019 ukazovaly, že Newton Media utržila zhruba 160 milionů a dosáhla sedmimilionového zisku. Jak se vyvíjela čísla v covidovém roce 2020? Ohrozila pandemie i váš byznys?

Dopady koronaviru byly samozřejmě znát na poptávce po našich službách od klientů z oborů, které jsou nejvážněji zasaženy, například z cestovního ruchu či gastronomie. Je tu ale i dlouhodobý trend, kdy v čase klesá hodnota unikátní informace, což souvisí s tím, že je to technologicky stále snazší. Proto musí firmy našeho typu stále přemýšlet o tom, jak přinášet zákazníkům co nejlepší přidanou hodnotu.

Když jste před čtvrtstoletím v tomto oboru začínal, byl Newton taková „chytřejší výstřižková služba“. Dnes už analyzujete i obrázky nebo řeč. Kam se bude vývoj ubírat dál?

V nejbližším období se asi žádná revoluční změna neodehraje. Budeme se snažit vylepšovat technologie, abychom dokázali co nejlépe využít strojovou analýzu informací, které máme k dispozici. A k tomu přidat kvalifikovanou analytickou práci.

Nehrozí, že se ve vašem oboru drtivá většina činností přesune na strojovou inteligenci a pak už nebudou živí lidé potřeba?

Myslím, že ne. Pokud chceme klientům poskytovat maximální užitek, nemohou technologie, přinejmenším v blízké budoucnosti, lidskou práci nahradit.

Zkusme se na věc podívat ještě i z druhé strany. Má pro vaše případné zákazníky v době informační zahlcenosti ještě vůbec smysl sledovat, co se kde psalo či vysílalo?

Na sociální sítě a internetové stránky už se dnes klienti dívají přes souhrny, vyjádřené ve grafické podobě. Kdyby měli zkoumat každou zmínku, která se kde objeví, tak to nebudou schopní stíhat a nebude to pro ně ani užitečné. Díky zkušenostem a technologiím, které máme k dispozici, dovedeme odlišit to podstatné. Ještě před deseti lety po nás klienti chtěli, ať najdeme všechno, co se o nich kde šustlo. Dnes chtějí jen to nejdůležitější, zachytit určitý trend a dostat souhrn.

Letos budou volby. Jsou mezi vašimi klienty i politické subjekty?

Jsou to politické strany, vládní organizace, stejně jako mediální a PR agentury. Obecně lze říct, že většina velkých organizací v Česku patří mezi naše zákazníky.

Děláte si sami pro sebe monitoring politických nálad v zemi?

Já osobně to nedělám, ani Newton si sám pro sebe takové analýzy nevytváří. Pokud o to ale stojí třeba nějaká média nebo někdo z našich zákazníků, tak jsme schopni takovou analýzu poskytnout.

Autor článku: Robert Čásenský pro Magazín Reportér

Čtěte také

1 3
Blog

5 způsobů, jak využít media intelligence pro rozvoj turismu ve městech

I to nejmenší město se může stát turisticky atraktivní, když dokáže správně komunikovat své přednosti. Ať už jsou to přírodní krásy, zajímavá ubytování nebo historické památky – každé místo dokáže přitáhnout určitou cílovou skupinu. Jak ale dosáhnout toho, aby se návštěvníci rozhodli přijet zrovna k Vám?

IMG 9914
Blog

Společné setkání se zástupci státní správy v Museu Kampa

Ve středu 16. října 2024 jsme se v podvečerních hodinách sešli v krásném prostředí Musea Kampa v Praze ke společnému setkání členů týmu Newton Media a zástupců tiskových a komunikačních oddělení v rámci státní a veřejné správy.

akvizicni kampan 2
Blog

Moderní samospráva: Jak zefektivnit práci s mediálními daty 

Moderní úřad, pokud chce být otevřený a pružně reagovat na podněty veřejnosti, by se měl naučit pracovat s mediálními daty. Ta mu napoví nejen jaká nálada panuje ve společnosti v souvislosti s krajskou politikou, ale také dovolí rychle reagovat na mediální kauzy a PR krize. Kvalitní a pravidelný monitoring médií je zkrátka něco, co by žádný krajský ani městský úřad neměl zanedbat. Jak ale vybrat ten, který Vám poskytne tu nejvyšší přidanou hodnotu?

zálohování 2
Blog

Analýza mediálních výstupů příznivců a odpůrců zálohování 

V posledních letech se ve veřejném prostoru se stále častěji objevuje nové téma, které by mohlo mít celospolečenské dopady, pokud se legislativně prosadí. Řeč je o snaze zavést povinné zálohování PET lahví a hliníkových plechovek od nápojů s cílem zvýšit míru recyklace a opětovné využití již použitých obalů. Vláda sice novelu obalového zákona právě dnes schválila na svém zasedání, nicméně návrh ještě musí projít parlamentem. Proti kampani k zálohování se ale vzedmula i vlna kritiky a odporu vůči změnám v dosavadním systému. Který z těchto dvou táborů zatím vítězí v mediálním prostoru?

telefon kresba

Jdeme na to!