Rozpoznávání a generování řeči

Přepis mluvené řeči do textu

Nástroj pro převod mluvené řeči na text, který podporuje i češtinu, vytvořilo Open AI a jmenuje se Whisper. Navíc si docela dobře poradí i se šumem. Povinná výbava každého novináře, který dělá rozhovory. Přepsaný text se nedá nikdy přímo publikovat, protože my lidé mluvíme jako Hotentoti, je to samé éééé, jakoby, nóóó, vlastně, prostě, atd. Je nutné ho přepsat, uhladit, a taky opravit chyby, které udělá Whisper. A právě zde může výrazně pomoci GPT. Řekni mu, že mu předáváš strojově přepsané mluvené slovo a chceš ho stylisticky opravit. Ať se snaží.

Převod textu na řeč

Převod textu na řeč již dávno zvládají počítače, mobily a tablety. Stačí označit text a nechat ho přečíst. Že text čte robot je zatím evidentní, ale vznikají stále lepší a lepší modely a brzy se rozdíl smaže. Nejprve samozřejmě v angličtině, později i v češtině.

Můžeš vyzkoušet tyto dvě služby:

  • SpeechGen – realistický převodník textu na řeč
  • HeyGen – vytvoří video s mluvčím nebo digitálním učitelem

Jak naklonovat hlas?

Umělé inteligence pro klonování hlasů nejsou zatím tak dokonalé, jako třeba generátory obrázků. Určitě se to brzy změní, nejspíš s masivnějším příchodem videí generovaných pomocí AI. Ale prozatím nečekej zázraky. Napodobit hlas někoho jiného totiž neznamená jen napodobit jeho specifickou barvu, ale i způsob řeči, parazitní slovíčka, dýchání a já nevím co ještě. Až uměligence vystřihne Leoše Suchařípu, tak smeknu. Ale letos ještě bude mít Petr Jablonský co jíst.

Jak se dá, byť nedokonale, klonovat hlas? Tuhle službu nabízí řada aplikací. Dokonce i samotné iPhony s iOS 17. V Nastavení > Zpřístupnění > Osobní hlas si spustíš klonování hlasu. Musíš přečíst 150 frází, na kterých se pak iPhone bude celou noc učit. Na podobném principu fungují i různé webové aplikace. Nutnost číst připravené věty je spíš pojistkou, aby nebylo možné klonovat cizí hlas bez vědomí majitele, pro samotný trénink není obsah vět podstatný. Existují tedy i metody, jak naklonovat hlas pouze z nahrávky, kde osoba mluví o čemkoliv. Třeba tohle jsem vyrobil z inauguračního projevu prezidenta Petra Pavla:

Jak takový hlas naklonovat vysvětluje video tutoriál na YouTube. Není to úplně easy, ale jistě brzy vzniknou lepší a snadněji přístupné nástroje.

Tipy na další nástroje

Mrkni na přehled AI nástrojů.