Rozpoznávání a generování řeči

AI dnes umí mluvit i poslouchat. Přepisuje porady, diktuje maily, čte nahlas knížky, klonuje hlasy, zpívá a dabuje filmy. Před pár lety by to znělo jako sci-fi, dneska je to realita, u které se střídá nadšení s lehkou paranoiou.

Přepis mluvené řeči do textu

Potřebuješ přepsat rozhovor, poradu nebo přednášku? Existuje spousta nástrojů, které to zvládnou za tebe.

Lidé v kancelářích si velmi chválí Microsoft Teams, který umí automaticky přepisovat schůzky v reálném čase – včetně rozpoznání, kdo právě mluví. Čeština je podporovaná. Pokud tvoje firma používá Teams, máš přepis porad vyřešený, aniž bys instaloval cokoliv navíc.

Gemini (Google) umí přepisovat zvukové záznamy – stačí přetáhnout soubor do Google AI Studia nebo dokonce vložit odkaz na YouTube video. Free tier je štědrý, vystačí na desítky přepisů denně. Čeština samozřejmě podporovaná. Podrobnosti o Gemini najdeš na stránce o chatbotech.

České přepisovací nástroje – pokud hledáš službu přímo zaměřenou na český přepis, máš dvě šikovné možnosti:

  • Česky.AI – používá Whisper s AI korekční vrstvou, která vylepšuje češtinu. Od 189 Kč měsíčně, trial 120 minut zdarma.
  • Beey.io – česká firma NEWTON Technologies, přes 80 000 uživatelů. Používá ho i Poslanecká sněmovna pro přepis jednání (takže příště, když budeš číst stenoprotokol, víš, kdo za to může). Od 0,14 EUR za minutu.

Strojově přepsané mluvené slovo se nikdy nedá rovnou publikovat, protože my lidé mluvíme jako Hotentoti – je to samé éééé, jakoby, nóóó, vlastně, prostě. Je nutné text uhladit a opravit chyby. A právě tady pomůže jakýkoliv chatbot.

Whisper pro technické nadšence

Řada přepisovacích služeb pod kapotou používá Whisper – open source model od OpenAI z roku 2022 (licence MIT). Whisper podporuje češtinu a kdokoliv si ho může rozjet u sebe na počítači zadarmo. Existuje whisper.cpp (port do C++) a faster-whisper (Python). Nejnovější verze large-v3-turbo je 8× rychlejší než originál a vystačí si s 6 GB video paměti. Žádný internet, žádné předplatné, žádné odesílání dat kamkoliv.

Whisper historicky měl ošklivý zvyk: halucinoval – v tichých pasážích si vymýšlel text, který nikdy nikdo neřekl. Víc o tom v článku Když AI slyší duchy. OpenAI vydalo novější modely (gpt-4o-mini-transcribe), které halucinace snižují asi o 90 %, ale ty jsou jen přes placené API.

Diktování hlasem

Diktování do ChatGPT funguje dnes na webu i v mobilní aplikaci. A je to o parník lepší než vestavěné diktování od Applu. Apple v oblasti AI neodpustitelně zaspal – jeho nativní diktování si neporadí se šumem v pozadí, rychlou mluvou a neumí se zotavit z chyb. A tohle není jen problém češtiny – stejně špatně funguje i v angličtině. Když řekneš Siri „nastav budík na šest“, máš padesátiprocentní šanci, že zapne šestou epizodu podcastu o vaření. ChatGPT ti text přepíše čistě, s diakritikou, s interpunkcí. Není důvod používat nativní diktování, když máš po ruce něco nesrovnatelně lepšího.

Na iPhonu 15 Pro a novějších si můžeš namapovat Akční tlačítko přímo na spuštění ChatGPT v režimu diktování. Zmáčkneš, mluvíš, hotovo. Osobně dávám přednost diktování před hlasovým režimem, protože vidím černé na bílém, co se přepsalo, a můžu to rovnou opravit. Na druhou stranu, hlasový režim se dá na stejné tlačítko namapovat taky – viz sekce níže.

A pak je tu Wispr Flow – appka za $15 měsíčně, která přidá diktování do jakékoliv aplikace na Macu, Windows i iOS. Funguje systémově: otevřeš mail, zmáčkneš klávesovou zkratku a diktuješ. Otevřeš Slack, zmáčkneš, diktuješ. Wispr automaticky uklízí všechna „ééé“ a „hmm“, přidá interpunkci a výsledek je čistý text. Šikovná je funkce Command Mode – označíš text, řekneš hlasem, co s ním chceš udělat, a Wispr ho přepíše. Podporuje přes 100 jazyků včetně češtiny. Free tier dává 2 000 slov týdně, což na vyzkoušení stačí.

Když AI čte nahlas

Převádět text na mluvené slovo zvládají počítače odjakživa. Jenže dřív to znělo jako Stephen Hawking – geniální obsah, robotický přednes. Dnes? Dnes uslyšíš vzdech, šepot, smích. A nepoznáš, že mluví stroj.

Králem syntézy řeči je ElevenLabs. Firmu založili dva polští kamarádi – Mati Staniszewski a Piotr Dabkowski – kteří se poznali na střední škole ve Varšavě. Kdo někdy sledoval polskou televizi, ví, že Polsko má pověstný dabing: jeden chlap monotónně čte všechny role přes originální zvuk. Představ si Terminátora, kde Arnold, Sarah Connor i malý John mluví stejným hlasem znuděného úředníka. Tak přesně tohle chtěli dva polští kluci napravit. Dnes má jejich firma hodnotu 11 miliard dolarů.

Roční příjem? 330 milionů dolarů. Nejnovější model Eleven v3 zní natolik přirozeně, že ho od lidského hlasu nerozeznáš. Čeština je plně podporovaná, ElevenLabs má dokonce dedikovanou stránku pro český TTS.

Co to stojí? Free verze s 10 000 kredity, Starter za $5 měsíčně, Creator za $22 a Pro za $99. Za pětidolarovku měsíčně dostaneš syntézu řeči, která by před pěti lety stála jako malý byt. Mimochodem, všechny články na tomhle blogu si můžeš nechat přečíst nahlas právě pomocí ElevenLabs.

Ostatní s podporou češtiny

  • OpenAI TTS – API modely, nejnovější gpt-4o-mini-tts je „řiditelný“ – můžeš mu říct, JAK má mluvit (vesele, smutně, jako zpravodaj). Čeština podporovaná, ale optimalizovaný je hlavně pro angličtinu.
  • Google Cloud TTS – až milion znaků měsíčně zdarma (pro kvalitní WaveNet hlasy), 380+ hlasů, čeština v ceně.
  • SpeechGen.io – bez předplatného, platíš za znaky ($0,08 za 1 000 znaků). Čeština k dispozici.
  • XTTS v2 – zdarma pro nekomerční použití, podporuje 16 jazyků včetně češtiny. Pro borce, co chtějí mít vše pod kontrolou (firma Coqui sice zanikla, ale model žije dál).

Zvláštní zmínku si zaslouží NotebookLM od Google s funkcí Audio Overview. Nahraješ dokument, článek nebo poznámky a NotebookLM z toho vyrobí podcast – dva AI moderátoři si o tvém textu povídají, vysvětlují ho, doplňují kontext. Výsledek zní tak přirozeně, že zapomeneš, že nikdo z těch dvou neexistuje.

Klonování hlasu

Stačí 3–5 sekund čistého záznamu tvého hlasu. Pět sekund! To je míň, než objednávka kávy ve Starbucks. A AI z toho vyrobí kopii tvého hlasu, která bude číst cokoliv, co jí předhodíš.

ElevenLabs nabízí dva režimy: Instant Clone (rychlý, stačí krátká ukázka) a Professional Voice Clone (vyšší kvalita, potřebuje víc materiálu). Výsledky jsou natolik přesvědčivé, že z toho jde strach.

A proč strach? Protože podvodníci toho naplno využívají. Klasický scénář: AI naklonuje hlas tvého vnuka, zavolá babičce a řekne, že měl nehodu a potřebuje okamžitě poslat peníze. A není to teorie – takové podvody se reálně dějí a přibývají.

EU na to reaguje: AI Act klasifikuje klonování hlasu jako vysoce rizikovou AI. Syntetický zvuk musí být označený. Jestli se to podaří uhlídat, je jiná otázka – je to jako zakazovat lidem fotit jídlo v restauraci.

Víc o rizicích AI najdeš na samostatné stránce. Pokud tě zajímá, jak klonování hlasu funguje v praxi, mrkni na články Jak naklonovat hlas a Jak jsem oživil soudruha Jakeše.

Hlasový režim chatbotů

Tohle je věc, která mě upřímně dostala. Mluvíš s AI jako s člověkem. Přerušuješ ji, ona tě přeruší, reaguje na tvůj tón hlasu, dělá pauzy. Není to přepis-odpověď-přečtení, je to plynulý rozhovor. A pokud tě chatbot otravuje tím, že ti skáče do řeči, stačí mu dát instrukci, že smí odpovídat pouze „Hmm“ – a máš konečně někoho, kdo umí poslouchat :-)

ChatGPT Advanced Voice Mode – nativní speech-to-speech model, kde řeč nejde přes textový mezikrok, ale zpracovává se přímo jako zvuk. Přirozené pauzy, emoční zabarvení, 50+ jazyků včetně češtiny. Dostupné na webu, iOS i Androidu. Bezplatní uživatelé mají omezený počet minut denně, s Plus je to prakticky bez omezení. Umí i překládat v reálném čase – mluvíš česky, odpovídá anglicky, nebo naopak.

Stejné Akční tlačítko na iPhonu funguje i pro hlasový režim. Na jedno stisknutí se bavíš s AI, aniž bys vzal telefon z kapsy. Vypadáš u toho jako blázen, co mluví sám se sebou na ulici, ale to je detail.

Gemini Live – Google odpověděl vlastním hlasovým režimem. 40+ jazyků, česky oficiálně. Hlavní výhoda: hluboká integrace s Google službami – Kalendář, Keep, Tasks. Když řekneš „Co mám dnes za schůzky?“, Gemini se podívá do tvého kalendáře a odpoví. Zdarma na Androidu a iOS, prémiové funkce s Google One AI Premium za $20 měsíčně.

Claude – Anthropic přidal hlasový režim v květnu 2025, ale čeština zatím podporovaná není.

Co spousta lidí neví: hlasový režim funguje i na webu, nejen v mobilních appkách. Stačí otevřít ChatGPT nebo Gemini v prohlížeči a kliknout na ikonku mikrofonu. Žádné stahování, žádné instalování.

AI hudba

Ano, AI skládá muziku. Kdyby mi někdo pustil výstup ze Suna v rádiu, ničeho bych si nevšiml. Jestli je to tím, jak dobré jsou ty písničky, nebo jak špatné je dnešní rádio, nechám na tobě.

Suno generuje skladby, které se kvalitou blíží studiovým nahrávkám. Napíšeš „melancholická česká balada o programátorovi, který zapomněl commitnout“, a za minutu máš hotovou písničku i s textem a zpěvem. Česky, anglicky, v jakémkoliv žánru. Úžasná je funkce Cover – nahraješ oblíbenou písničku a Suno z ní udělá třeba jazzovou verzi, metalový cover nebo dětskou ukolébavku. Rammstein jako bossa nova? Proč ne. Free verze: 10 písniček denně. Pro: $10 měsíčně s komerční licencí. Warner Music uzavřel se Sunem licenční dohodu, takže komerční použití je právně pokryté.

Udio je přímý konkurent, ale zrovna prochází licenčním otřesem. Stahování je momentálně zakázané. UMG a Warner se dohodli na licencích, žaloba od Sony stále běží.

Pozadí? V roce 2024 RIAA (americká obdoba OSA) zažalovala Suno i Udio za porušování autorských práv – modely trénovaly na chráněných nahrávkách. Průmysl se ale posunul spíš směrem k licencování než k zákazu. Klasický případ: nejdřív žaloba, pak byznys.

Zajímavý projekt je Radio SLOP! – první české 100% AI rádio. Žádní moderátoři, žádné mluvené slovo. AI agent denně skenuje zprávy, počasí a podcasty a zhudební je do nekonečného proudu písniček. Taková moderní varianta kramářských písní, akorát místo barda s loutnou máš robota s GPU.

Víc o AI hudbě v článku Nový hit napíšete za 10 vteřin.

AI dabování

YouTube rozšířil automatické dabování na všechny tvůrce (únor 2026, 27 jazyků). HeyGen a Rask AI nabízejí profesionální dabování s lip-syncem – AI ti upraví pohyby rtů, aby odpovídaly novému jazyku. Představ si českou firmu, která chce promo video pro zahraniční trh. Místo natáčení pěti verzí s pěti herci: jedno natáčení, zbytek zařídí AI. Podrobnosti najdeš na stránce o generování videa.

Kam dál

Ještě před pár lety se hlasové ovládání počítačů rovnalo křičení „HI SIRI“ na kus plastu, který odpovídal „Nenašla jsem žádné výsledky.“ Dnes si s AI popovídáš česky a ona ti rozumí líp než polovina lidí na poště.

Na blogu tě čekají praktické návody: Jak naklonovat hlas, Když AI slyší duchy, Jak jsem oživil soudruha Jakeše a Nový hit napíšete za 10 vteřin.

Poslední aktualizace: únor 2026