
Umělá inteligence patří v poslední době k nejčastěji skloňovaným tématům. Nové AI nástroje se rychle objevují na trhu a zároveň se začínají integrovat přímo do podnikových systémů, které zpracovávají různé administrativní dokumenty či jiná interní data – včetně řešení iNVOiCE FLOW, které nově využívá vylepšený AI modul Aurora. O tom, jak tyto aplikace skutečně pracují uvnitř a co všechno se musí odehrát ještě předtím, než se výsledek dostane k uživateli, se ale mluví podstatně méně.
Andrej Gono, zakladatel startupu Citymind, odborník na umělou inteligenci a doktorand Mendelovy univerzity v Brně ve své práci propojuje vývoj AI, akademický výzkum a praktické nasazení umělé inteligence ve firmách. Díky tomuto propojení dokáže velmi přesně popsat, jak jsou dnešní AI systémy navržené, kde dávají smysl a kde naopak narážejí na své limity.
Klasické velké jazykové modely byly trénovány primárně na souvislých textech. To znamená, že dobře rozumí významu vět a odstavců, ale administrativní dokumenty tímto způsobem strukturované nejsou. Faktury nebo objednávky mají klíčové informace rozeseté po celé stránce – v tabulkách, hlavičkách, patičkách nebo poznámkách.
Na pozadí aplikací typu Aurora proto neběží obecný LLM, ale specializovaný model označovaný jako Transactional Large Language Model, zkráceně T‑LLM. Ten je optimalizovaný právě pro práci se semi‑strukturovanými dokumenty. AI v tomto případě nejen čte jednotlivá data, ale chápe jejich význam v kontextu celého dokumentu – například porovnává položky s objednávkami nebo kontroluje, zda součty dávají smysl.
Zásadní je také to, že se na dokument nedívá jen jako na text. Vnímá ho jako obraz. Rozpoznává rozložení stránky, čáry, tabulky, grafické prvky nebo loga. Právě tato kombinace vizuálního a textového pohledu umožňuje dokument skutečně pochopit.
Klíčovým prvkem je tzv. diskriminativní dekodér. To znamená, že model nemůže generovat žádný nový text, ale pouze vybírá a interpretuje data, která jsou v dokumentu skutečně obsažena. Díky tomu si systém nemůže „vymyslet“ žádné údaje, což je pro podnikové prostředí naprosto zásadní.
Ještě předtím, než se ke slovu dostane samotný model, probíhá řada kroků, které jsou pro kvalitu výsledku klíčové. Dokumenty přicházejí z velmi různorodých zdrojů – z e‑mailů, přes API, sdílené složky, EDI brány až po fyzické skenery. Každý z těchto kanálů má jiné vlastnosti a jiná rizika chyb.
Prvním úkolem je proto normalizace. Všechny vstupy je potřeba převést do jednotného formátu, se kterým mohou pracovat další komponenty systému. Součástí tohoto kroku je detekce a extrakce obsahu, konverze formátů i kontrola kvality vstupu – například zda dokument není příliš tmavý nebo světlý, rozmazaný, v nedostatečném rozlišení nebo s chybějícími stránkami.
U EDI zpráv je navíc nutné sjednotit různé strukturované formáty, jako jsou XML, JSON nebo EDIFACT, aby vznikl konzistentní datový základ.
Následně přichází na řadu computer vision. Dokumenty nejsou vždy v textové podobě, takže AI musí nejprve „přečíst“ obrazový obsah. Používají se neuronové sítě, které převádějí skeny nebo obrázky na text, ale zároveň analyzují vizuální prvky – polohu polí, hranice tabulek nebo vztahy mezi jednotlivými částmi dokumentu.
Rozpoznaný text se poté převádí do podoby, které neuronová síť rozumí. Probíhá tokenizace, tedy rozdělení textu na menší jednotky, a inferenční proces, během kterého T‑LLM nejen extrahuje data, ale chápe jejich vzájemné vztahy. Model je zároveň průběžně adaptován na konkrétní firemní data, a to bez nutnosti pevně definovaných šablon.
Před předáním do uživatelské vrstvy se data ověřují. Každé extrahované pole dostává skóre jistoty, které určuje, zda je potřeba lidská kontrola. Informace se dále přizpůsobují formátům cílových systémů, typicky ERP (Enterprise Resource Planning), a přes API (Application Programming Interface) se validují například proti objednávkám.
Součástí backendu jsou i mechanismy průběžného zlepšování. Pokud uživatel provede korekci, systém se z ní učí a tuto znalost využije při dalších dokumentech. V kontextu iNVOiCE FLOW to znamená, že AI nejen vytěžuje data, ale připravuje je pro plynulý a spolehlivý tok do účetních systémů.
Celý proces začíná načtením dokumentu pomocí OCR (Optical Character Recognition). Systém extrahuje text z PDF, skenů nebo strukturovaných formátů a identifikuje klíčová pole, jako je dodavatel, částka nebo datum.
Následně vstupuje do hry T‑LLM a nástroje z oblasti NLP. Model chápe vztahy mezi jednotlivými údaji – například zda částka odpovídá položkám, zda nejde o duplicitní fakturu nebo o nestandardní situaci. Dokumenty jsou klasifikovány podle typu a směrovány do správných front.
Na základě pravidel, například podle dodavatele nebo výše částky, jsou data transformována do formátu požadovaného ERP. Po validaci jsou předána do workflow – v případě iNVOiCE FLOW to znamená automatické schvalování, generování upozornění na nesrovnalosti nebo přímý import do účetního systému.
Hlavním přínosem je nahrazení manuálních kroků automatizovanými a adaptivními procesy. Workflow v iNVOiCE FLOW začíná příjmem dokumentu, pokračuje AI extrakcí a validací, navazuje schvalovací tok a končí importem do ERP a archivací.
Díky tomu může jeden člověk dohlížet na objemy, které by dříve vyžadovaly celý tým. Ne proto, že by AI rozhodovala místo něj, ale proto, že odstranila rutinní a opakující se práci a nechala člověku prostor řešit výjimky a kontrolu.
V rámci spolupráce s GRiTem pracujete také na vývoji jejich AI asistenta. Jak je tento asistent navržený a jak bude fungovat v praxi?
Technicky je řešení postavené na architektuře zvané RAG – Retrieval‑Augmented Generation. AI od Citymindu není trénovaná na datech z celého internetu a je striktně omezená na informace konkrétní organizace, například GRiT.
Systém nejprve projde webové stránky, PDF dokumenty nebo interní materiály a rozdělí je na menší logické úseky. Každý z nich převede do vektorové podoby, která reprezentuje jeho význam. Při dotazu systém nejprve vyhledá nejrelevantnější části dat a teprve ty pošle jazykovému modelu s instrukcí, aby z nich odpověděl.
Díky tomuto přístupu jsou odpovědi vždy opřené o konkrétní zdroje a zpětně dohledatelné. Pro GRiT byl navíc implementován mechanismus, kdy asistent podle zadaného IČO rozpozná konkrétní firmu a zasadí odpověď do jejího kontextu – například vysvětlí, jak jí může GRiT pomoci s rychlejším tokem dat v rámci dodavatelského řetězce.
V GRiTu se na umělou inteligenci díváme jako na nástroj, který má pomáhat firmám zvládat práci s daty v každodenním provozu – od dokumentů přes objednávky až po návaznost celých procesů. Zajímá nás, jak technologie zrychlují tok dat, kde přinášejí větší přesnost a kde naopak musí zůstat prostor pro lidskou kontrolu a rozhodování. Pokud vás téma automatizace a toku dat zaujalo i z pohledu vaší firmy, ozvěte se nám.
Stáhněte si krátký checklist, který pomůže pojmenovat,
co ve skladu funguje a kde už narážíte na limity.