Data governance pro AI/ML projekty: Právní aspekty sběru, zpracování a uchování trénovacích dat.

6.8.2025 | ARROWS advokátní kancelář

Umělá inteligence (AI) je klíčovou součástí obchodních strategií, ale její základ – obrovské množství trénovacích dat – představuje komplexní právní riziko. Tento článek vás provede klíčovými povinnostmi dle nového nařízení EU o umělé inteligenci (AI Act) a GDPR. Ukážeme vám, jak se vyhnout pokutám až 35 milionů EUR a přeměnit právní soulad ve vaši strategickou výhodu.

Autor článku: ARROWS advokátní kancelář (Mgr. Petr Hanzel, LL.M., office@arws.cz, +420 245 007 740)

Obsah článku

Zlatý důl, nebo minové pole? Proč je správa trénovacích dat pro AI klíčová
AI Act je tady: Co nová evropská pravidla znamenají pro vaše AI projekty?
Spadá váš AI systém do kategorie "vysokého rizika”?
Co přesně požaduje článek 10 AI Actu po vašich datech?
GDPR a umělá inteligence: Jak trénovat modely bez porušení ochrany osobních údajů?
Můžete volně "scrapovat" internet? Autorská práva a trénovací data
Praktické hrozby a jejich řešení s ARROWS
Jak vám ARROWS pomůže nastavit bezpečnou a efektivní data governance?

Zlatý důl, nebo minové pole? Proč je správa trénovacích dat pro AI klíčová

V digitální ekonomice jsou data novým zlatem. Pro umělou inteligenci to platí dvojnásob. Kvalita, přesnost a relevance trénovacích dat přímo ovlivňují výkon a spolehlivost vašich AI modelů, což se promítá do lepších obchodních rozhodnutí a inovativních produktů. Data však nejsou jen cenným aktivem; představují také významný zdroj právní odpovědnosti. Bez pečlivého řízení se mohou rychle stát minovým polem plným rizik.

Právě zde vstupuje do hry data governance. Nejedná se o pouhý technický úkol pro IT oddělení, ale o strategický rámec na úrovni vedení společnosti, který definuje, jak vaše organizace získává, spravuje, používá a zabezpečuje svá data. Tento rámec je postaven na základních principech, jako je kvalita dat, ochrana soukromí, bezpečnost, transparentnost a soulad s právními předpisy.

Ignorování těchto principů může mít vážné následky. Mezi hlavní rizika patří narušení bezpečnosti, zneužití citlivých informací a – což je pro AI obzvláště kritické – neúmyslné posilování a šíření systémových předsudků (bias) a diskriminace. Pokud je AI model trénován na historických datech, která odrážejí společenské předsudky, bude tyto předsudky nejen reprodukovat, ale i zesilovat ve svých rozhodnutích, což vaši společnost vystavuje riziku diskriminačních žalob a poškození reputace.

Efektivní data governance je tedy základním předpokladem pro úspěšnou a bezpečnou implementaci AI. Nejde jen o "dobrou praxi", ale o nutnost. Nové právní předpisy, jako je AI Act, v podstatě kodifikují mnohé z těchto principů do podoby zákonných povinností. Investice do robustní data governance se tak stává přímou cestou k dosažení právní jistoty a minimalizaci rizik. Právníci v ARROWS vám pomohou tento rámec nastavit tak, aby vaše data byla skutečným zlatým dolem, nikoli zdrojem problémů.

AI Act je tady: Co nová evropská pravidla znamenají pro vaše AI projekty?

Evropská unie přijala historicky první komplexní právní úpravu umělé inteligence na světě – tzv. AI Act. Toto nařízení není jen další administrativní zátěží; představuje zásadní změnu pravidel hry pro každou společnost, která vyvíjí, nasazuje nebo využívá AI systémy v rámci EU. Cílem AI Actu je zajistit, aby byly AI systémy bezpečné, transparentní, nediskriminační a pod lidským dohledem. Pro firmy to znamená nové povinnosti, jejichž jádro leží právě ve správě dat.

Spadá váš AI systém do kategorie "vysokého rizika”?

AI Act zavádí přístup založený na riziku a dělí AI systémy do čtyř kategorií: nepřijatelné riziko (tyto systémy jsou zakázány), vysoké riziko, omezené riziko a minimální riziko. Pro většinu komerčních aplikací je nejdůležitější pochopit, zda jejich systém spadá do kategorie "vysokého rizika", protože právě na ni se vztahují nejpřísnější povinnosti.

Mezi vysoce rizikové systémy patří například ty, které se používají v následujících oblastech relevantních pro firemní klientelu:

Nábor a řízení zaměstnanců: Software pro automatické třídění životopisů (CV-sorting) nebo nástroje pro hodnocení výkonu zaměstnanců.
Poskytování úvěrů a pojištění: Systémy pro hodnocení úvěruschopnosti (credit scoring), které mohou občanům znemožnit získání půjčky.
Řízení kritické infrastruktury: AI komponenty v dopravě, energetice nebo vodním hospodářství, jejichž selhání by mohlo ohrozit životy a zdraví lidí.
Vzdělávání: Nástroje, které mohou ovlivnit přístup ke vzdělání, například systémy pro hodnocení zkoušek.

Pokud váš AI projekt spadá do jedné z těchto (nebo dalších v nařízení uvedených) kategorií, musíte splnit přísné požadavky ještě před uvedením systému na trh. Právníci v ARROWS vám pomohou provést klasifikaci vašeho AI systému a určit, jaké konkrétní povinnosti se na vás vztahují.

Co přesně požaduje článek 10 AI Actu po vašich datech?

Srdcem datových povinností pro vysoce rizikové systémy je článek 10 AI Actu. Ten nestanovuje vágní doporučení, ale konkrétní a vymahatelné požadavky na data governance. Shoda s článkem 10 není jednorázový úkon, ale dynamický proces, který musí být integrován do celého životního cyklu vývoje AI – od sběru dat až po nasazení a monitorování modelu.

Vaše postupy pro správu trénovacích, validačních a testovacích dat musí zahrnovat především:

Pečlivý návrh a sběr dat: Musíte zdokumentovat své návrhové volby, původ dat a v případě osobních údajů i původní účel jejich sběru. Nestačí data jen "mít", musíte prokázat, že jste je získali a navrhli pro daný účel promyšleně.
Kvalitní příprava dat: Zákon vyžaduje zavedení relevantních postupů přípravy dat, jako je anotace (annotation), označování (labelling), čištění, obohacování a agregace. Tyto technické kroky se stávají předmětem právního přezkumu.
Aktivní zmírňování předsudků (bias mitigation): Máte zákonnou povinnost zkoumat datové soubory z hlediska možných předsudků, které by mohly negativně ovlivnit zdraví, bezpečnost, základní práva nebo vést k diskriminaci. Nestačí předsudky jen identifikovat; musíte přijmout "přiměřená opatření k jejich odhalení, prevenci a zmírnění".
Relevance a reprezentativnost: Datové soubory musí být relevantní, dostatečně reprezentativní, a v maximální možné míře přesné a úplné s ohledem na zamýšlený účel. Musí odrážet specifické geografické, kontextové nebo funkční prostředí, ve kterém má být systém používán.

Splnění těchto požadavků vyžaduje vytvoření robustní interní dokumentace, která prokáže shodu při případné kontrole. Advokátní kancelář ARROWS se specializuje na přípravu těchto klíčových dokumentů, včetně vyhotovení interních směrnic pro data governance a přípravy veškerých podkladů stanovených zákonem, které vás ochrání před sankcemi.

Mnoho firem se mylně domnívá, že AI Act nahrazuje stávající pravidla ochrany osobních údajů. Opak je pravdou. AI Act a Obecné nařízení o ochraně osobních údajů (GDPR) fungují souběžně. Pokud vaše trénovací data obsahují jakékoliv informace týkající se identifikovaných nebo identifikovatelných fyzických osob, vztahuje se na vás povinnost souběžného dodržování obou předpisů.

Největší výzvou v kontextu GDPR je nalezení platného právního základu pro zpracování obrovského množství osobních údajů, které jsou pro trénování AI modelů nezbytné. Zatímco v některých případech lze získat souhlas, pro rozsáhlé datové sady je to často nepraktické. Proto se pozornost upírá na právní základ "oprávněného zájmu" správce.

Abyste se mohli na oprávněný zájem spolehnout, musíte provést a pečlivě zdokumentovat tzv. balanční test, který má tři kroky:

Identifikace oprávněného zájmu: Musíte jasně definovat, jaký je váš legitimní, konkrétní a skutečný zájem (např. vývoj AI pro detekci podvodů, zlepšení zákaznické zkušenosti).
Posouzení nezbytnosti: Musíte prokázat, že zpracování daných osobních údajů je pro dosažení tohoto zájmu nezbytné a že neexistuje méně invazivní alternativa.
Provedení balančního testu: Musíte pečlivě zvážit, zda váš oprávněný zájem nepřevažuje nad právy a svobodami dotčených osob. Zde se zohledňují faktory jako povaha údajů, očekávání subjektů údajů a možný dopad na jejich soukromí.

Tento proces je komplikován technickými riziky, jako je "regurgitace" (model náhodně "vyzradí" konkrétní data, na kterých byl trénován) a "inference" (možnost odvodit citlivé informace o jednotlivci z výstupů modelu). Tato rizika znamenají, že úplná anonymizace dat je téměř nedosažitelná, a proto je nutné k nim přistupovat jako k osobním údajům.

Existuje zde zjevné napětí: AI vyžaduje co nejvíce dat pro dosažení přesnosti, zatímco GDPR prosazuje princip minimalizace dat. Překlenutí této mezery vyžaduje sofistikovanou právní argumentaci, kterou podporují i stanoviska evropských úřadů, jako je francouzský CNIL.

Právníci v ARROWS mají rozsáhlé zkušenosti s přípravou robustních posouzení oprávněného zájmu (LIA) a posouzení vlivu na ochranu osobních údajů (DPIA), což jsou klíčové dokumenty pro obhajobu vašich postupů před regulátory.

Obraťte se na naše odborníky:

JUDr. Jakub Dohnal, Ph.D., LL.M.

advokát, řídící partner

dohnal@arws.cz

Mgr. Petr Hanzel, LL.M.

advokát

hanzel@arws.cz

Klíčová právní rizika při správě trénovacích dat pro AI

Následující tabulka shrnuje nejčastější právní rizika, se kterými se společnosti při práci s trénovacími daty pro AI setkávají, a ukazuje, jak konkrétně může advokátní kancelář ARROWS pomoci tato rizika řídit.

Riziko k řešení	Potenciální problémy a sankce	Jak pomáhá ARROWS
Použití nekvalitních nebo zkreslených dat pro vysoce rizikový AI systém	Pokuty dle AI Act (až 15 mil. EUR nebo 3 % obratu), nařízení stáhnout systém z trhu, selhání produktu, poškození reputace.	Právní audit datových sad a implementace procesů data governance v souladu s Článkem 10 AI Actu.
Zpracování osobních údajů pro trénink AI bez platného právního základu	Pokuty dle GDPR (až 20 mil. EUR nebo 4 % obratu), nařízení vymazat data a přetrénovat model od nuly, žaloby od subjektů údajů.	Příprava robustního posouzení oprávněného zájmu (LIA) a posouzení vlivu na ochranu osobních údajů (DPIA).
Neúmyslný únik osobních údajů z natrénovaného modelu (regurgitace/inference)	Pokuty dle GDPR, civilní žaloby od poškozených osob, vážné poškození důvěry zákazníků a obchodních partnerů.	Právní konzultace k implementaci vhodných technických a organizačních opatření (např. pseudonymizace, šifrování, filtrování výstupů).
Použití dat chráněných autorským právem (texty, obrázky) bez licence	Žaloby pro porušení autorských práv, náhrada škody, soudní příkaz zakazující používání modelu a jeho stažení z trhu.	Analýza zdrojů dat, revize licenčních podmínek a právní stanoviska k použitelnosti výjimky pro Text and Data Mining (TDM).
Nezákonný přenos trénovacích dat do cloudového úložiště v USA	Pozastavení datových toků ze strany úřadu pro ochranu údajů, pokuty, narušení klíčových obchodních a vývojových procesů.	Strukturování mezinárodních datových transferů pomocí EU-U.S. DPF, standardních smluvních doložek (SCCs) a provedení posouzení dopadu přenosu (TIA).
Diskriminační výstupy AI systému kvůli zkresleným trénovacím datům	Žaloby pro diskriminaci (v náboru, pojišťovnictví), vyšetřování ze strany regulátorů, poškození značky zaměstnavatele.	Revize interních politik pro testování a monitorování biasu; návrh rámců pro "fairness-by-design".
Nedostatečná dokumentace pro prokázání shody s AI Actem při auditu	Neschopnost prokázat soulad, což vede k pokutám a nařízení k zastavení provozu systému, i když by jinak mohl být v souladu.	Komplexní příprava veškeré technické a právní dokumentace vyžadované nařízením AI Act.

Můžete volně "scrapovat" internet? Autorská práva a trénovací data

Jednou z nejčastějších otázek, které si firmy kladou, je: "Můžeme pro trénování naší AI použít data, která jsou volně dostupná na internetu?" Odpověď je složitější než prosté "ano" nebo "ne" a leží v oblasti autorského práva. Většina obsahu na internetu – texty, obrázky, videa – je chráněna autorským právem, a jejich kopírování pro účely trénování AI může představovat jeho porušení.

Evropská unie se snažila tuto problematiku řešit zavedením výjimky pro Text and Data Mining (TDM) ve Směrnici o autorském právu na jednotném digitálním trhu. TDM je definováno jako automatizovaná analytická technika pro analýzu textů a dat v digitální podobě za účelem generování informací, což přesně odpovídá procesu trénování mnoha AI modelů.

Směrnice zavedla dvě klíčové výjimky:

Širokou výjimku pro vědecký výzkum prováděný výzkumnými organizacemi.
Omezenější výjimku pro jakékoliv jiné účely, včetně komerčních.

Právě druhá výjimka je pro firmy klíčová, ale obsahuje zásadní háček: držitelé práv si mohou výslovně vyhradit práva na TDM a tím se z této výjimky "odhlásit" (opt-out). Toto odhlášení musí být provedeno strojově čitelným způsobem, například prostřednictvím metadat, v obchodních podmínkách webu nebo v souboru robots.txt.

Pro vaši firmu to znamená, že nemůžete bezmyšlenkovitě stahovat a zpracovávat obsah celého internetu. Před použitím dat z jakéhokoliv zdroje musíte zavést proces pro kontrolu, zda si držitel práv nevyhradil práva na TDM. U rozsáhlých datových sad to představuje značnou provozní a právní zátěž.

Vytvoření strategie pro získávání dat, která zohledňuje tato rizika, je naprosto zásadní. ARROWS vám může pomoci s přípravou a revizí smluv s dodavateli dat a poskytnout právní stanoviska k vaší strategii sběru dat, aby byla v souladu s autorským právem.

Data na cestách: Jak legálně trénovat AI v amerických cloudech?

Většina společností dnes pro vývoj a provoz svých technologií, včetně AI, využívá globální cloudové platformy jako Amazon Web Services (AWS), Google Cloud nebo Microsoft Azure. To nevyhnutelně znamená, že data, včetně těch trénovacích, jsou často přenášena a zpracovávána ve Spojených státech. Tento přeshraniční přenos osobních údajů z EU do USA je však pod přísnou právní kontrolou.

Situaci zkomplikovalo rozhodnutí Soudního dvora EU ve věci Schrems II, které v roce 2020 zneplatnilo předchozí mechanismus "Privacy Shield" kvůli obavám z přístupu amerických zpravodajských služeb k datům evropských občanů. To vytvořilo období velké právní nejistoty.

Novým řešením je EU-U.S. Data Privacy Framework (DPF), který byl přijat v roce 2023. Tento rámec umožňuje zjednodušený přenos osobních údajů z EU do amerických organizací, které se k tomuto rámci certifikovaly a zavázaly se dodržovat jeho principy. Většina velkých cloudových poskytovatelů, včetně AWS, je již certifikována, což usnadňuje mnoho standardních transferů.

Je však klíčové si uvědomit, že DPF není univerzálním řešením. Váš AI projekt může zahrnovat celý dodavatelský řetězec – specializovanou firmu na anotaci dat, externího validátora modelů nebo nezávislé datové vědce.

Pokud některý z těchto partnerů v USA není certifikován v rámci DPF, musíte se spolehnout na starší, administrativně náročnější mechanismy, jako jsou Standardní smluvní doložky (SCCs), které musí být doplněny o Posouzení dopadu přenosu (Transfer Impact Assessment – TIA).

Díky naší mezinárodní síti ARROWS International, budované více než deset let, řešíme problematiku přeshraničních datových transferů na denní bázi. Ať už jde o využití DPF, implementaci SCCs nebo strukturování složitých datových toků napříč jurisdikcemi, poskytujeme našim klientům globální právní jistotu.

Praktické hrozby a jejich řešení s ARROWS

Nedodržování právních předpisů nemá za následek jen pokuty. Může vést ke katastrofickým obchodním dopadům, které ohrozí vaše investice, reputaci a samotnou existenci vašeho AI projektu. Tato tabulka ukazuje reálné hrozby na úrovni vedení firmy a konkrétní způsoby, jak vám ARROWS pomůže je odvrátit.

Riziko k řešení	Potenciální obchodní dopady	Jak pomáhá ARROWS
Regulační zastavení klíčového AI projektu	Zmařené investice do výzkumu a vývoje, ztráta konkurenční výhody, úplné narušení obchodní strategie.	Proaktivní audit a zastupování ve správních řízeních s cílem předejít nebo zmírnit regulační zásah.
Hromadné žaloby od zákazníků nebo zaměstnanců poškozených zkreslenou AI	Obrovské finanční závazky z titulu náhrady škody, vysoké náklady na soudní spory, negativní publicita a poškození značky.	Obrana v soudních sporech a strategické poradenství při navrhování spravedlivějších systémů pro minimalizaci odpovědnosti.
"AI-washing" – nepravdivá tvrzení o schopnostech AI	Pokuty od orgánů na ochranu spotřebitele (např. FTC v USA), ztráta důvěry investorů, poškození reputace a obvinění z klamavé reklamy.	Revize veškerých marketingových materiálů, veřejných prohlášení a komunikace s investory, aby byla tvrzení právně obhajitelná.
Poškození reputace v důsledku selhání AI nebo úniku dat	Odchod zákazníků, potíže při náboru špičkových talentů, pokles hodnoty značky a ztráta důvěry na trhu.	Právní podpora v krizovém řízení a vývoj transparentních komunikačních strategií pro zvládnutí situace.
Zneplatnění duševního vlastnictví (např. natrénovaného modelu) kvůli nelegálním zdrojům dat	Klíčové aktivum společnosti je právně bezcenné a nelze jej chránit, prodat ani licencovat. Celá investice je ztracena.	Due diligence datových dodavatelských řetězců a strategické poradenství při zajišťování práv duševního vlastnictví k aktivům vytvořeným AI.
Osobní odpovědnost ředitelů a jednatelů	Finanční postihy, profesní diskvalifikace a v závažných případech i trestní stíhání za hrubé porušení povinností.	Poskytování odborných školení pro vedení o jejich povinnostech a odpovědnosti; nastavení robustních interních systémů řízení a odpovědnosti.

Jak vám ARROWS pomůže nastavit bezpečnou a efektivní data governance?

Umělá inteligence přináší obrovské příležitosti, ale cesta k jejich využití je dlážděna komplexními a vzájemně propojenými právními riziky. Nesprávný krok v oblasti správy dat může ohrozit celou vaši investici. Investice do právního souladu v oblasti AI není nákladem, ale strategickou investicí do konkurenční výhody. Společnost, která buduje své inovace na pevných právních základech, se může pohybovat rychleji, přitahovat více investic a budovat hlubší důvěru u zákazníků.

V ARROWS chápeme jak technické, tak právní aspekty AI. Naše zkušenosti z dlouhodobého poskytování služeb pro více než 150 akciových společností, 250 s.r.o. a 51 obcí a krajů nám dávají jedinečný vhled do praktických výzev, kterým firmy čelí.

Poskytujeme komplexní právní podporu pro celý životní cyklus vašeho AI projektu:

Vyhotovení interních směrnic, které implementují požadavky AI Actu a GDPR do vašich každodenních procesů.
Příprava kompletní dokumentace, která je nezbytná pro prokázání souladu při auditu.
Právní konzultace pro navigaci v šedých zónách, jako je oprávněný zájem nebo TDM.
Příprava a revize smluv s dodavateli cloudu, dat a technologií.
Zastupování u soudů a správních orgánů, pokud čelíte kontrole nebo sporu.
Odborná školení pro vaše zaměstnance a vedení, abyste vybudovali firemní kulturu založenou na právní jistotě a odpovědnosti.

Navíc věříme v propojování našich klientů. Pokud máte zajímavé obchodní nebo investiční příležitosti, rádi vás propojíme s dalšími subjekty v naší rozsáhlé síti.

Nečekejte, až se problémy objeví. Kontaktujte nás ještě dnes a domluvte si úvodní konzultaci. Pomůžeme vám přeměnit právní soulad v konkurenční výhodu a zajistit, že vaše AI projekty budou bezpečné, udržitelné a připravené na budoucí regulace.

Upozornění: Informace obsažené v tomto článku mají pouze obecný informativní charakter a slouží k základní orientaci v problematice. Ačkoliv dbáme na maximální přesnost obsahu, právní předpisy a jejich výklad se v čase vyvíjejí. Pro ověření aktuálního znění předpisů a jejich aplikace na vaši konkrétní situaci je proto nezbytné kontaktovat přímo ARROWS advokátní kancelář (office@arws.cz). Neneseme žádnou odpovědnost za případné škody či komplikace vzniklé samostatným užitím informací z tohoto článku bez naší předchozí individuální právní konzultace a odborného posouzení. Každý případ vyžaduje řešení na míru, proto nás neváhejte oslovit.