1. AI-systemen met een hoog risico die technieken gebruiken die het trainen van modellen met data omvatten, worden ontwikkeld op basis van datareeksen voor training, validatie en tests die voldoen aan de kwaliteitscriteria als bedoeld in de leden 2 tot en met 5. 2. Datareeksen voor training, validatie en tests worden onderworpen aan passende praktijken op het gebied van databeheer. Deze praktijken hebben in het bijzonder betrekking op: (a) de relevante ontwerpkeuzes; (b) dataverzameling; (c) relevante verwerkingsactiviteiten voor datavoorbereiding, zoals annotatie, etikettering, opschoning, verrijking en aggregatie; (d) het opstellen van relevante aannames, met name met betrekking tot de informatie die de data moeten meten en vertegenwoordigen; (e) een voorafgaande beoordeling van de beschikbaarheid, kwantiteit en geschiktheid van de datareeksen die nodig zijn; (f) een beoordeling met het oog op mogelijke vertekeningen; (g) het identificeren van eventuele mogelijke leemten of tekortkomingen in de data en de manier waarop deze leemten en tekortkomingen kunnen worden aangepakt. 3. Datareeksen voor training, validatie en tests zijn relevant, representatief, foutenvrij en volledig. De datareeksen hebben bovendien de passende statistische kenmerken, onder meer, waar van toepassing, met betrekking tot de personen of groepen personen waarvoor de AI-systemen met een hoog risico moeten worden gebruikt. Deze kenmerken van de datareeksen kunnen op het niveau van de afzonderlijke datareeksen of combinatie daarvan worden verwezenlijkt. 4. Ten aanzien van datareeksen voor training, validatie en tests wordt, voor zover vereist gezien het beoogde doel hiervan, rekening gehouden met de eigenschappen of elementen die specifiek zijn voor een bepaalde geografische, functionele of gedragsomgeving waarin het AI-systeem moet worden gebruikt. 5. Voor zover dit strikt noodzakelijk is om de monitoring, opsporing en correctie van vertekeningen te waarborgen in verband met de AI-systemen met een hoog risico, mogen de aanbieders van dergelijke systemen bijzondere categorieën persoonsgegevens, zoals bedoeld in artikel 9, lid 1, van Verordening (EU) 2016/679, artikel 10 van Richtlijn (EU) 2016/680 en artikel 10, lid 1, van Verordening (EU) 2018/1725, verwerken, mits passende waarborgen worden geboden voor de grondrechten en fundamentele vrijheden van natuurlijke personen, met inbegrip van technische beperkingen voor het hergebruik en het gebruik van ultramoderne beveiligings- en privacybeschermende maatregelen, zoals pseudonimisering of versleuteling wanneer anonimisering aanzienlijke gevolgen kan hebben voor het nagestreefde doel. 6. Voor de ontwikkeling van andere AI-systemen met een hoog risico dan systemen die gebruikmaken van technieken voor de training van modellen zijn passende praktijken voor databeheer van toepassing om ervoor te zorgen dat deze AI-systemen met een hoog risico in overeenstemming zijn met lid 2.
aiact/history/commission-2021/art/10 · 2021-04-21 (COM(2021) 206 final)