KI-Leistungsbewertung im Job — Hochrisiko nach Annex III | Hochrisiko-KI nach Annex III

Use-Case-Definition

Gegenstand dieser Page sind KI-Systeme, die die Leistung oder das Verhalten von Beschäftigten im laufenden Arbeitsverhältnis bewerten — also nach der Einstellung, nicht davor. Erfasst sind Systeme, die Produktivitätskennzahlen aggregieren und bewerten, Verkaufs- oder Bearbeitungszahlen gegen Zielprofile scoren, Kommunikations- und Aktivitätsmuster analysieren oder Beschäftigte in Ranglisten und Leistungskategorien einsortieren. Abzugrenzen ist der Use-Case vom CV-Screening vor Einstellung (eigene Page) und von reiner administrativer Zeiterfassung ohne Bewertungslogik. Ebenfalls abzugrenzen sind algorithmische Aufgabenzuweisung und Kündigungs-Empfehlungssysteme — sie berühren denselben Annex-III-Bereich, bilden aber jeweils eigene Use-Cases mit eigenem Pflichtenprofil.

Annex-III-Verortung

Der Use-Case ist in Annex III Nr. 4 des EU AI Act (Verordnung (EU) 2024/1689) verortet — dem Bereich „Beschäftigung, Personalmanagement und Zugang zur Selbstständigkeit". Der Wortlaut erfasst dort ausdrücklich KI-Systeme, die dazu bestimmt sind, Entscheidungen über Bedingungen von Arbeitsverhältnissen, über Beförderung oder Beendigung zu treffen, Aufgaben auf Grundlage individuellen Verhaltens oder persönlicher Eigenschaften zuzuweisen sowie die Leistung und das Verhalten von Personen in solchen Arbeitsverhältnissen zu überwachen und zu bewerten. KI-gestützte Performance-Bewertung fällt damit unmittelbar unter diesen Tatbestand — unabhängig davon, ob das System die personalrechtliche Entscheidung selbst trifft oder nur eine bewertende Grundlage dafür liefert.

Warum Hochrisiko

Performance-Bewertung durch KI greift in das Arbeitsverhältnis an seiner empfindlichsten Stelle ein: dort, wo über Einkommen, Aufstieg und Fortbestand der Beschäftigung entschieden wird. Drei Risiko-Mechanismen begründen die Einstufung als Hochrisiko.

Erstens der Diskriminierungs- und Verzerrungseffekt: Bewertungsmodelle lernen aus historischen Leistungsdaten, die selbst Produkt früherer — möglicherweise verzerrter — Beurteilungspraxis sind. Kennzahlen wie „bearbeitete Tickets pro Stunde" benachteiligen systematisch Teilzeitkräfte, Menschen mit Betreuungspflichten oder mit Behinderung, ohne dass ein geschütztes Merkmal je als Eingabevariable erscheint. Proxy-Variablen genügen.

Zweitens die Überwachungsintensität: Verhaltensbewertung setzt kontinuierliche Datenerfassung voraus — Bildschirmaktivität, Standort, Kommunikationsmetadaten. Dieser permanente Beobachtungsdruck berührt nicht nur Datenschutz, sondern auch Persönlichkeitsrecht und die psychische Integrität der Beschäftigten. Das Schutzgut ist hier breiter als bei der einmaligen Bewertung einer Bewerbung.

Drittens die Informationsasymmetrie und Skalierung: Beschäftigte können der Bewertungslogik im laufenden Verhältnis kaum ausweichen, und ein systematischer Bewertungsfehler wirkt nicht punktuell, sondern fortlaufend und über ganze Belegschaften hinweg. Genau diese Kombination aus Eingriffstiefe, Dauerhaftigkeit und struktureller Wirkung führt dazu, dass der EU AI Act solche Systeme nicht als gewöhnliche Datenverarbeitung, sondern als Hochrisiko-Anwendung mit eigenem Pflichtenkatalog behandelt.

Pflichten für Provider

Wer ein KI-System zur Leistungsbewertung entwickelt und unter eigenem Namen am EU-Markt anbietet, ist Provider im Sinne von Art. 3 EU AI Act und trägt den Hauptteil der Pflichten aus Kapitel III Abschnitt 2. Dazu zählen ein dokumentiertes Risikomanagement über den gesamten Lebenszyklus (Art. 9), Anforderungen an Daten und Daten-Governance (Art. 10), eine technische Dokumentation nach Annex IV (Art. 11), automatische Protokollierung (Art. 12), Transparenz- und Informationspflichten gegenüber Deployern (Art. 13), Vorkehrungen für wirksame menschliche Aufsicht (Art. 14) sowie Anforderungen an Genauigkeit, Robustheit und Cybersicherheit (Art. 15).

Praktisch heißt das für Bewertungs-Tools: Die Validität der zugrunde liegenden Metriken muss begründet und dokumentiert sein — eine Kennzahl, die nicht nachweislich Leistung misst, ist als Bewertungsgrundlage angreifbar. Die Modell-Performance ist nicht nur global, sondern entlang relevanter Beschäftigtengruppen zu evaluieren und zu dokumentieren. Vor Marktbereitstellung sind Konformitätsbewertung und CE-Kennzeichnung nach Art. 43, die Eintragung in die EU-Datenbank nach Art. 49 sowie ein Qualitätsmanagementsystem nach Art. 17 erforderlich.

Pflichten für Deployer

Der einsetzende Arbeitgeber ist Deployer und trägt eigene Pflichten aus Art. 26 EU AI Act: Betrieb gemäß Anbieter-Instruktionen, Betrauung qualifizierter Personen mit der menschlichen Aufsicht, Plausibilitätsprüfung der Eingabedaten, Protokollierung von Vorfällen und Aufbewahrung der automatisch erzeugten Logs. Bei Performance-Systemen ist die menschliche Aufsicht besonders heikel: Eine Führungskraft, die einen KI-Score nur abnickt, erfüllt die Anforderung an wirksame Aufsicht nach Art. 14 gerade nicht.

Hinzu treten flankierende Pflichten aus benachbartem Recht. In Deutschland ist die Einführung und Anwendung von Systemen zur Verhaltens- und Leistungsüberwachung nach § 87 Abs. 1 Nr. 6 BetrVG mitbestimmungspflichtig — der Betriebsrat ist zwingend zu beteiligen. Werden personalrechtliche Folgen ohne wesentliche menschliche Prüfung allein automatisiert abgeleitet, greift zusätzlich Art. 22 DSGVO. Information der Beschäftigten nach Art. 13/14 DSGVO und die Vorgaben des AGG (DE) bzw. GlBG (AT) bleiben unberührt; für CH-Provider auf EU-Märkten wirken DSG und arbeitsrechtliche Persönlichkeitsschutznormen faktisch fort. Öffentliche Stellen und Betreiber wesentlicher Dienste haben zudem die Grundrechte-Folgenabschätzung nach Art. 27 durchzuführen.

Was Audits prüfen

Metrik-Validität: Nachweis, dass die Bewertungskennzahlen tatsächlich Leistung abbilden und nicht bloß leicht messbare Surrogate.
Subgruppen-Evaluation: Dokumentierte Fairness-Auswertung entlang relevanter Beschäftigtengruppen, nicht nur globale Genauigkeit.
Human-Oversight-Nachweis: Belege, dass Bewertende den Score überstimmen können und dies real geschieht — nicht nur formal vorgesehen ist.
Logging & Nachvollziehbarkeit: Lückenlose Protokolle, die einzelne Bewertungen rekonstruierbar machen (Art. 12).
Daten-Governance: Herkunft, Aktualität und Zweckbindung der Verhaltens- und Leistungsdaten (Art. 10).
Mitbestimmungs- und Informationsspur: Betriebsrats-Beteiligung und Beschäftigten-Information dokumentiert.

Konforme Architektur

Eine konforme Implementierung trennt konzeptionell die datenerfassende Schicht, die bewertende Modellschicht und die personalrechtliche Entscheidungsschicht — und hält an jeder Grenze einen Kontroll- und Protokollpunkt vor. Die Erfassung beschränkt sich auf zweckgebundene, begründbare Signale statt flächendeckender Aktivitätsüberwachung. Das Modell liefert nachvollziehbare Teilbewertungen mit Begründungsmerkmalen, nicht nur einen opaken Gesamtscore, und schreibt jede Bewertung mit Version, Eingabe und Zeitstempel in ein revisionssicheres Log. Die Entscheidungsschicht ist so gestaltet, dass die menschliche Aufsicht Bewertungen einsehen, hinterfragen und übersteuern kann, mit dokumentierter Begründung bei Abweichung. Ein Subgruppen-Monitoring im Betrieb erkennt entstehende Verzerrungen früh, und ein definierter Update-Prozess stellt sicher, dass Modelländerungen erneut bewertet und dokumentiert werden.

Für die HR-spezifische Ausgestaltung von Risk Assessments und Aufsichts-Nachweisen liefert ki-hochrisiko.de passende Templates und Checklisten. Den Gesamtkontext des EU AI Act — Risikoklassen, Pflichtensystematik und das Forcing Event 02.12.2027 — vertieft der Leitfaden auf eu-ai-verordnung.de.

AEGIRA AI Navigator unterstützt die Risikoklassifizierung und Pflicht-Ableitung für Annex-III-Use-Cases — aegira.ai.