EU AI Act Art. 10 cere ca datele de training și mecanismele de remediere a bias-ului să fie documentate. ISO 42001 A.6.2.3-A.6.2.4 cere teste structurate de bias / fairness pe modelele de producție. Dar care metrici, ce threshold, când eșuează un test?
În acest articol trecem prin 5 metrici esențiale pe care orice echipă MLOps trebuie să le monitorizeze automat în producție. Cu threshold-uri standard, exemple de cazuri de eșec, și plan corectiv pentru fiecare.
1. Demographic Parity
Ce măsoară: ratia probabilităților de output pozitiv între două grupuri demografice (gen, vârstă, etnie, regiune).
Formula: P(approve | group A) / P(approve | group B). Threshold standard: ratio > 0.8 (cunoscut și ca regula 80% / four-fifths rule din US Equal Employment Opportunity).
Caz concret: credit scoring engine aprobă 70% din aplicații bărbați și 56% din aplicații femei. Ratio = 0.56 / 0.70 = 0.80. Pe limită — necesită investigare.
Plan corectiv tipic: rebalansare training data, post-processing al output-urilor, reweighting pentru grupul subreprezentat.
2. Equal Opportunity (Equalized TPR)
Ce măsoară: True Positive Rate (sensitivity) între grupuri. Spre deosebire de Demographic Parity care nu ia în calcul label-ul real, Equal Opportunity asigură că modelul detectează la fel de bine pozitivii reali din toate grupurile.
Formula: TPR(group A) / TPR(group B). Threshold standard: ratio > 0.8.
Caz concret: sistem de detectare fraudă cu TPR 92% pentru tranzacții în România și 65% pentru tranzacții din Europa de Est. Ratio = 0.71 — sub threshold. Aplicanți legitim sunt blocați disproporționat.
Plan corectiv: oversampling pentru grupul subreprezentat în training set, threshold tuning per grup, monitorizare continuă.
3. Adversarial Robustness
Ce măsoară: acuratețea modelului pe input-uri adversariale construite intenționat să-l păcălească (FGSM, PGD attacks, prompt injection pentru LLM).
Threshold standard: degradare maximă acceptabilă a acurateței: 5-10% sub baseline-ul pe date normale.
Caz concret: sistem OCR pentru ID-uri cu acuratețe 96% pe input curat. Pe input adversarial (perturbare subtilă a imaginii) acuratețea cade la 78%. Diferență 18% — peste threshold.
Plan corectiv: adversarial training, input validation cu detectare anomalii, randomized smoothing.
4. Population Stability Index (PSI) — Drift
Ce măsoară: stabilitatea distribuției datelor în producție comparativ cu distribuția din training. Un PSI mare semnalează că modelul rulează pe date diferite față de cele cu care a fost antrenat.
Threshold standard: PSI < 0.05 — stabil. PSI 0.05-0.1 — atenție. PSI > 0.1 — drift semnificativ, retraining necesar.
Caz concret: model de fraud detection antrenat pe pattern-uri pre-pandemie. După 2 ani de producție, PSI urcă la 0.18 — distribuția tranzacțiilor a evoluat semnificativ. Modelul nu mai e calibrat.
Plan corectiv: retraining periodic (quarterly minim pentru sisteme high-risk), monitoring continuu cu alertă automată la PSI > 0.07.
5. Refusal Rate / Unable to Predict
Ce măsoară: procentul cazurilor în care modelul refuză să dea un răspuns (sau dă unul cu confidence foarte mic). Aplicabil în special pentru chatbot-uri LLM și sisteme de classificate.
Threshold standard: < 5% pentru sisteme operaționale. > 8% indică probleme — fie modelul e prea conservator (refuză cazuri legitime), fie design-ul prompt-ului blochează cazuri valide.
Caz concret: chatbot suport refuză 12% din întrebări legitime din cauza unui guardrail prea agresiv pe topics financiare. Clienții se enervează și escaladează.
Plan corectiv: tune system prompt, few-shot examples mai relevante, review săptămânal feedback agenți, A/B test cu prompt nou.
Cum implementezi monitoring-ul în producție
Trei niveluri de maturitate:
- Manual cu Excel (nivel inițial): un data scientist rulează test-urile o dată pe trimestru, postează rezultate în Slack. Nesustainable la scară.
- CI/CD pipeline (nivel intermediar): test-urile rulează la fiecare deployment, blocheaza release-ul dacă eșuează. Bun pentru pre-prod.
- Production monitoring continuu (nivel matur): metrici calculate live pe trafic real, alertare automată în Slack/PagerDuty la depășire threshold, dashboard executiv cu trend săptămânal.
Conformitate cu ISO 42001 + EU AI Act
Cele 5 metrici de mai sus mapează direct pe:
- ISO 42001 A.6.2.3 — Training and Testing AI Model
- ISO 42001 A.6.2.4 — Verification and Validation
- ISO 42001 A.6.2.6 — Operation and Monitoring
- EU AI Act Art. 10 — Data și Data Governance (inclusiv bias examination)
- EU AI Act Art. 15 — Accuracy, Robustness, Cybersecurity
La auditul ISO 42001, auditorul cere dovezi că:
- Test-urile rulează cu cadență definită (continuous, daily, weekly, monthly)
- Threshold-urile sunt documentate și aprobate de Risk Committee
- Pentru fiecare test eșuat, există plan corectiv documentat și urmărit până la închidere
- Severitatea (Critical / High / Medium / Low) este atribuită și comunicată stakeholder-ilor
Cum facem noi în platforma ISO 42001
Modulul „Bias / Fairness Tests" din platformă rulează automat cele 5 metrici, le calculează la fiecare run, ridică alertă pe Slack/email la depășire threshold și deschide automat un task de plan corectiv în modulul Incidents.
Pachetul Professional (2.990 EUR/an) include monitoring continuu cu alertare. Vezi pachetele complete sau verifică în 10 min unde stai cu EU AI Act.