Bias detectat în AI: 5 metrici pe care orice MLOps trebuie să le monitorizeze

EU AI Act Art. 10 cere ca datele de training și mecanismele de remediere a bias-ului să fie documentate. ISO 42001 A.6.2.3-A.6.2.4 cere teste structurate de bias / fairness pe modelele de producție. Dar care metrici, ce threshold, când eșuează un test?

În acest articol trecem prin 5 metrici esențiale pe care orice echipă MLOps trebuie să le monitorizeze automat în producție. Cu threshold-uri standard, exemple de cazuri de eșec, și plan corectiv pentru fiecare.

1. Demographic Parity

Ce măsoară: ratia probabilităților de output pozitiv între două grupuri demografice (gen, vârstă, etnie, regiune).

Formula: P(approve | group A) / P(approve | group B). Threshold standard: ratio > 0.8 (cunoscut și ca regula 80% / four-fifths rule din US Equal Employment Opportunity).

Caz concret: credit scoring engine aprobă 70% din aplicații bărbați și 56% din aplicații femei. Ratio = 0.56 / 0.70 = 0.80. Pe limită — necesită investigare.

Plan corectiv tipic: rebalansare training data, post-processing al output-urilor, reweighting pentru grupul subreprezentat.

2. Equal Opportunity (Equalized TPR)

Ce măsoară: True Positive Rate (sensitivity) între grupuri. Spre deosebire de Demographic Parity care nu ia în calcul label-ul real, Equal Opportunity asigură că modelul detectează la fel de bine pozitivii reali din toate grupurile.

Formula: TPR(group A) / TPR(group B). Threshold standard: ratio > 0.8.

Caz concret: sistem de detectare fraudă cu TPR 92% pentru tranzacții în România și 65% pentru tranzacții din Europa de Est. Ratio = 0.71 — sub threshold. Aplicanți legitim sunt blocați disproporționat.

Plan corectiv: oversampling pentru grupul subreprezentat în training set, threshold tuning per grup, monitorizare continuă.

3. Adversarial Robustness

Ce măsoară: acuratețea modelului pe input-uri adversariale construite intenționat să-l păcălească (FGSM, PGD attacks, prompt injection pentru LLM).

Threshold standard: degradare maximă acceptabilă a acurateței: 5-10% sub baseline-ul pe date normale.

Caz concret: sistem OCR pentru ID-uri cu acuratețe 96% pe input curat. Pe input adversarial (perturbare subtilă a imaginii) acuratețea cade la 78%. Diferență 18% — peste threshold.

Plan corectiv: adversarial training, input validation cu detectare anomalii, randomized smoothing.

4. Population Stability Index (PSI) — Drift

Ce măsoară: stabilitatea distribuției datelor în producție comparativ cu distribuția din training. Un PSI mare semnalează că modelul rulează pe date diferite față de cele cu care a fost antrenat.

Threshold standard: PSI < 0.05 — stabil. PSI 0.05-0.1 — atenție. PSI > 0.1 — drift semnificativ, retraining necesar.

Caz concret: model de fraud detection antrenat pe pattern-uri pre-pandemie. După 2 ani de producție, PSI urcă la 0.18 — distribuția tranzacțiilor a evoluat semnificativ. Modelul nu mai e calibrat.

Plan corectiv: retraining periodic (quarterly minim pentru sisteme high-risk), monitoring continuu cu alertă automată la PSI > 0.07.

5. Refusal Rate / Unable to Predict

Ce măsoară: procentul cazurilor în care modelul refuză să dea un răspuns (sau dă unul cu confidence foarte mic). Aplicabil în special pentru chatbot-uri LLM și sisteme de classificate.

Threshold standard: < 5% pentru sisteme operaționale. > 8% indică probleme — fie modelul e prea conservator (refuză cazuri legitime), fie design-ul prompt-ului blochează cazuri valide.

Caz concret: chatbot suport refuză 12% din întrebări legitime din cauza unui guardrail prea agresiv pe topics financiare. Clienții se enervează și escaladează.

Plan corectiv: tune system prompt, few-shot examples mai relevante, review săptămânal feedback agenți, A/B test cu prompt nou.

Cum implementezi monitoring-ul în producție

Trei niveluri de maturitate:

Manual cu Excel (nivel inițial): un data scientist rulează test-urile o dată pe trimestru, postează rezultate în Slack. Nesustainable la scară.
CI/CD pipeline (nivel intermediar): test-urile rulează la fiecare deployment, blocheaza release-ul dacă eșuează. Bun pentru pre-prod.
Production monitoring continuu (nivel matur): metrici calculate live pe trafic real, alertare automată în Slack/PagerDuty la depășire threshold, dashboard executiv cu trend săptămânal.

Conformitate cu ISO 42001 + EU AI Act

Cele 5 metrici de mai sus mapează direct pe:

ISO 42001 A.6.2.3 — Training and Testing AI Model
ISO 42001 A.6.2.4 — Verification and Validation
ISO 42001 A.6.2.6 — Operation and Monitoring
EU AI Act Art. 10 — Data și Data Governance (inclusiv bias examination)
EU AI Act Art. 15 — Accuracy, Robustness, Cybersecurity

La auditul ISO 42001, auditorul cere dovezi că:

Test-urile rulează cu cadență definită (continuous, daily, weekly, monthly)
Threshold-urile sunt documentate și aprobate de Risk Committee
Pentru fiecare test eșuat, există plan corectiv documentat și urmărit până la închidere
Severitatea (Critical / High / Medium / Low) este atribuită și comunicată stakeholder-ilor

Cum facem noi în platforma ISO 42001

Modulul „Bias / Fairness Tests" din platformă rulează automat cele 5 metrici, le calculează la fiecare run, ridică alertă pe Slack/email la depășire threshold și deschide automat un task de plan corectiv în modulul Incidents.

Pachetul Professional (2.990 EUR/an) include monitoring continuu cu alertare. Vezi pachetele complete sau verifică în 10 min unde stai cu EU AI Act.