Was ist algorithmische Voreingenommenheit (Algorithmic Bias)?

Benötigte Lesezeit: 7 Minuten

Algorithmische Vorurteile entstehen durch fehlerhafte Daten und/oder deren Verarbeitung. Sie können die Diskriminierung von bestimmten Personengruppen oder Minderheiten durch intelligente Systeme verursachen. Ein Beispiel ist die Benachteiligung von Bewerberinnen im Rahmen eines maschinellen Auswahlverfahrens. Doch wie kommt es zu fehlerhaften Daten?

Maschinelles Lernen und Algorithmen sind heute die Grundlage für Entscheidungen, die Einzelschicksale oder ganze Bevölkerungsgruppen beeinflussen. Intelligente Assistenten kalkulieren die Eignung von Bewerbern, analysieren den effizientesten Fahrweg oder Hindernisse für selbstfahrende Autos und identifizieren Krebs auf Röntgenbildern. Daten sind das Blut in den Adern solcher Maschinen: Sie sind die Grundlage für selbstlernende Systeme sowie ultimative Vorlage für alle späteren Kalkulationen und Empfehlungen.

Was ist maschinelles Lernen?

Denn moderne Lernalgorithmen nutzen vorgegebene Informationssammlungen (z.B. Texte oder Bilder) um darin Muster oder logische Verbindungen zu erkennen und Gesetzmäßigkeiten offenzulegen, auf die sich spätere Entscheidungen stützen können. Sie lernen anhand von Beispielen. Ein Algorithmus ist demnach nur so gut, wie die Informationen auf deren Grundlage er arbeitet. Eben dieser Umstand wird mit der voranschreitenden Verbreitung des maschinellen Lernens zur Herausforderung.

“Ein Algorithmus ist jedoch nur so gut wie die Daten, mit denen er arbeitet.”

(aus dem Englischen, Barocas/Selbst)

 

Diskriminierung durch intelligente Systeme 

Denn Daten werden durch den Menschen generiert und verarbeitet und sind ebenso wie deren Erzeuger – nicht perfekt. Sie spiegeln z.B. weit verbreitete Vorurteile wider oder erfassen nur bestimmte Personengruppen. Arbeitet ein intelligentes System auf der Grundlage eines solchen Datensatzes, ist das Ergebnis oft Diskriminierung.

“Algorithmische Vorurteile treten auf, wenn ein Computersystem die impliziten Werte der Menschen widerspiegelt, die am Codieren, Sammeln, Auswählen oder Verwenden von Daten zum Trainieren des Algorithmus beteiligt sind.”

(aus dem Englischen, Wikipedia)

 

Es gibt zahlreiche Beispiele, die diese Herausforderung belegen. Fast alle großen Tech-Unternehmen, die mit KI arbeiten, begegneten dem Problem bereits. So identifizierte im Jahr 2015 ein Algorithmus von Google, Menschen mit dunkler Hautfarbe als Gorillas. Im Oktober 2018 machte Amazon Schlagzeilen, da ein intelligentes System Bewerbungen aussortierte, welche die Worte “Frauen” oder “Frauen College” enthielten.

Welche ernstzunehmenden Folgen algorithmische Voreingenommenheit z.B. in der Bilderkennung haben kann, demonstriert Informatikerin Joy Boulamwini.

[youtube https://www.youtube.com/watch?v=KB9sI9rY3cA&w=560&h=315]

 

Es bleibt der eigenen Vorstellungskraft überlassen, was passieren würde, wenn ein selbstfahrendes Auto eine ähnliche Software nutzt, um etwa Hindernisse zu identifizieren.  

 

Wie algorithmische Vorurteile entstehen

Doch wie entstehen diese algorithmischen Vorurteile? Solon Barocas von der Cornell Universität und Andrew D. Selbst von der Yale Law School definieren fünf technische Mechanismen bei der Verarbeitung von Daten, welche deren Aussagekraft beeinflussen können.

Wer sich ausführlich mit den technischen Mechanismen auseinandersetzen möchte, dem empfehlen wir die Lektüre des englischsprachigen, 56-seitigen PDF´s „Big Data’s Disparate Impact“ von Solon Barocas und Andrew D. Selbst. Der Vollständigkeit halber sei erwähnt, dass sich die beiden Autoren in ihren Ausführungen auf Data Mining beziehen, einer engen Verwandten des maschinellen Lernens. Das Ziel beider Methoden ist die Identifizierung von Mustern in Daten. Beim Data Mining geht es um das Finden neuer Muster, beim maschinellen Lernen um das Erkennen bekannter Muster.

“Data Mining ist definitionsgemäß immer eine Form der statistischen (und daher scheinbar vernünftigen) Diskriminierung. Der Zweck des Data Minings ist es, eine rationale Grundlage zu schaffen, auf der zwischen Individuen unterschieden werden kann (…).”

(aus dem Englischen, Barocas/Selbst)

 

Eine vereinfachte Version der wichtigsten Fehlerquellen lautet wie folgt:

1. Die subjektive Definition von Zielvariablen

Eine Zielvariable (target variable) übersetzt ein Problem in eine Frage. Sie definiert demnach, was ein Datenwissenschaftler herausfinden will. Bereits die Definition der Zielvariablen durch einen Experten ist ein herausfordernder, subjektiver Prozess, der (selbst unbeabsichtigt) zur Diskriminierung führen kann. Nicht umsonst wird er als “Kunst des Data Minings” bezeichnet. Nehmen wir zum Beispiel an, die Zielvariable ist der beste Mitarbeiter im Unternehmen. Um diese Person zu identifizieren, muss zunächst das Wort „beste/r“ in messbaren Werten definiert werden. Diese Klassifizierung kann durch die individuelle Perspektive des Datenwissenschaftlers beeinflusst werden und so zur Diskrimierung führen.

2. Der falsche Umgang mit Trainingsdaten

Moderne Algorithmen, die auf maschinellem Lernen basieren, benötigen Trainingsdaten (eben zum Trainieren der Algorithmen) und Testdaten (zum Testen der Funktionsfähigkeit).

  • Falsche Kennzeichnung: Trainingsdaten werden in einigen Fällen durch den Menschen gekennzeichnet (überwachtes Lernen). Dieser entscheidet vorab, welches Bild einen Hund und welches Bild eine Katze zeigt. Ist diese Zuordnung fehlerhaft, beeinflusst es direkt das Lernergebnis.
  • Stichproben-Voreingenommenheit: Der Trainings-Datensatz umfasst mehrheitlich einen Teil der Bevölkerung (etwa hellhäutige Menschen), während ein anderer Teil unterrepräsentiert ist (etwa dunkelhäutige Menschen). Hellhäutige Menschen erhalten dann im Schnitt bessere Bewertungen.
  • Eine historische Verzerrung liegt vor, wenn ein Algorithmus anhand eines alten Datensatzes trainiert wird, der vergangene Werte und Moralvorstellungen (etwa die Rolle der Frau) aufgreift.

3. Ungenaue Feature Selection

Die Auswahl von Features ist eine Entscheidung darüber, welche Attribute berücksichtigt werden und anschließend in die Analyse von Daten einfließen. Es gilt als unmöglich, alle Attribute eines Subjekts zu erfassen oder alle Umgebungsfaktoren in einem Modell zu berücksichtigen. Daher können z.B. Details nicht genug Beachtung finden und daraus resultierende Empfehlungen ungenau sein. Nehmen wir an, wir möchten den geeignetsten Kandidaten für eine offene Position finden. Der Abschluss an einer Elite Universität wird als qualifizierendes Kriterium definiert. Es werden jedoch weder die Abschlussnote noch die Studiendauer berücksichtig. Durch die Ignoranz dieser Features kann es passieren, dass nicht der beste Kandidat identifiziert wird. Es ist daher entscheidend, den Kontext mit einzubeziehen und die richtige Balance aus Features und der Größe des Datensets zu finden.

4. Maskierung/ verborgene Diskriminierung

Masking bezeichnet die absichtliche (vertuschte) Diskriminierung durch Entscheidungsträger mit Vorurteilen, z.B. durch die vorsätzliche Verzerrung einer Datenerhebung durch einen Programmierer.

“Ein voreingenommener Programmierer könnte absichtlich Diskriminierung implementieren, beispielsweise durch Einfügen diskriminierender Merkmale bei der Definition der Zielvariablen.”

(aus dem Englischen, Barocas/Selbst)

 

Die Bekämpfung der algorithmischen Voreingenommenheit

Erschwerend kommt hinzu, dass die Sammlung und Generierung großer Datenmengen viel Zeit (und Geld) in Anspruch nimmt. Viele Datenwissenschaftler greifen daher auf existierende Informationssammlungen zurück und laden diese aus dem Internet herunter. Voreingenommene Datensätze verbreiten sich so rasant und beeinflussen viele verschiedene Systeme weltweit. So importierten mehr als 15 Millionen Ingenieure eine von Google bereitgestellte Wort-Bibliothek namens Word2Vec, von der bekannt ist, dass sie alle möglichen historischen Vorurteile beinhaltet.

Die hohen Kosten reduzieren die Motivation der Verantwortlichen, inkorrekte Datensätze neu aufzusetzen. Da die Algorithmen oft ein gut gehütetes Geheimnis der Unternehmen sind, ist es für Opfer von Diskriminierung zudem schwierig eine rechtlich valide Beweislage zu schaffen, bzw. Zugang zu den Daten oder deren Verarbeitungsprozessen zu bekommen.

Dieser Umstand und der menschliche Faktor bei der algorithmischen Voreingenommenheit, werden von Wissenschaftlern, Fachkräften, Politikern und Journalisten aktuell heftig diskutiert. Organisationen wie die Algorithmic Justice League oder AI Now setzen sich aktiv für die Bekämpfung des Algorithmic Bias ein. Erste Lösungsvorschläge fordern beispielsweise eine Diversifizierung der Branche, die bis heute überwiegend weiße, männliche Fachkräfte beschäftigt. Andere Experten schlagen umfassende rechtliche Maßnahmen vor, um etwa Unternehmen zur Transparenz und Veröffentlichung ihrer Algorithmen zu zwingen.

Fazit: Künstliche Intelligenz und maschinelles Lernen sind nur so gut, wie der Mensch, der sie gestaltet. Datenwissenschaftler und Programmierer stehen durch die wachsende Popularität neuer Technologien mehr denn je im kritischen Licht der Öffentlichkeit. Diese Fachkräfte unter Generalverdacht zu stellen oder mehr Vielfalt in die Branche zu bringen, löst das Problem der algorithmischen Voreingenommenheit jedoch nicht allein. Diversität und Ermächtigung sind wichtig, doch jeder Mensch – egal welcher Herkunft oder welchen Geschlechts – kann durch bewusste oder unbewusste Vorurteile beeinflusst werden. Daher muss vor allem der technische Prozess der Datenverarbeitung hinterfragt und – wenn möglich – optimiert werden. Der rechtliche Zwang zur Transparenz kann zudem Unternehmen dazu motivieren, die Qualität der Daten und ihre Verarbeitungsprozesse zu priorisieren und zu verbessern.

[youtube https://www.youtube.com/watch?v=59bMh59JQDo&w=560&h=315]

 

Quellen:

  • Bild: DALLE 2
  • www.theverge.com/2018/1/12/16882408/google-racist-gorillas-photo-recognition-algorithm-ai
  • www.technewsworld.com/story/85688.html
  • www.technologyreview.com/s/602025/how-vector-space-mathematics-reveals-the-hidden-sexism-in-language/
  • Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings, Tolga Bolukbasi, Kai-Wei Chang, James Zou, Venkatesh Saligrama, Adam Kalai, arxiv.org/pdf/1607.06520.pdf
  • Teaching Fairness to Artificial Intelligence: Existing and Novel Strategies against Algorithmic Discrimination under EU Law, Dr. Philipp Hacker, LL.M. (Yale), http://bit.ly/2BYX3sp
  • Big Data’s Disparate Impact, Solon Barocas & Andrew D. Selbst, http://bit.ly/2SyG5YZ

Tina

Tina Nord ist Marketing-Expertin, Autorin und Sprecherin. Die Kommunikationswirtin beschäftigt sich seit mehr als zehn Jahren mit Content Marketing. Seit 2016 erforscht Tina den Einfluss maschinellen Lernens auf Content und engagiert sich für die Repräsentation und Beteiligung von Frauen an der Entwicklung von KI.

Diese Artikel sind ebenfalls interessant:

3 Comments

  1. […] Grundlage von Algorithmen. Dabei kann es zu algorithmischen Verzerrungen kommen, sogenannten «Bias«, welche unter Umständen bestimmte Personen oder Gruppen benachteiligen. Sie können den […]

  2. Moderne Algorithmen brauchen Trainingsdaten – ohne jegliche Frage 100% Zustimmung. Jetzt ist aber häufigerweise der Irrtum anzutreffen, wonach das Training auch „alleine“ funktioniert. Ist das nicht ein relevantes Problem nach dem Motto: Die Maschine weiß grds. besser, was sie lernt (lernen soll) als der Mensch? Damit ist nicht die Botschaft verknüpft, wonach überwachtes Lernen besser ist.

    Aber die Kombination aus beiden ist schwierig und der Algorithmus hat am Ende häufig ein Korrektiv: Das ist wiederum der Mensch, der im Kontext „Machine Learning“ statistisch relevante und richtig ermittelte Learnings „korrigiert“. Wir sollten die Maschinen nicht allein lassen. Wir sollten aber auch die Ergebnisse nicht durch unseren persönlichen Wertvorstellungsfilter verändern lassen. Das ist sozusagen dann ein „post negative feature“ – und ruft die wilde Theorie auf, nach der die Fehler der Maschine dann doch zeigen: Es geht noch nicht so richtig ohne menschliche Korrektur, denn diese Maschine entwickelt nahezu abstruse Wertvorstellungen, so geht das nicht.

    Wir brauchen nicht nur DESTROY YOUR BUSINESS, wir brauchen auch RESET YOUR MINDSET.

  3. […] Jahren wird über rassistische, misogyne, diskriminierende Algorithmen berichtet und über den simplen Fakt, dass die nicht besser sind und nicht besser sein können als […]

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert