Inhaltsübersicht
Berechnung des GPGs
- Der Begriff "Lohn"
- Das unbereinigte GPG als Beispiel des Simpson-Paradoxons
- Lohnrelevante Einflußfaktoren und andere "Pay Gaps"
- "Bereinigung" des GPGs durch Multifaktorielle Analysen
- Statistische Analysen erklären nichts
- Negative GPGs / Reverse Gender Pay Gaps
Datenbestände zum GPG und deren (fehlende) Repräsentativität
- Die Verdienststrukturerhebung (VSE) des Statistischen Bundesamts
- VSE kombiniert mit SOEP
- Fehlerquelle "(potentielle) Berufserfahrung"
- Der WSI-Datenbestand
- Der Datenbestand der Hay-Analyse
- Der Datenbestand der Glassdoor-Analyse
- Zusammenfassung: Typische fehlende lohnrelevante Daten
Berechnung des GPGs
Der Begriff "Lohn"
Der Begriff "Lohn" einer Person ist hochgradig mehrdeutig
- zur Auswahl stehen u.a. folgende Definitionen:
- zu versteuernder Brutto-Lohn
gemäß Tarif bzw. Arbeitsvertrag
- als Brutto-Monatslohn (oder analog Wochenlohn); ggf. wird hierunter nur der tarifliche Grundlohn ohne Überstunden oder andere Sonderzahlungen aufgrund spezieller Anlässe verstanden
- der Brutto-Stundenlohn (Monatslohn geteilt durch die offizielle Zahl der Arbeitsstunden) des Beschäftigten
-
Netto-Lohn in Sinne der Überweisung des
Arbeitgebers an den Arbeitnehmer bzw. des Zahlungseingangs
auf dem Arbeitnehmerkonto:
- der Netto-Monatslohn: Brutto-Monatslohn abzüglich Steuern und Sozialabgaben, geteilt durch die offizielle Zahl der Arbeitsstunden
- der gemeinsame Netto-Stundenlohn eines Ehepaars, das das gemeinsame Einkommen nach der Splitting-Tabelle versteuert und gemeinsam über die Nettoeinnahmen verfügt
-
subjektiver Netto-Monats- bzw. Stundenlohn: Aus
Sicht eines Arbeitnehmers müssen
die Netto-Löhne wie folgt korrigiert werden:
- Der Netto-Monatslohn aus Arbeitgebersicht ist zu reduzieren um Kosten für Arbeitsmittel, Fahrtkosten zur Arbeit, Versicherungen oder sonstige durch die Einkünfte verursachte Kosten (teilweise sind diese Kosten von der Steuer absetzbar und reduzieren die Steuerlast).
- Der Netto-Lohn aus Arbeitgebersicht ist zu reduzieren um innerfamiliäre Transfers: Manche Lohntarifsysteme enthalten Zuschläge für Familienmitglieder, zu deren Unterhalt man verpflichtet ist (Kinder, Ehepartner), analog zum Kindergeld. Der Lohnempfänger kassiert zwar diese Anteile, sie gehören ihm aber nicht, weil er sie letztlich für die Angehörigen ausgeben muß.
- Die Arbeitszeit ist zu erhöhen um nicht in der offiziellen Arbeitszeit enthaltene Zeitaufwände, insb. Fahrtzeiten zur Arbeit, ferner ggf. Weiterbildungen o.ä.
Der subjektiver Nettolohn
Der subjektive Nettolohn ist für einen Arbeitnehmer, der
z.B. mehrere Job-Angebote vergleicht und das günstigste
feststellen will, die sinnvollste Größe. Daher ist er
eigentlich auch hinsichtlich der ethischen Bewertung
von Lohnungleichheiten die sinnvollste Größe, wird
aber praktisch nie dazu herangezogen, weil die
entsprechenden individuellen Daten für die Statistiken
nicht verfügbar sind. Der Effekt dieser Daten ist hingegen
statistisch durchaus relevant:
- Männer nehmen deutlich längere Anfahrtzeiten zur Arbeit inkauf als Frauen, um höhere Löhne zu erzielen. Laut OECD-Daten sind männliche bzw. weibliche Arbeitnehmer 66 bzw. 51 Minuten täglich unterwegs. Die Differenz von 15 Minuten täglich bzw. 1.25 Stunden wöchentlich macht bezogen auf eine 39-Stundenwoche ca. 3.2% aus, das ist mehr als das bereinigte GPG in den besseren bGPG-Berechnungen!
- Männer üben gefährlichere Berufe aus als Frauen. Dementsprechend sind die Prämien für persönliche Versicherungen, insb. Berufsunfähigkeitsversicherungen und Risikolebensversicherungen, bei Männern im Schnitt höher. Grob geschätzt kann man von Mehrkosten von 200 - 400 Euro p.a. ausgehen. Bezogen auf ein Nettojahreseinkommen von 20000 Euro macht dies 1 - 2 % aus.
Problematik des Brutto-Stundenlohns als Vergleichsbasis
Der Brutto-Stundenlohn erscheint auf den ersten Blick als
eine vernünftige Grundlage für Lohnvergleiche, um auch
Beschäftigungsverhältnisse mit unterschiedlicher
Arbeitszeit vergleichen zu können. Er ist es aber nur
bedingt.
- Die tatsächliche Zahl der geleisteten Arbeitsstunden ist oft nicht bekannt (s. Brautzsch (2012)), speziell im übertariflichen Bereich.
- Teilzeitarbeit ist bei vielen Arbeitsplätze unwirtschaftlich: bspw. arbeiten viele Handwerker heute weit entfernt von ihrem Wohnort auf oft wechselnden Einsatzorten. Wegen der langen Anfahrten oder allgemeiner den hohen Grundkosten pro Arbeitseinsatz sind halbe Tage bzw. Teilzeiteinsätze nicht sinnvoll. Dadurch steht für Personen, die nur in Teilzeit arbeiten wollen, ein deutlich kleinerer Teil des Arbeitsmarkts offen. Teilzeitarbeitsplätze haben daher ein höheres Angebot an Interessenten und aufgrund der Marktkräfte geringere Stundenlöhne. Ferner sind die Grundkosten pro Mitarbeiter (Lohnabrechnung, Arbeitsplatz etc.) praktisch unabhängig von der Arbeitszeit, bei Teilzeitmitarbeitern also anteilig höher. Aufgrund des statistisch signifikanten Teilzeiteffekts auf die Stundenlöhne ist die grundlegende Annahme fragwürdig, der Stundenlohn sei unabhängig von der Stundenzahl.
Das unbereinigte GPG als Beispiel des
Simpson-Paradoxons
Das nächste Problem liegt darin, daß Durchschnitte
(Mittelwerte) über zwei verschiedene Populationen gebildet
werden und die beiden Populationen hinsichtlich der
lohnrelevanten Personen- und Arbeitsplatzmerkmale
inhomogen zusammengesetzt sind.
Zum Vergleich: welchen Sinn macht es, beim Wochenmarkt zu
jedem Marktstand zu gehen und das standspezifische
Durchschnittsgewicht aller Äpfel, Birnen und weiteren
Obststücke (Gesamtgewicht geteilt durch die Anzahl der
Obststücke) zu berechnen oder analog den
Durchschnittspreis pro Obststück? Wenn ein Stand z.B. 1000
Kirschen zu 10 Gramm und 100 Birnen zu 200 Gramm anbietet,
wiegt ein Obststück im Durchschnitt ca. 27 Gramm - kein
einziges Obststück wiegt tatsächlich so viel, der
Aussagewert der Zahl ist begrenzt.
Genauso kritisch ist der Aussagewert des
"Durchschnittslohn" einer bestimmten Population zu sehen -
leider herrscht in der Allgemeinheit ein fast grenzenloses
Vertrauen, daß diese Zahl eine große Aussagekraft hat und
irgendetwas Sinnvolles über jede einzelne Person - als
ggf. von Unrecht betroffene - oder die Population als
ganze aussagt. Statistiker halten Durchschnitte, bei denen
nicht zusätzlich die Standardabweichung (= Ausmaß, in dem
die Einzelwerte vom Durchschnitt abweichen) generell für
unbrauchbar.
Die Spalten 2 und 3 zeigen die Stundenlöhne von Frauen und
Männern pro Beruf, bei allen Berufen bekommen die Frauen
tarifvertraglich einen höheren Lohn. Die Spalten 4 und 5
zeigen die Verteilung von je 100 Männern auf die Berufe,
es fällt auf, daß Männer lieber gut bezahlte Berufe
wählen, auch wenn man sich dabei den Hals brechen kann.
Die Spalten 6 und 7 zeigen die Gehaltssummen, Zeile 1 und
2 für die beiden Berufe im Beispiel, Zeile 3 für die
Gesamtpopulation von 200 Personen. Zeile 4 zeigt die
Durchschnittslöhne bezogen auf die Gesamtpopulation:
Skandal! Das Gender Pay Gap beträgt 34.6 % !!! Obwohl
Frauen in allen Berufen bevorzugt werden.
Vergleich von
Durchschnitten
Erst recht fragwürdig sind Vergleiche von Durchschnitten,
wenn die zugrundeliegenden Populationen unterschiedlich
zusammengesetzt sind. Um es mit unseren Marktständen zu
veranschaulichen: ein zweiter Marktstand hat vielleicht
keine Kirschen, stattdessen aber 10 Kürbisse zu 4 kg pro
Stück im Angebot, ebenfalls 100 Birnen zu 200 Gramm, aber
keine Kirschen. Macht 571 Gramm pro Obststück, die
Obststücke sind hier im Schnitt 21 Mal schwerer als am
ersten Stand - wird man hier besser bedient als beim
ersten Marktstand mit skandalös niedrigen 27 Gramm
Durchschnittsgewicht?
Sind zwei "vergleichbare Individuen", also zwei Birnen, an
den beiden Ständen verschieden dick? Ist eine Birne am
zweiten Marktstand 21 Mal schwerer als am ersten?
Nein, natürlich nicht. Durchschnittswerte enthalten keine
sinnvolle Information über einzelne Individuen oder
spezielle Untergruppen der Gesamtpopulation, und erst
recht kann man keine Unterschiede zwischen Durchschnittswerten
auf Individuen übertragen.
Das Simpson-Paradoxon
am Beispiel des GPG
Vor allem kann man Durchschnittswerte, die über
verschieden zusammengesetzte Populationen gebildet werden,
nicht sinnvoll vergleichen. Dies ist ein krasser
mathematischer Denkfehler, er ist bekannt als das berühmte
Simpson-Paradoxon. Angepaßt an das GPG könnte ein
Beispiel für das Simpson-Paradoxon wie folgt aussehen:
Beruf | Stundenlohn | Anzahl | Gehaltssumme | |||
---|---|---|---|---|---|---|
Frauen | Männer | Frauen | Männer | Frauen | Männer | |
Dachdecker | 30.00 | 28.00 | 10 | 90 | 300.00 | 2520.00 |
Friseur | 16.00 | 14.00 | 90 | 10 | 1440.00 | 140.00 |
Summen | 100 | 100 | 1740.00 | 2660.00 | ||
Durchschnittslohn | 17.40 | 26.60 |
Lohnrelevante Einflußfaktoren und andere "Pay
Gaps"
Die vorstehenden Beispiele waren insofern noch
unrealistisch einfach als z.B. der Preis von Obst nicht
nur von der Obstsorte abhängt, sondern zusätzlich z.B. von
der Qualität, dem Herkunftsland und dem Reifegrad. Wenn
man also die Preise zweier Obststände vergleicht, muß man
diese i.a. nicht identischen Einflußfaktoren irgendwie
herausrechnen. Beispielsweise könnten die Birnen eines
Stands sehr klein sein (= hoher Abfallanteil), was den
Preis drückt, aber eine sehr leckere Sorte sein, was den
Preis anhebt. Man muß jetzt zu mehr oder weniger
willkürlichen Schätzungen greifen, wie sehr diese Faktoren
den Preis beeinflussen. Damit kann man z.B. den
Durchschnittspreis einer "Normal-Birne" pro Stand
berechnen und auf der Basis die Preise vergleichen.
Die Probleme, die man als Käufer beim Vergleich des
Preisniveaus unserer Obststände hat, sind noch harmlos im
Vergleich zu den Problemen, wenn man den Preis für
Arbeitsleistungen, also Bruttostundenlöhne, von Männern
und Frauen vergleichen muß.
Die Zahl der lohnrelevanten Merkmale und Vielfalt der
Ausprägungen der Merkmale ist wesentlich höher. Anders
gesagt gibt es eine ganze Liste von Merkmalen (a) des
Arbeitsplatzes und (b) des Arbeitnehmers, die zu
Preisunterschieden führen. Als Beispiel betrachten wir die
Löhne von Ingenieuren in Deutschland gemäß dem lohnspiegel.de,
das auf dem WSI-Tarifarchiv der Hans-Böckler-Stiftung
basiert.
Wenn man in den dort verwendeten Rohdaten die
Beschäftigungen nach der Berufserfahrung des Arbeitnehmers
klassifiziert pro "Berufserfahrungsklasse" den
Lohndurchschnitt bildet, dann erhalten die Arbeitnehmer
mit weniger als 5 Jahren Berufserfahrung im Durchschnitt
28% weniger Lohn als die Arbeitnehmer 20 bis 29 Jahren
Berufserfahrung. Die Berufserfahrung ist der Einflußfaktor
mit dem größten Einfluß auf die Lohndifferenz, die größten
Einflußfaktoren sind:
- Berufserfahrung: 28%, verglichene Klassen: "weniger als 5 Jahre" vs. "20 bis 29 Jahre"
- Betriebsgröße: 24%, verglichene Klassen: "weniger als 100 Beschäftigte" vs. "über 500 Beschäftigte"
- Region: 23%, verglichene Klassen: "neue Bundesländer" vs. "alte Bundesländer"
- Branche: 23%, verglichene Klassen: "Bauingenieure" vs. "Elektronik- und Fernmeldeingenieure"
- Bildungsabschluß: 21%, verglichene Klassen: "FH-Diplom" vs. "Promotion"
- Geschlecht: 17%, verglichene Klassen: "Frauen" vs. "Männer"
- Tarifbindung 17%, verglichene Klassen: "tarifgebundener Betrieb" vs. "nicht tarifgebundener Betrieb"
- ein Berufserfahrungs-Pay-Gap,
- ein Betriebsgrößen-Pay-Gap,
- ein Regionen-Pay-Gap,
- ein Bildungsabschluß-Pay-Gap und
- ein Tarifbindungs-Pay-Gap.
"Bereinigung" des GPGs
durch Multifaktorielle Analysen
Vergleich statistischer Zwillinge
Wenn man also durch Vergleich einzelner
Beschäftigungsverhältnisse den Einfluß des Geschlechts
bestimmen will, darf man nur Männer und Frauen
vergleichen, bei denen alle lohnrelevanten
Einflußfaktoren (bis auf das Geschlecht) identisch sind.
Solche Paare nennt man statistische Zwillinge.
Man kann nun einzelne statistische Zwillingspaare bilden
und deren Lohn vergleichen. Weil die Zahl lohnrelevanter
Merkmale hoch ist und viele Merkmale viele verschiedene
Ausprägungen haben, findet man aber nicht zu jedem
Beschäftigungsverhältnis einen statistischen Zwilling. In
stark männer- bzw. frauendominierten Berufen die
Dachdecker oder Grundschullehrer könnte man fast keine
Zwillingspaare bilden.
Generell liegt eine (horizontale) Geschlechtersegregation am Arbeitsmarkt vor: die
meisten Männer und Frauen arbeiten in einem Beruf, der
stark von einem Geschlecht dominiert wird. D.h. bei der
Mehrheit der Arbeitsverhältnisse findet man keinen
statistischen Zwilling.
Obwohl intuitiv naheliegend, ist daher die GPG-Berechnung
auf Basis statistischer Zwillinge problematisch und nicht
üblich.
Die Oaxaca-Blinder-Zerlegung
Üblicherweise wird zur Aufteilung des statistischen
Einflusses der Einflußfaktoren ein sehr kompliziertes
statistisches Verfahren angewandt, die sogenannte
Oaxaca-Blinder-Zerlegung. Eine halbwegs lesbare Erklärung
bietet Anger (2010).
Basis ist eine Liste von in den Daten erfaßten Faktoren,
die die Lohnhöhe beeinflussen, z.B. Bildungsgrad,
Berufserfahrung etc. Deren "Größe" muß als ein numerischer
Wert codiert werden.
Stark vereinfacht gesagt zerlegt dieses Verfahren die
Löhne in selbständige Anteile, die von den Einflußfaktoren
bestimmt werden. Aus den Rohdaten Wird nun für Frauen bzw.
Männer jeweils eine Prognose- bzw. Schätzformel
abgeleitet, mit der man für ein gegebenes
Beschäftigungsverhältnis anhand der Einflußfaktoren den
Stundenlohn bis auf einen "unerklärten Rest" schätzen
kann. Die Koeffizienten in den Schätzformeln, also die
Gewichte der Einflußfaktoren, werden so optimiert, daß
sich auf die gesamte Population bezogen ein
möglichst kleiner Schätzfehler ergibt.
Das GPG wird am Ende nur noch durch Division der zentralen
Koeffizienten in den beiden Schätzformeln berechnet.
Im Endeffekt werden hier die Einflußfaktoren aus dem
Zusammenhang gerissen betrachtet. Z.B. wird der Mehrwert
eines akademischen Grades unabhänig vom Alter, Branche und
anderen Faktoren berechnet. Nur aufgrund dieses Tricks ist
es möglich, Löhne aus ganz verschiedenen
Arbeitsverhältnissen in der Statistik zu verwerten: der
Gesamtlohn wird virtuell in unabhängige Komponenten
zerlegt.
In vielen Publikationen heißt es dann z.B., daß das
unbereinigte GPG (Basis: Brutto-Stundenlöhne) 23% beträgt,
davon aber 15% durch erfaßte Einflußfaktoren
"statistisch erklärbar" oder auf diese
"rückführbar" sind, und nur die restlichen 8% "mit den
vorhandenen Daten "nicht erklärbar" sind. Erklärt wird hier
aber nichts.
An dieser Stelle muß eindringlich vor blindem Vertrauen
in die Oaxaca-Blinder-Zerlegung gewarnt werden: in
dieses Schätzverfahren gehen mehrere willkürliche
Annahmen, u.a. über die Linearität der Wirkung der
Einflußfaktoren (s.
Literatur zur Oaxaca-Blinder-Zerlegung).
Ferner wird der "unerklärte Rest" immer wieder dahingehend
falsch interpretiert, daß bei "gleicher
Qualifikation etc." Frauen z.B. 6% weniger Lohn bekommen,
statistische Zwillinge also ungleich bezahlt werden. Dies
ist falsch! Auch wenn alle statistische Zwillinge gleich
bezahlt werden, kann das bereinigte GPG z.B. 7% betragen,
denn hier werden sozusagen Äpfel mit Birnen verglichen.
Abhängigkeit von den
Rohdaten
Je nach Datenbestand sind andere Merkmale von
Arbeitnehmern und Arbeitsplätzen erfaßt, ferner können die
erfaßten Merkmalsausprägungen verschieden sein. Die oben
zitierten Lohnspiegel-Daten basieren auf einer Umfrage der
Gewerkschaft ver.di. Eine sehr viel größere Stichprobe der
Bevölkerung liegt den vielzitierten
Verdienststrukturanalysen des Statistischen Bundesamts
zugrunde: Verdienststrukturerhebung (VSE). Hier erfaßt
sind alle Beschäftigungsverhältnisse
- mit Ausnahme von Landwirtschaft, Fischerei, öffentlicher Verwaltung, privaten Haushalte und exterritorialen Organisationen
- in Betrieben mit wenigstens 10 Beschäftigten
- von allen Arbeitnehmern ohne Altersbeschränkung oder Einschränkung der Stundenzahl, d.h. Teilzeiterwerbstätige sind enthalten.
Statistische Analysen erklären nichts
Die Ergebnisse multifaktorieller statistischer Analysen
werden oft so formuliert: Die Einflußfaktoren X, Y und Z
erklären eine Lohndifferenz von 3, 2 bzw. 5%.
Der Begriff "(statistisch) erklären" wird hier leider
regelmäßig mißverstanden. "Erklärt" im Sinne einer
Kausalität oder eines Rechenverfahrens, mit dem man einzelne
Löhne bestimmt, wird durch multifaktorielle statistische
Analysen rein gar nichts. Wenn z.B. die
Einflußfaktoren X, Y und Z jeweils 3, 2 bzw. 5% erklären,
dann heißt das nicht, daß sich die Gehälter von 2 Personen,
die sich nur in genau einem Faktor unterscheiden, um diese
Prozentzahl unterscheiden - der konkrete Gehaltsunterschied
kann beliebig anders aussehen oder sogar ein anderes
Vorzeichen haben.
Das Problem der Falschinterpretationen von
Statistiken ist besser bekannt mit Korrelationen,
die als Kausalität fehlinterpretiert werden und die Anlaß zu
zahllosen Witzen sind. Beispielsweise kann man "statistisch
beweisen", daß Störche die Kinder bringen.
Die Gewichte der Einflußfaktoren sind sozusagen
quantifizierte Korrelationen: wenn sich der Einflußfaktor um
einen bestimmten numerischen Betrag ändert, ändert sich auch
die Zielgröße, hier der Stundenlohn, um einen gewissen
Betrag. Letztlich sucht die multifaktorielle Analyse nach
einer Formel, in die man die quantifizierten Einflußfaktoren
als Parameter einsetzt und dann eine möglichst gute
Schätzung der Zielgröße erhält. Dabei ist zunächst über die
Struktur der Formel zu entscheiden, insb. ob sich die
Effekte der Einflußfaktoren addieren oder multiplizieren
oder vielleicht noch anders zusammenwirken - hier gehen z.T.
völlig willkürliche Annahmen in die Analysen ein. Wenn die
Struktur entschieden ist, können anschließend die "Gewichte"
der Einflußfaktoren geschätzt werden. Die Gewichte werden so
adjustiert, daß die Formel insgesamt im Durchschnitt den
geringsten Schätzfehler produziert.
Diese Gewichte sind also reine statistische Schätzgrößen,
die insgesamt im Durchschnitt den geringsten Schätzfehler
produzieren, wenn man alle individuellen Löhne auf Basis
aller bekannten Einflußfaktoren prognostiziert. Diese
Schätzgrößen sind selber zu einem gewissen Grad unsicher,
also nur z.B. mit +/- 0.5% Genauigkeit zuverlässig
bestimmbar, vor allem bei kleinen Datenbeständen kann die
Unsicherheit groß werden.
Zusammengefaßt: Der Vergleich von Größen wie dem
Brutto-Stundenlohn zwischen sehr heterogen
zusammengesetzten Populationen ist ein mathematisch
äußerst anspruchsvolles Problem. Der Vergleich von
unbereinigten Durchschnitten ist völlig sinnlos. Wenn
überhaupt, ist nur ein Vergleich von Durchschnitten
sinnvoll, die um die "statistisch erklärbaren Anteile"
bereinigt wurden. Allerdings sind auch die
bereinigten Anteile mit großer
Vorsicht zu genießen:
- Der Begriff "erklärbar" erweckt den falschen Eindruck, es gäbe eine Kausalität in der Lohnfindung im Sinne einer Rechenformel, die ausgehend von den quantifizierten Einflußfaktoren einzelne Löhne bestimmt, analog wie in einem Tarifvertrag. Hinzu kommt oft der Denkfehler, statistische Unterschiede als Diskriminierung fehlzuinterpretieren.
- Die angegebenen Gewichte weisen einen Schätzfehler auf (was übrigens durchgängig verschwiegen wird, nicht zu reden davon, den Schätzfehler zu quantifizieren). Dieser ist teilweise verursacht durch die mathematischen Verfahren und durch die willkürliche Struktur der Schätzformel für Löhne. Viel gravierender sind aber Mängel in den Daten, z.B. Datenerfassungsfehler und vor allem das Fehlen lohnrelevanter Merkmale in den Daten. D.h. die konkret angegebenen numerischen Werte der Gewichte, insb. das Gewicht des "statistisch unerklärten" Anteils, weisen einen Fehler auf, dessen Größe unbekannt bleibt.
Negative GPGs / Reverse Gender Pay Gaps
Als negative GPGs (oder reverse gender pay
gap oder reverse gender gap) bezeichnet man
GPGs zugunsten von Frauen. Beim unbereinigten GPG ergibt
der negative Wert durch die (simplifizierende) Formel GPG
= (M-F)/M, worin M bzw. F der Durchschnittsstundenlohn von
Männern bzw. Frauen ist.
Der Begriff einer "negativen Lücke" ist eigentlich
sprachlicher Unsinn, aber hier vertretbar. Mathematisch
leicht unsauber ist der Bezug auf den kleineren Wert in der
Division. Korrekter wäre es, das "weibliche GPG" oder
"umgekehrte GPG" (häufige englische Bezeichnung: reverse gender pay gap) als (M-F)/F zu definieren, die
Werte wären dann geringfügig kleiner.
Beispiele negativer GPGs
- Schon seit gut 10 Jahren liegen in fast allen Großstädten der USA in der Altersklasse bis ca. 35 Jahre die Gehälter der Frauen ca. 8% höher, in einzelnen Städten bis zu 20%, s. Alfonsi (2010), Bentley (2015), Luscombe (2010), Torregrosa (2011).
- Ähnliches berichtet OGrady (2010) für die jungen Frauen in Großbritannien: in 2009 lag für die Altergruppe 22 bis 29 Jahre ein landesweites negatives GPG von 1.7% vor, für 2015 ebenfalls (s. Braham (2016)).
- Negative GPGs traten auf, wenn man nur Teilzeitbeschäftigte betrachtete. Nach Braham (2016) lag für diese Gruppe z.B. landesweit in Großbritannien ein negatives GPG von 6.5% vor. Ähnliche Zahlen berichtet das Office for National Statistics, UK (2016).
- Andrews (2017) berichtet von einem kleinen negativen GPG (rund 3 %) in Nordirland.
- Breach (2017) berichtet von negativen GPGs innerhalb von bzw. zwischen ethnischen Gruppen.
- Sofern man statt sehr großer Populationen kleinere betrachtet, streuen die regionalen GPGs deutlich um den landesweiten Durchschnitt. Beispielsweise zeigen die Übersichten in Hirsch (2009) einzelne Regionen in Deutschland mit negativen GPGs, s. ferner DPA (04.08.2017). Konkret verdienen in den ostdeutschen Bundesländern Sachsen-Anhalt, Mecklenburg-Vorpommern und Brandenburg Frauen mehr als Männer (Heinrichs (2017)).
- Auch in der Mongolei führt das negative GPG zu Klagen von Frauen, keine akzeptablen Männer zu finden (General (2018) und Kuo (2018)).
- Bei den weiblichen CEOs der S&P-Unternehmen liegt das Median-Einkommen rund 19% höher als bei Männern, s. Durden (2017) und McGregor (2017).
- Ähnliche Ergebnisse werden für die deutlich größere Gruppe der high potenials berichtet Leslie (2016).
- Die spezielle Berufsgruppe der Models weist ein gigantisches negatives GPG auf, s. u.a. Snyder (2015).
Feministische Interpretation negativer GPGs
Gemäß der üblichen feministischen Bewertung und
Instrumentalisierung von GPGs müßte man eigentlich
auf eine Diskriminierung von Männen schließen und analoge
Maßnahmen zugunsten von Männern wie bei positiven GPGs
fordern.
Dies würde allerdings das Dogma von der allgegenwärtigen
Diskriminierung von Frauen falsifizieren. Negative GPGs
werden daher üblicherweise als Beweis der intellektuellen
Überlegenheit von Frauen, also als sachlich begründet,
interpretiert oder hilfsweise als irrelevant und Ausgleich
für Jahrtausende der Frauenunterdrückung gefeiert.
Datenbestände zum GPG und deren
(fehlende) Repräsentativität
Die Verdienststrukturerhebung (VSE) des
Statistischen Bundesamts
Die Verdienststrukturerhebung des Statistisches Bundesamts
bzw. der damit erfaßte Datenbestand ist eine sehr
umfangreiche
Stichprobe der Verdienste in Deutschland.
Wichtige Merkmale der VSE sind:
- Die Daten werden bei öffentlichen und privatwirtschaftlichen Arbeitgebern erhoben. Für die Arbeitgeber besteht laut Verdienststatistikgesetz Auskunftspflicht.
- Die Stichprobe wird zweistufig gezogen. Auf der 1. Stufe werden maximal 60 000 Betriebe ausgewählt. Auf der 2. Stufe werden innerhalb der Betriebe Beschäftigungsverhältnisse per Zufallsverfahren ausgesucht. Für 2014 wurden 1,0 Million Beschäftigungsverhältnisse erfaßt.
- In den Wirtschaftsabschnitten "Erziehung und Unterricht" und "Öffentliche Verwaltung, Verteidigung; Sozialversicherung" wurde zum überwiegenden Teil auf eine Befragung verzichtet.
- Die Verdienststrukturerhebung ist eine Statistik über Beschäftigungsverhältnisse. Selbständige Tätigkeiten werden daher nicht erfaßt.
- die kompletten Lebensläufe von Arbeitnehmern inkl. Arbeitsunterbrechungen,
- Arbeitszeugnisse, dienstliche Beurteilungen und generell die tatsächlich erbrachte Leistung,
- Krankheitszeiten,
- besondere Belastungen bzw. mit der Berufsausübung zusammenhängende Unkosten, z.B. lange Anfahrtswege zu wechselnden Arbeitsorten.
So kann beispielsweise auf einige relevante lohndeterminierende Merkmale zur Ermittlung des bereinigten Gender Pay Gap im Rahmen der Analyse der VSE nicht zurückgegriffen werden. Hierzu zählen etwa der Familienstand, die Anzahl der Kinder, der Umfang der tatsächlichen Berufserfahrung und das individuelle Verhalten in Lohnverhandlungen. Die Nicht-Berücksichtigung dieser Merkmale resultiert unter anderem aus der der VSE zugrunde liegenden Erhebungsmethode. ... Während dem Arbeitgeber zahlreiche Merkmale wie etwa das Geschlecht oder auch das Alter des Beschäftigten bekannt sind, liegen beispielsweise vollständige Angaben zu den Erwerbesunterbrechungen - bedingt durch Arbeitsplatzwechsel - in der Regel nicht vor. Andere Merkmale wie etwa das individuelle Verhalten in Lohnverhandlungen lassen sich in quantitativ ausgerichteten Studien nur mit enorm hohem Aufwand messen.Die besonders wichtige Berufserfahrung kann nach Fußnote 16 nur mit einem Verfahren geschätzt werden, das bei Frauen zu einer Überschätzung der Berufserfahrung führt:
Um die Berufserfahrung als erklärende Variable auch in Untersuchungen berücksichtigen zu können, in denen das Merkmal nicht direkt abgefragt wurde, erfolgt in der Regel eine näherungsweise Ermittlung dieser Größe über das Alter und die Ausbildungsdauer ... . Den Arbeitnehmern wird im Rahmen dieses Vorgehens ein ununterbrochener Erwerbsverlauf unterstellt. Da jedoch vor allem bei Frauen Erwerbsunterbrechungen zu beobachten sind, führt dies insbesondere bei weiblichen Arbeitnehmern zu einer Überschätzung der Berufserfahrung.Lesenswert sind ferner die Fußnoten 15 und 17 hinsichtlich der notwendigen Vorverarbeitung der Daten, um sie statistisch analysieren zu können, und der Auswahl der Schätzgrößen, was zu einem gewissen Schätzfehler führen kann. Finke weist zusammenfassend auf Seite V explizit auf die Konsequenzen der fehlenden lohnrelevanten Merkmale hin:
"... Der ermittelte [GPG] wäre geringer ausgefallen, wenn der Berechnung weitere lohnrelevante Eigenschaften - vor allem Angaben zu Erwerbsunterbrechungen - zur Verfügung gestanden hätten."Gesamtbeurteilung: Der VSE-Datenbestand ist der mit großem Abstand größte und beste Datenbestand im Kontext der GPG-Debatte. Allerdings sind nicht alle lohnrelevanten Merkmale erfaßt, ferner fehlt mit der öffentlichen Verwaltung ein großer Arbeitsmarktsektor, in dem wegen der strengen Tarifbindung im Prinzip kein bereinigtes GPG bestehen kann.
VSE kombiniert mit SOEP
Boll
(2015) berichtet über Analysen, die im
Hamburgischen WeltWirtschaftsInstitut (HWWI) durchgeführt
wurden und in denen die Daten der
Verdienststrukturerhebung kombiniert wurden mit Daten aus
dem Sozio-oekonomischen Panel (SOEP).
Analysiert wurden u.a. die Auswirkungen auf das
unbereinigte GPG und das bereinigte GPG, wenn
Einmalzahlungen, tatsächliche (statt vereinbarte)
Arbeitsstunden, Kleinbetriebe und öffentliche Verwaltung
einbezogen werden. Wenn man die Informationen des SOEP so
weit wie möglich ausschöpft, beträgt das bereinigte GPG
nur noch 2.3 % bei einem unbereinigten GPG von 22.8 %.
Fehlerquelle "(potentielle)
Berufserfahrung"
Viel Berufserfahrung, und zwar möglichst einschlägige
Berufserfahrung, zählt zu den wichtigsten Einflußfaktoren
das erzielbare Gehalt. Dummerweise kann die
Berufserfahrung eines Arbeitnehmers nur nur auf Basis
eines vollständigen Bildungs- und Lebenslaufs gemessen
werden, aus dem u.a. Zeiten für Ausbildung, Wehrdienst,
Arbeitslosigkeit etc. hervorgehen. Derart genaue Angaben
liegen in den Datenbeständen i.d.R. nicht vor. Daher
werden stattdessen Ersatzgrößen ("Proxy-Variablen")
verwendet, u.a.:
- das Alter
- Alter - Ausbildungsjahre - 6. Diese Ersatzgröße wird u.a. in der VSE benutzt, s. S. 7, Tabelle 2, Variable "Berufserfahrung" und Variable "Berufserfahrung quadriert". In späteren Tabellen in Finke (2010) heißt der entsprechende Eintrag "potenzielle Berufserfahrung".
- (potentielle) Berufserfahrung abzüglich einer Betreuungszeit pro erfaßtem Kind.
- der Effekt von Teilzeitbeschäftigungen: tendenziell wird bei einer Halbtagsbeschäftigung weniger Erfahrung gesammelt als bei einer Vollzeitbeschäftigung,
- die Einschlägigkeit der Berufserfahrung, insb. wenn frühere Beschäftigungen aus Sicht der aktuellen Beschäftigung fachfremd und daher wertlos waren.
Der WSI-Datenbestand
Dieser Datenbestand wird vom Wirtschafts- und
Sozialwissenschaftlichen Institut der Hans Böckler
Stiftung (WSI) erhoben. Über die Seite
www.lohnspiegel.de werden regelmäßig
Gehaltsumfragen durchgeführt. Über ein ca. 20 Seiten
langes Formular kann man anonym Daten eingeben, d.h. es gibt
keinerlei Schutz vor Mißbrauch, und es bleibt völlig
offen, wie repräsentativ die hier gewonnene Stichprobe
ist. Informationen über die Größe und Zusammensetzung des
Datenbestands werden bei den Eigendarstellungen und
Auswertungstabellen nicht angezeigt.
Laut Diringer (2015) waren in 2015 Insgesamt 18.649
Datensätze (12.525 Männer, 6.124 Frauen) für 20 Berufe
erfaßt. Von den Frauen waren allein 1.003 Krankenschwester
und 860 Verkäufer, aber nur 54 Chemiker.
Die Gehaltstabellen für Chemieberufe weisen für insgesamt
10 Berufsgruppen (z.B. Chemieingenieur/in)
unterschiedliche durchschnittliche Bruttomonatseinkommen
auf 4 Stellen genau aus, obwohl im Schnitt nur 5 Frauen
pro Berufsgruppe vorhanden sein können.
Gesamtbeurteilung: Der WSI-Datenbestand ist sehr
unzuverlässig und praktisch unbrauchbar für präzise
GPG-Berechnungen. Die Datenerhebung ist
manipulationsanfällig (s. Diringer (2014) ) und fehleranfällig, Die
Teilnehmerzahlen, insb. die der Frauen, sind viel zu
klein, um sinnvolle Durchschnitte bilden bzw.
multifaktorielle Analysen durchführen zu können. Die
berechneten GPGs kann man bestenfalls als schwache
Indizien werten, daß ein GPG vorhanden sein könnte. Auf
die Unzuverlässigkeit der Angaben wird leider nicht
hingewiesen. Oben wurde schon betont, daß die
Berichterstattung über das GPG auf lohnspiegel.de
hochgradig unseriös ist. Ein deutliches Indiz für die
Unzuverlässigkeit der Angaben sind teilweise erhebliche
Veränderungen in den GPGs zwischen aufeinanderfolgenden
Kalenderjahren (s. Diringer (2015)).
Der Datenbestand der Hay-Analyse
Die Personal- und Organisationsberatung Korn Ferry in der
Hay Group publizierte 2016 eine oft zitierte
GPG-Berechnung. Basis war eine Gehaltsdatenbank mit
insgesamt 294.000 Gehältern von Männern und Frauen von 353
Firmen in Deutschland (als Teil einer internationalen
Analyse mit insg. 8.7 Millionen Fällen). Als
Klassifikationsattribute wurden verwendet:
- das Alter der Mitarbeiter, das in drei Generationen klassifiziert wurde (Baby-Boomers, Generation X, Generation Y)
- der Arbeitsbereich im Unternehmen bzw. Branche (Finance/Accounting, Sales, Administration, HR)
- die Unternehmensgröße (4 Klassen)
Quellen
- Gender Pay Gap - Generation Y wird gleich bezahlt, Hay Group, 18.03.2016, http://www.haygroup.com/de/press/Details.aspx?ID=46949
- Gender Pay Analysis - Technical methodology and data report. http://info.haygroupupdate.com/rs/494-VUC-482/images/KF ... ort.pdf Nicht datiert.
Der Datenbestand der Glassdoor-Analyse
Glassdoor, Inc, ist ein Analyseinstitut für
Arbeitsmarktdaten. In der umfangreichen Analyse Chamberlain (2016) (Kurzfassung: Chamberlain (2016a)) werden bereinigte und
unbereinigte GPGs von 5 Ländern (USA, United Kingdom,
Australien, Deutschland, Frankreich) berechnet. Die Studie
kommt in allen Ländern auf relativ ähnliche Ergebnisse wie
die Destatis-Analysen. Die Daten stammen weit überwiegend
aus den USA, es sind nur 1603 Fälle aus Deutschland, die
Stichprobe kann daher für Deutschland nicht als
repräsentativ angesehen werden. Es wird ein unbereinigtes
GPG von 22.5% für die Grundgehälter berechnet.
Interessant an dieser Studie ist neben einer speziellen
Datenerfassungsmethode, daß zwei verschiedene
Bereinigungsmethoden parallel verwendet werden. Wenn die
Daten nach Methode der "Comparable Workers" (statistische
Zwillinge) bereinigt werden, verbleibt ein Rest von 5.5%.
Zur Bereinigung werden neben diversen üblichen Merkmalen
auch die Job-Bezeichnungen verwendet. Bei Verwendung der
Oaxaca-Blinder-Zerlegung bleiben 11.1%, also fast die
Hälfte, "unerklärt", also weitaus mehr als bei den
wesentlich umfangreicheren VSE-Daten.
Quellen
- Andrew Chamberlain: Demystifying the Gender Pay Gap. Evidence From Glassdoor Salary Data. Glassdoor, Inc., 2013. https://research-content.glassdoor.com/app/uploads/site ... udy.pdf
- Andrew Chamberlain: Demystifying the Gender Pay Gap: Evidence from Glassdoor Salary Data. Glassdoor, Inc., 23.03.2016. https://www.glassdoor.com/research/studies/gender-pay-gap/
Zusammenfassung: Typische fehlende lohnrelevante
Daten
Zunächst kann festgehalten werden, daß es sehr viele
lohnrelevante Merkmale von Beschäftigungsverhältnissen
gibt. Die VSE erfaßt alleine 15 Merkmale, andere Datenbestände
erfassen nur wenige weitere Merkmale. Die VSE hat eine
herausragende Bedeutung, da die Stichprobe sehr groß ist,
da sie sehr langfristig durchgeführt wurde und da sie
internationale Vergleiche ermöglicht - nationale
Statistiken in diversen anderen Ländern verwenden die
gleichen Merkmale. Daher konzentrieren wir uns hier i.w.
auf die in der VSE fehlenden lohnrelevanten Daten und
vergleichen sie mit anderen Datenbeständen, die
weitere Merkmale erfaßt haben.
Viele Merkmale der VSE, z.B. Berufshauptgruppe,
Beschäftigungsumfang oder Unternehmensgröße, erscheinen
hinreichend präzise erfaßt. Viele Merkmale haben nur
ferner einen geringen statistischen Einfluß auf den Lohn,
so daß eine vereinfachte Erfassung, z.B. durch wenige
Kategorien von Unternehmensgrößen, vertretbar erscheint.
Zwei sehr wichtige Merkmale werden allerdings sehr ungenau
erfaßt, und zwar
- die qualitativen Qualifikations- und quantitativen Leistungsanforderungen des Arbeitsplatzes
- die tatsächliche Qualifikation und die tatsächliche Leistung des Stelleninhabers
- Leistungsgruppe; Kategorien: Arbeitnehmer
in leitender Stellung, herausgehobene Fachkräfte,
Fachangestellte, angelernte Arbeitnehmer, ungelernte
Arbeitnehmer, geringfügig Beschäftigte, Auszubildende.
Dies ist in erster Linie ein Merkmal der Stelle, allerdings werden hierdurch auch Qualifikationsanforderungen grob definiert, und mit hoher Wahrscheinlichkeit werden Stelleninhaber entsprechende formale Qualifikationen aufweisen. - Ausbildung; Kategorien: mit
Hochschulabschluss, mit Berufsausbildung, ohne
Berufsausbildung.
Dies ist ein Merkmal des Stelleninhabers. Die Kategorisierung ist sehr grob. Bei den Hochschulabschlüssen wird z.B. kein Unterschied gemacht zwischen Bachelor- und Master-Abschlüssen oder einer Promotion, obwohl die höherwertigen Abschlüsse i.d.R. zu höheren Anfangsgehälter und besseren Aufstiegschancen führen. Die abhängig von Dauer und Schwierigkeitsgrad des Studiums sehr unterschiedlichen Investitionen in die eigene Qualifikation - die eigentlich durch entsprechend höhere Gehälter kompensiert werden sollten - werden nicht erfaßt. Dies gilt auch für Praktika, Zertifikate u.a. (Weiter-) Bildungsmaßnahmen, die nicht zu einer höheren formalen Qualifikation führen. - (potentielle) Berufserfahrung
Dies ist ein Merkmal des Stelleninhabers, Schätzverfahren und dessen Fehler siehe oben.
Der ermittelte Wert [des GPGs] ist eine Obergrenze. Er wäre geringer ausgefallen, wenn der Berechnung weitere lohnrelevante Eigenschaften - vor allem Angaben zu Erwerbsunterbrechungen - zur Verfügung gestanden hätten.ist vor diesem Hintergrund eine Untertreibung. Nicht nur die Erwerbsunterbrechungen, sondern viel genereller ist die Qualifikation der Arbeitnehmer nur unzureichend erfaßt, ebenso die nicht erwähnten, aber genauso wichtigen Qualifikations- und Leistungsanforderungen des Arbeitsplatzes. Korrekter erscheint die Einschätzung des IW Köln (2013) und des HWWI, wonach das bereinigte GPG eine Größenordnung von nur 2 - 3% hat, wenn man alle lohnrelevanten Merkmale der Beschäftigungsverhältnisse kennt und berücksichtigt, und damit in der Größenordnung des statistischen Rauschens und der Schätz- und Rechenfehler der Berechnungsverfahren liegt.