Berechnung des GPGs

Inhaltsübersicht

Berechnung des GPGs

Datenbestände zum GPG und deren (fehlende) Repräsentativität

Berechnung des GPGs

Der Begriff "Lohn"

Der Begriff "Lohn" einer Person ist hochgradig mehrdeutig - zur Auswahl stehen u.a. folgende Definitionen:
  1. zu versteuernder Brutto-Lohn gemäß Tarif bzw. Arbeitsvertrag
    • als Brutto-Monatslohn (oder analog Wochenlohn); ggf. wird hierunter nur der tarifliche Grundlohn ohne Überstunden oder andere Sonderzahlungen aufgrund spezieller Anlässe verstanden
    • der Brutto-Stundenlohn (Monatslohn geteilt durch die offizielle Zahl der Arbeitsstunden) des Beschäftigten

    Nicht im Bruttolohn berücksichtigt werden "unsichtbare" Lohnanteile, insb. durch die durch die Beitragszahlungen entstehenden Ansprüche auf spätere Rente bzw. ggf. Arbeitslosengeld. Deswegen ist z.B. ein direkter Vergleich der Bruttolöhne von Beamten, Angestellten und Selbständigen nicht sinnvoll, weil sich die unsichtbaren Lohnanteile erheblich unterscheiden.

  2. Netto-Lohn in Sinne der Überweisung des Arbeitgebers an den Arbeitnehmer bzw. des Zahlungseingangs auf dem Arbeitnehmerkonto:
    • der Netto-Monatslohn: Brutto-Monatslohn abzüglich Steuern und Sozialabgaben, geteilt durch die offizielle Zahl der Arbeitsstunden
    • der gemeinsame Netto-Stundenlohn eines Ehepaars, das das gemeinsame Einkommen nach der Splitting-Tabelle versteuert und gemeinsam über die Nettoeinnahmen verfügt
  3. subjektiver Netto-Monats- bzw. Stundenlohn: Aus Sicht eines Arbeitnehmers müssen die Netto-Löhne wie folgt korrigiert werden:
    • Der Netto-Monatslohn aus Arbeitgebersicht ist zu reduzieren um Kosten für Arbeitsmittel, Fahrtkosten zur Arbeit, Versicherungen oder sonstige durch die Einkünfte verursachte Kosten (teilweise sind diese Kosten von der Steuer absetzbar und reduzieren die Steuerlast).
    • Der Netto-Lohn aus Arbeitgebersicht ist zu reduzieren um innerfamiliäre Transfers: Manche Lohntarifsysteme enthalten Zuschläge für Familienmitglieder, zu deren Unterhalt man verpflichtet ist (Kinder, Ehepartner), analog zum Kindergeld. Der Lohnempfänger kassiert zwar diese Anteile, sie gehören ihm aber nicht, weil er sie letztlich für die Angehörigen ausgeben muß.
    • Die Arbeitszeit ist zu erhöhen um nicht in der offiziellen Arbeitszeit enthaltene Zeitaufwände, insb. Fahrtzeiten zur Arbeit, ferner ggf. Weiterbildungen o.ä.
In den meisten Fällen wird der Brutto-Stundenlohn unterstellt: er ist am besten bekannt und am leichtesten zu erfassen, denn er ist die Basis zur Berechnung von Steuern und Sozialabgaben.

Aus Sicht eines Arbeitnehmers viel wichtiger ist dagegen der Netto-Stundenlohn oder der subjektive Nettolohn.

Der subjektiver Nettolohn
Der subjektive Nettolohn ist für einen Arbeitnehmer, der z.B. mehrere Job-Angebote vergleicht und das günstigste feststellen will, die sinnvollste Größe. Daher ist er eigentlich auch hinsichtlich der ethischen Bewertung von Lohnungleichheiten die sinnvollste Größe, wird aber praktisch nie dazu herangezogen, weil die entsprechenden individuellen Daten für die Statistiken nicht verfügbar sind. Der Effekt dieser Daten ist hingegen statistisch durchaus relevant:
  • Männer nehmen deutlich längere Anfahrtzeiten zur Arbeit inkauf als Frauen, um höhere Löhne zu erzielen. Laut OECD-Daten sind männliche bzw. weibliche Arbeitnehmer 66 bzw. 51 Minuten täglich unterwegs. Die Differenz von 15 Minuten täglich bzw. 1.25 Stunden wöchentlich macht bezogen auf eine 39-Stundenwoche ca. 3.2% aus, das ist mehr als das bereinigte GPG in den besseren bGPG-Berechnungen!
  • Männer üben gefährlichere Berufe aus als Frauen. Dementsprechend sind die Prämien für persönliche Versicherungen, insb. Berufsunfähigkeitsversicherungen und Risikolebensversicherungen, bei Männern im Schnitt höher. Grob geschätzt kann man von Mehrkosten von 200 - 400 Euro p.a. ausgehen. Bezogen auf ein Nettojahreseinkommen von 20000 Euro macht dies 1 - 2 % aus.
Man kann hier argumentieren, daß z.B. die Fahrtzeiten nicht formal von Arbeitgeber bzw. dem Arbeitsverhältnis verursacht werden und durch einen Umzug vermieden werden könnten. Faktisch wird dies aber oft nicht praktikabel sein. Es ist auch nicht unplausibel, daß ein Arbeitgeber einem Bewerber, der sonst ggf. ein Konkurrenzangebot annehmen würde, einen entsprechenden Fahrtkostenzuschuß zahlt, obwohl dieser nichts mit der Arbeitsleistung zu tun hat.
Problematik des Brutto-Stundenlohns als Vergleichsbasis
Der Brutto-Stundenlohn erscheint auf den ersten Blick als eine vernünftige Grundlage für Lohnvergleiche, um auch Beschäftigungsverhältnisse mit unterschiedlicher Arbeitszeit vergleichen zu können. Er ist es aber nur bedingt.
  1. Die tatsächliche Zahl der geleisteten Arbeitsstunden ist oft nicht bekannt (s. Brautzsch (2012)), speziell im übertariflichen Bereich.
  2. Teilzeitarbeit ist bei vielen Arbeitsplätze unwirtschaftlich: bspw. arbeiten viele Handwerker heute weit entfernt von ihrem Wohnort auf oft wechselnden Einsatzorten. Wegen der langen Anfahrten oder allgemeiner den hohen Grundkosten pro Arbeitseinsatz sind halbe Tage bzw. Teilzeiteinsätze nicht sinnvoll. Dadurch steht für Personen, die nur in Teilzeit arbeiten wollen, ein deutlich kleinerer Teil des Arbeitsmarkts offen. Teilzeitarbeitsplätze haben daher ein höheres Angebot an Interessenten und aufgrund der Marktkräfte geringere Stundenlöhne. Ferner sind die Grundkosten pro Mitarbeiter (Lohnabrechnung, Arbeitsplatz etc.) praktisch unabhängig von der Arbeitszeit, bei Teilzeitmitarbeitern also anteilig höher.

    Aufgrund des statistisch signifikanten Teilzeiteffekts auf die Stundenlöhne ist die grundlegende Annahme fragwürdig, der Stundenlohn sei unabhängig von der Stundenzahl.



Das unbereinigte GPG als Beispiel des Simpson-Paradoxons

Das nächste Problem liegt darin, daß Durchschnitte (Mittelwerte) über zwei verschiedene Populationen gebildet werden und die beiden Populationen hinsichtlich der lohnrelevanten Personen- und Arbeitsplatzmerkmale inhomogen zusammengesetzt sind.

Zum Vergleich: welchen Sinn macht es, beim Wochenmarkt zu jedem Marktstand zu gehen und das standspezifische Durchschnittsgewicht aller Äpfel, Birnen und weiteren Obststücke (Gesamtgewicht geteilt durch die Anzahl der Obststücke) zu berechnen oder analog den Durchschnittspreis pro Obststück? Wenn ein Stand z.B. 1000 Kirschen zu 10 Gramm und 100 Birnen zu 200 Gramm anbietet, wiegt ein Obststück im Durchschnitt ca. 27 Gramm - kein einziges Obststück wiegt tatsächlich so viel, der Aussagewert der Zahl ist begrenzt.

Genauso kritisch ist der Aussagewert des "Durchschnittslohn" einer bestimmten Population zu sehen - leider herrscht in der Allgemeinheit ein fast grenzenloses Vertrauen, daß diese Zahl eine große Aussagekraft hat und irgendetwas Sinnvolles über jede einzelne Person - als ggf. von Unrecht betroffene - oder die Population als ganze aussagt. Statistiker halten Durchschnitte, bei denen nicht zusätzlich die Standardabweichung (= Ausmaß, in dem die Einzelwerte vom Durchschnitt abweichen) generell für unbrauchbar.

Vergleich von Durchschnitten
Erst recht fragwürdig sind Vergleiche von Durchschnitten, wenn die zugrundeliegenden Populationen unterschiedlich zusammengesetzt sind. Um es mit unseren Marktständen zu veranschaulichen: ein zweiter Marktstand hat vielleicht keine Kirschen, stattdessen aber 10 Kürbisse zu 4 kg pro Stück im Angebot, ebenfalls 100 Birnen zu 200 Gramm, aber keine Kirschen. Macht 571 Gramm pro Obststück, die Obststücke sind hier im Schnitt 21 Mal schwerer als am ersten Stand - wird man hier besser bedient als beim ersten Marktstand mit skandalös niedrigen 27 Gramm Durchschnittsgewicht?

Sind zwei "vergleichbare Individuen", also zwei Birnen, an den beiden Ständen verschieden dick? Ist eine Birne am zweiten Marktstand 21 Mal schwerer als am ersten?

Nein, natürlich nicht. Durchschnittswerte enthalten keine sinnvolle Information über einzelne Individuen oder spezielle Untergruppen der Gesamtpopulation, und erst recht kann man keine Unterschiede zwischen Durchschnittswerten auf Individuen übertragen.

Das Simpson-Paradoxon am Beispiel des GPG
Vor allem kann man Durchschnittswerte, die über verschieden zusammengesetzte Populationen gebildet werden, nicht sinnvoll vergleichen. Dies ist ein krasser mathematischer Denkfehler, er ist bekannt als das berühmte Simpson-Paradoxon. Angepaßt an das GPG könnte ein Beispiel für das Simpson-Paradoxon wie folgt aussehen:
Beruf Stundenlohn Anzahl Gehaltssumme
Frauen Männer Frauen Männer Frauen Männer
Dachdecker 30.00 28.00 10 90 300.00 2520.00
Friseur 16.00 14.00 90 10 1440.00 140.00
Summen 100 100 1740.00 2660.00
Durchschnittslohn 17.40 26.60
Die Spalten 2 und 3 zeigen die Stundenlöhne von Frauen und Männern pro Beruf, bei allen Berufen bekommen die Frauen tarifvertraglich einen höheren Lohn. Die Spalten 4 und 5 zeigen die Verteilung von je 100 Männern auf die Berufe, es fällt auf, daß Männer lieber gut bezahlte Berufe wählen, auch wenn man sich dabei den Hals brechen kann. Die Spalten 6 und 7 zeigen die Gehaltssummen, Zeile 1 und 2 für die beiden Berufe im Beispiel, Zeile 3 für die Gesamtpopulation von 200 Personen. Zeile 4 zeigt die Durchschnittslöhne bezogen auf die Gesamtpopulation: Skandal! Das Gender Pay Gap beträgt 34.6 % !!! Obwohl Frauen in allen Berufen bevorzugt werden.


Lohnrelevante Einflußfaktoren und andere "Pay Gaps"

Die vorstehenden Beispiele waren insofern noch unrealistisch einfach als z.B. der Preis von Obst nicht nur von der Obstsorte abhängt, sondern zusätzlich z.B. von der Qualität, dem Herkunftsland und dem Reifegrad. Wenn man also die Preise zweier Obststände vergleicht, muß man diese i.a. nicht identischen Einflußfaktoren irgendwie herausrechnen. Beispielsweise könnten die Birnen eines Stands sehr klein sein (= hoher Abfallanteil), was den Preis drückt, aber eine sehr leckere Sorte sein, was den Preis anhebt. Man muß jetzt zu mehr oder weniger willkürlichen Schätzungen greifen, wie sehr diese Faktoren den Preis beeinflussen. Damit kann man z.B. den Durchschnittspreis einer "Normal-Birne" pro Stand berechnen und auf der Basis die Preise vergleichen.

Die Probleme, die man als Käufer beim Vergleich des Preisniveaus unserer Obststände hat, sind noch harmlos im Vergleich zu den Problemen, wenn man den Preis für Arbeitsleistungen, also Bruttostundenlöhne, von Männern und Frauen vergleichen muß. Die Zahl der lohnrelevanten Merkmale und Vielfalt der Ausprägungen der Merkmale ist wesentlich höher. Anders gesagt gibt es eine ganze Liste von Merkmalen (a) des Arbeitsplatzes und (b) des Arbeitnehmers, die zu Preisunterschieden führen. Als Beispiel betrachten wir die Löhne von Ingenieuren in Deutschland gemäß dem lohnspiegel.de, das auf dem WSI-Tarifarchiv der Hans-Böckler-Stiftung basiert.

Wenn man in den dort verwendeten Rohdaten die Beschäftigungen nach der Berufserfahrung des Arbeitnehmers klassifiziert pro "Berufserfahrungsklasse" den Lohndurchschnitt bildet, dann erhalten die Arbeitnehmer mit weniger als 5 Jahren Berufserfahrung im Durchschnitt 28% weniger Lohn als die Arbeitnehmer 20 bis 29 Jahren Berufserfahrung. Die Berufserfahrung ist der Einflußfaktor mit dem größten Einfluß auf die Lohndifferenz, die größten Einflußfaktoren sind:

  1. Berufserfahrung: 28%, verglichene Klassen: "weniger als 5 Jahre" vs. "20 bis 29 Jahre"
  2. Betriebsgröße: 24%, verglichene Klassen: "weniger als 100 Beschäftigte" vs. "über 500 Beschäftigte"
  3. Region: 23%, verglichene Klassen: "neue Bundesländer" vs. "alte Bundesländer"
  4. Branche: 23%, verglichene Klassen: "Bauingenieure" vs. "Elektronik- und Fernmeldeingenieure"
  5. Bildungsabschluß: 21%, verglichene Klassen: "FH-Diplom" vs. "Promotion"
  6. Geschlecht: 17%, verglichene Klassen: "Frauen" vs. "Männer"
  7. Tarifbindung 17%, verglichene Klassen: "tarifgebundener Betrieb" vs. "nicht tarifgebundener Betrieb"
In allen vorstehenden Fällen ist der Durchschnittslohn immer gleich, denn es handelt sich um den gleichen Datenbestand. Anders ist jeweils nur das Merkmal, nach dem die Beschäftigungsverhältnisse gruppiert werden. Vorstehend angegeben ist jeweils die Klasse mit dem geringsten und dem höchsten Durchschnittslohn und die prozentuale Differenz auf Basis des höheren Werts. Es gibt also auch
  • ein Berufserfahrungs-Pay-Gap,
  • ein Betriebsgrößen-Pay-Gap,
  • ein Regionen-Pay-Gap,
  • ein Bildungsabschluß-Pay-Gap und
  • ein Tarifbindungs-Pay-Gap.

Man erkennt sofort, daß das Geschlecht, wenn überhaupt, höchstens einer von vielen Einflußfaktoren auf Lohndifferenzen ist. Die 17% Differenz kann man nur dann alleine auf das Geschlecht zurückführen, wenn die Populationen der Männer und Frauen bzgl. aller anderen Kriterien gleich verteilt sind, andernfalls würden wir den gleichen Fehler wie beim Simpson-Paradoxon begehen. Die beiden Populationen sind aber deutlich verschieden zusammengesetzt: Frauen haben im Schnitt weniger Berufserfahrung als Männer, arbeiten häufiger in kleineren Betrieben, streben nicht so hohe Bildungsabschlüsse an, und haben in Ostdeutschland aufgrund der Strukturen in der damaligen DDR häufiger Ingenieurfächer studiert als im Westen. Es ist hochgradig unseriös, den Eindruck zu erwecken, das hier zu beobachtende GPG von 17% sei ein Unterschied, der ausschließlich mit dem Geschlecht zusammenhängt bzw. ausschließlich vom Geschlecht "verursacht" wird.



"Bereinigung" des GPGs durch Multifaktorielle Analysen

Vergleich statistischer Zwillinge
Wenn man also durch Vergleich einzelner Beschäftigungsverhältnisse den Einfluß des Geschlechts bestimmen will, darf man nur Männer und Frauen vergleichen, bei denen alle lohnrelevanten Einflußfaktoren (bis auf das Geschlecht) identisch sind. Solche Paare nennt man statistische Zwillinge.

Man kann nun einzelne statistische Zwillingspaare bilden und deren Lohn vergleichen. Weil die Zahl lohnrelevanter Merkmale hoch ist und viele Merkmale viele verschiedene Ausprägungen haben, findet man aber nicht zu jedem Beschäftigungsverhältnis einen statistischen Zwilling. In stark männer- bzw. frauendominierten Berufen die Dachdecker oder Grundschullehrer könnte man fast keine Zwillingspaare bilden.

Generell liegt eine (horizontale) Geschlechtersegregation am Arbeitsmarkt vor: die meisten Männer und Frauen arbeiten in einem Beruf, der stark von einem Geschlecht dominiert wird. D.h. bei der Mehrheit der Arbeitsverhältnisse findet man keinen statistischen Zwilling.

Obwohl intuitiv naheliegend, ist daher die GPG-Berechnung auf Basis statistischer Zwillinge problematisch und nicht üblich.

Die Oaxaca-Blinder-Zerlegung
Üblicherweise wird zur Aufteilung des statistischen Einflusses der Einflußfaktoren ein sehr kompliziertes statistisches Verfahren angewandt, die sogenannte Oaxaca-Blinder-Zerlegung. Eine halbwegs lesbare Erklärung bietet Anger (2010).

Basis ist eine Liste von in den Daten erfaßten Faktoren, die die Lohnhöhe beeinflussen, z.B. Bildungsgrad, Berufserfahrung etc. Deren "Größe" muß als ein numerischer Wert codiert werden. Stark vereinfacht gesagt zerlegt dieses Verfahren die Löhne in selbständige Anteile, die von den Einflußfaktoren bestimmt werden. Aus den Rohdaten Wird nun für Frauen bzw. Männer jeweils eine Prognose- bzw. Schätzformel abgeleitet, mit der man für ein gegebenes Beschäftigungsverhältnis anhand der Einflußfaktoren den Stundenlohn bis auf einen "unerklärten Rest" schätzen kann. Die Koeffizienten in den Schätzformeln, also die Gewichte der Einflußfaktoren, werden so optimiert, daß sich auf die gesamte Population bezogen ein möglichst kleiner Schätzfehler ergibt. Das GPG wird am Ende nur noch durch Division der zentralen Koeffizienten in den beiden Schätzformeln berechnet.

Im Endeffekt werden hier die Einflußfaktoren aus dem Zusammenhang gerissen betrachtet. Z.B. wird der Mehrwert eines akademischen Grades unabhänig vom Alter, Branche und anderen Faktoren berechnet. Nur aufgrund dieses Tricks ist es möglich, Löhne aus ganz verschiedenen Arbeitsverhältnissen in der Statistik zu verwerten: der Gesamtlohn wird virtuell in unabhängige Komponenten zerlegt.

In vielen Publikationen heißt es dann z.B., daß das unbereinigte GPG (Basis: Brutto-Stundenlöhne) 23% beträgt, davon aber 15% durch erfaßte Einflußfaktoren "statistisch erklärbar" oder auf diese "rückführbar" sind, und nur die restlichen 8% "mit den vorhandenen Daten "nicht erklärbar" sind. Erklärt wird hier aber nichts.

An dieser Stelle muß eindringlich vor blindem Vertrauen in die Oaxaca-Blinder-Zerlegung gewarnt werden: in dieses Schätzverfahren gehen mehrere willkürliche Annahmen, u.a. über die Linearität der Wirkung der Einflußfaktoren (s. Literatur zur Oaxaca-Blinder-Zerlegung).

Ferner wird der "unerklärte Rest" immer wieder dahingehend falsch interpretiert, daß bei "gleicher Qualifikation etc." Frauen z.B. 6% weniger Lohn bekommen, statistische Zwillinge also ungleich bezahlt werden. Dies ist falsch! Auch wenn alle statistische Zwillinge gleich bezahlt werden, kann das bereinigte GPG z.B. 7% betragen, denn hier werden sozusagen Äpfel mit Birnen verglichen.

Abhängigkeit von den Rohdaten
Je nach Datenbestand sind andere Merkmale von Arbeitnehmern und Arbeitsplätzen erfaßt, ferner können die erfaßten Merkmalsausprägungen verschieden sein. Die oben zitierten Lohnspiegel-Daten basieren auf einer Umfrage der Gewerkschaft ver.di. Eine sehr viel größere Stichprobe der Bevölkerung liegt den vielzitierten Verdienststrukturanalysen des Statistischen Bundesamts zugrunde: Verdienststrukturerhebung (VSE). Hier erfaßt sind alle Beschäftigungsverhältnisse
  • mit Ausnahme von Landwirtschaft, Fischerei, öffentlicher Verwaltung, privaten Haushalte und exterritorialen Organisationen
  • in Betrieben mit wenigstens 10 Beschäftigten
  • von allen Arbeitnehmern ohne Altersbeschränkung oder Einschränkung der Stundenzahl, d.h. Teilzeiterwerbstätige sind enthalten.
Der erfaßte Bruttostundenlohn beinhaltet bezahlte Überstunden, aber keine außerordentlichen Zahlungen.

In den VSE-Daten sind u.a. Berufsgruppen der Beschäftigungsverhältnisse erfaßt, in Destatis (2012) wird auf dieser Basis das GPG nach Berufsgruppen separiert ausgewiesen. Bei Handwerks- und verwandten Berufen beträgt das GPG 25%, bei Bürokräften nur 4%. Es sollte kaum überraschen, daß die Tarifverträge für Berufe wie Friseur und Arzthelfer generell schlechtere Bezahlungen vorsehen als die Tarifverträge für Bauberufe, in denen man bei Wind und Wetter auf Außengerüsten herumklettert. Daß es sich in beiden Fällen um "Handwerksberufe" handelt ist offensichtlich kein ausreichendes Kriterium, diese Berufe als gleichwertig hinsichtlich der Bezahlung zu anzusehen. Die unangenehmen oder gefährlichen Berufe werden fast nur von Männern ausgeübt, daher ist das hohe GPG bei den Handwerksberufen i.w. durch Gefahren- bzw. Erschwerniszulagen, auf die Frauen dankend verzichten, verursacht. Anders gesehen fehlen hier Daten für sinnvolle GPG-Berechnungen: man müßte die Gefahren- bzw. Erschwerniszulagen aus den Gehältern herausrechnen. Diese Daten können aber praktisch kaum bundesweit sinnvoll erfaßt werden. Dies ist ein Beispiel für das generelle Problem, daß die GPGs aufgrund fehlender Daten nicht wirklich "bereinigt" werden können.



Statistische Analysen erklären nichts

Die Ergebnisse multifaktorieller statistischer Analysen werden oft so formuliert: Die Einflußfaktoren X, Y und Z erklären eine Lohndifferenz von 3, 2 bzw. 5%.

Der Begriff "(statistisch) erklären" wird hier leider regelmäßig mißverstanden. "Erklärt" im Sinne einer Kausalität oder eines Rechenverfahrens, mit dem man einzelne Löhne bestimmt, wird durch multifaktorielle statistische Analysen rein gar nichts. Wenn z.B. die Einflußfaktoren X, Y und Z jeweils 3, 2 bzw. 5% erklären, dann heißt das nicht, daß sich die Gehälter von 2 Personen, die sich nur in genau einem Faktor unterscheiden, um diese Prozentzahl unterscheiden - der konkrete Gehaltsunterschied kann beliebig anders aussehen oder sogar ein anderes Vorzeichen haben.

Das Problem der Falschinterpretationen von Statistiken ist besser bekannt mit Korrelationen, die als Kausalität fehlinterpretiert werden und die Anlaß zu zahllosen Witzen sind. Beispielsweise kann man "statistisch beweisen", daß Störche die Kinder bringen.

Die Gewichte der Einflußfaktoren sind sozusagen quantifizierte Korrelationen: wenn sich der Einflußfaktor um einen bestimmten numerischen Betrag ändert, ändert sich auch die Zielgröße, hier der Stundenlohn, um einen gewissen Betrag. Letztlich sucht die multifaktorielle Analyse nach einer Formel, in die man die quantifizierten Einflußfaktoren als Parameter einsetzt und dann eine möglichst gute Schätzung der Zielgröße erhält. Dabei ist zunächst über die Struktur der Formel zu entscheiden, insb. ob sich die Effekte der Einflußfaktoren addieren oder multiplizieren oder vielleicht noch anders zusammenwirken - hier gehen z.T. völlig willkürliche Annahmen in die Analysen ein. Wenn die Struktur entschieden ist, können anschließend die "Gewichte" der Einflußfaktoren geschätzt werden. Die Gewichte werden so adjustiert, daß die Formel insgesamt im Durchschnitt den geringsten Schätzfehler produziert.

Diese Gewichte sind also reine statistische Schätzgrößen, die insgesamt im Durchschnitt den geringsten Schätzfehler produzieren, wenn man alle individuellen Löhne auf Basis aller bekannten Einflußfaktoren prognostiziert. Diese Schätzgrößen sind selber zu einem gewissen Grad unsicher, also nur z.B. mit +/- 0.5% Genauigkeit zuverlässig bestimmbar, vor allem bei kleinen Datenbeständen kann die Unsicherheit groß werden.

Zusammengefaßt: Der Vergleich von Größen wie dem Brutto-Stundenlohn zwischen sehr heterogen zusammengesetzten Populationen ist ein mathematisch äußerst anspruchsvolles Problem. Der Vergleich von unbereinigten Durchschnitten ist völlig sinnlos. Wenn überhaupt, ist nur ein Vergleich von Durchschnitten sinnvoll, die um die "statistisch erklärbaren Anteile" bereinigt wurden. Allerdings sind auch die bereinigten Anteile mit großer Vorsicht zu genießen:

  • Der Begriff "erklärbar" erweckt den falschen Eindruck, es gäbe eine Kausalität in der Lohnfindung im Sinne einer Rechenformel, die ausgehend von den quantifizierten Einflußfaktoren einzelne Löhne bestimmt, analog wie in einem Tarifvertrag. Hinzu kommt oft der Denkfehler, statistische Unterschiede als Diskriminierung fehlzuinterpretieren.
  • Die angegebenen Gewichte weisen einen Schätzfehler auf (was übrigens durchgängig verschwiegen wird, nicht zu reden davon, den Schätzfehler zu quantifizieren). Dieser ist teilweise verursacht durch die mathematischen Verfahren und durch die willkürliche Struktur der Schätzformel für Löhne. Viel gravierender sind aber Mängel in den Daten, z.B. Datenerfassungsfehler und vor allem das Fehlen lohnrelevanter Merkmale in den Daten. D.h. die konkret angegebenen numerischen Werte der Gewichte, insb. das Gewicht des "statistisch unerklärten" Anteils, weisen einen Fehler auf, dessen Größe unbekannt bleibt.
Insgesamt gibt es für Deutschland keine sicheren Erkenntnisse, die einen tatsächlich vorhandenen statistisch relevanten Unterschied in den bereinigten Durchschnitten beweisen.


Negative GPGs / Reverse Gender Pay Gaps

Als negative GPGs (oder reverse gender pay gap oder reverse gender gap) bezeichnet man GPGs zugunsten von Frauen. Beim unbereinigten GPG ergibt der negative Wert durch die (simplifizierende) Formel GPG = (M-F)/M, worin M bzw. F der Durchschnittsstundenlohn von Männern bzw. Frauen ist. Der Begriff einer "negativen Lücke" ist eigentlich sprachlicher Unsinn, aber hier vertretbar. Mathematisch leicht unsauber ist der Bezug auf den kleineren Wert in der Division. Korrekter wäre es, das "weibliche GPG" oder "umgekehrte GPG" (häufige englische Bezeichnung: reverse gender pay gap) als (M-F)/F zu definieren, die Werte wären dann geringfügig kleiner.
Beispiele negativer GPGs
  1. Schon seit gut 10 Jahren liegen in fast allen Großstädten der USA in der Altersklasse bis ca. 35 Jahre die Gehälter der Frauen ca. 8% höher, in einzelnen Städten bis zu 20%, s. Alfonsi (2010), Bentley (2015), Luscombe (2010), Torregrosa (2011).
  2. Ähnliches berichtet OGrady (2010) für die jungen Frauen in Großbritannien: in 2009 lag für die Altergruppe 22 bis 29 Jahre ein landesweites negatives GPG von 1.7% vor, für 2015 ebenfalls (s. Braham (2016)).
  3. Negative GPGs traten auf, wenn man nur Teilzeitbeschäftigte betrachtete. Nach Braham (2016) lag für diese Gruppe z.B. landesweit in Großbritannien ein negatives GPG von 6.5% vor. Ähnliche Zahlen berichtet das Office for National Statistics, UK (2016).
  4. Andrews (2017) berichtet von einem kleinen negativen GPG (rund 3 %) in Nordirland.
  5. Breach (2017) berichtet von negativen GPGs innerhalb von bzw. zwischen ethnischen Gruppen.
  6. Sofern man statt sehr großer Populationen kleinere betrachtet, streuen die regionalen GPGs deutlich um den landesweiten Durchschnitt. Beispielsweise zeigen die Übersichten in Hirsch (2009) einzelne Regionen in Deutschland mit negativen GPGs, s. ferner DPA (04.08.2017).

    Konkret verdienen in den ostdeutschen Bundesländern Sachsen-Anhalt, Mecklenburg-Vorpommern und Brandenburg Frauen mehr als Männer (Heinrichs (2017)).

  7. Auch in der Mongolei führt das negative GPG zu Klagen von Frauen, keine akzeptablen Männer zu finden (General (2018) und Kuo (2018)).
  8. Bei den weiblichen CEOs der S&P-Unternehmen liegt das Median-Einkommen rund 19% höher als bei Männern, s. Durden (2017) und McGregor (2017).
  9. Ähnliche Ergebnisse werden für die deutlich größere Gruppe der high potenials berichtet Leslie (2016).
  10. Die spezielle Berufsgruppe der Models weist ein gigantisches negatives GPG auf, s. u.a. Snyder (2015).
Feministische Interpretation negativer GPGs
Gemäß der üblichen feministischen Bewertung und Instrumentalisierung von GPGs müßte man eigentlich auf eine Diskriminierung von Männen schließen und analoge Maßnahmen zugunsten von Männern wie bei positiven GPGs fordern.

Dies würde allerdings das Dogma von der allgegenwärtigen Diskriminierung von Frauen falsifizieren. Negative GPGs werden daher üblicherweise als Beweis der intellektuellen Überlegenheit von Frauen, also als sachlich begründet, interpretiert oder hilfsweise als irrelevant und Ausgleich für Jahrtausende der Frauenunterdrückung gefeiert.


Datenbestände zum GPG und deren (fehlende) Repräsentativität

Die Verdienststrukturerhebung (VSE) des Statistischen Bundesamts

Die Verdienststrukturerhebung des Statistisches Bundesamts bzw. der damit erfaßte Datenbestand ist eine sehr umfangreiche Stichprobe der Verdienste in Deutschland. Wichtige Merkmale der VSE sind:
  • Die Daten werden bei öffentlichen und privatwirtschaftlichen Arbeitgebern erhoben. Für die Arbeitgeber besteht laut Verdienststatistikgesetz Auskunftspflicht.
  • Die Stichprobe wird zweistufig gezogen. Auf der 1. Stufe werden maximal 60 000 Betriebe ausgewählt. Auf der 2. Stufe werden innerhalb der Betriebe Beschäftigungsverhältnisse per Zufallsverfahren ausgesucht. Für 2014 wurden 1,0 Million Beschäftigungsverhältnisse erfaßt.
  • In den Wirtschaftsabschnitten "Erziehung und Unterricht" und "Öffentliche Verwaltung, Verteidigung; Sozialversicherung" wurde zum überwiegenden Teil auf eine Befragung verzichtet.
  • Die Verdienststrukturerhebung ist eine Statistik über Beschäftigungsverhältnisse. Selbständige Tätigkeiten werden daher nicht erfaßt.
Finke (2010) beschreibt in Tabelle 2 (S. 7-8) die in die GPG-Berechnung einbezogenen Merkmale der Beschäftigungsverhältnisse. Erfaßt werden viele Merkmale der Arbeitnehmer (Geburtsjahr, Dauer der Unternehmenszugehörigkeit, Ausbildung usw.), der Beschäftigungsverhältnisse (Arbeitsstunden, Leistungsgruppe, Art der Beschäftigung, Urlaubsanspruch usw.) und der Arbeitgeber. Allerdings sind mehrere lohnrelevante Merkmale nicht erfaßt, z.B.

  • die kompletten Lebensläufe von Arbeitnehmern inkl. Arbeitsunterbrechungen,
  • Arbeitszeugnisse, dienstliche Beurteilungen und generell die tatsächlich erbrachte Leistung,
  • Krankheitszeiten,
  • besondere Belastungen bzw. mit der Berufsausübung zusammenhängende Unkosten, z.B. lange Anfahrtswege zu wechselnden Arbeitsorten.
Finke (2010) weist (leider etwas versteckt) in Fußnote 26 explizit auf einige der Defizite in den Daten hin:
So kann beispielsweise auf einige relevante lohndeterminierende Merkmale zur Ermittlung des bereinigten Gender Pay Gap im Rahmen der Analyse der VSE nicht zurückgegriffen werden. Hierzu zählen etwa der Familienstand, die Anzahl der Kinder, der Umfang der tatsächlichen Berufserfahrung und das individuelle Verhalten in Lohnverhandlungen. Die Nicht-Berücksichtigung dieser Merkmale resultiert unter anderem aus der der VSE zugrunde liegenden Erhebungsmethode. ... Während dem Arbeitgeber zahlreiche Merkmale wie etwa das Geschlecht oder auch das Alter des Beschäftigten bekannt sind, liegen beispielsweise vollständige Angaben zu den Erwerbesunterbrechungen - bedingt durch Arbeitsplatzwechsel - in der Regel nicht vor. Andere Merkmale wie etwa das individuelle Verhalten in Lohnverhandlungen lassen sich in quantitativ ausgerichteten Studien nur mit enorm hohem Aufwand messen.
Die besonders wichtige Berufserfahrung kann nach Fußnote 16 nur mit einem Verfahren geschätzt werden, das bei Frauen zu einer Überschätzung der Berufserfahrung führt:
Um die Berufserfahrung als erklärende Variable auch in Untersuchungen berücksichtigen zu können, in denen das Merkmal nicht direkt abgefragt wurde, erfolgt in der Regel eine näherungsweise Ermittlung dieser Größe über das Alter und die Ausbildungsdauer ... . Den Arbeitnehmern wird im Rahmen dieses Vorgehens ein ununterbrochener Erwerbsverlauf unterstellt. Da jedoch vor allem bei Frauen Erwerbsunterbrechungen zu beobachten sind, führt dies insbesondere bei weiblichen Arbeitnehmern zu einer Überschätzung der Berufserfahrung.
Lesenswert sind ferner die Fußnoten 15 und 17 hinsichtlich der notwendigen Vorverarbeitung der Daten, um sie statistisch analysieren zu können, und der Auswahl der Schätzgrößen, was zu einem gewissen Schätzfehler führen kann.

Finke weist zusammenfassend auf Seite V explizit auf die Konsequenzen der fehlenden lohnrelevanten Merkmale hin:

"... Der ermittelte [GPG] wäre geringer ausgefallen, wenn der Berechnung weitere lohnrelevante Eigenschaften - vor allem Angaben zu Erwerbsunterbrechungen - zur Verfügung gestanden hätten."

Gesamtbeurteilung: Der VSE-Datenbestand ist der mit großem Abstand größte und beste Datenbestand im Kontext der GPG-Debatte. Allerdings sind nicht alle lohnrelevanten Merkmale erfaßt, ferner fehlt mit der öffentlichen Verwaltung ein großer Arbeitsmarktsektor, in dem wegen der strengen Tarifbindung im Prinzip kein bereinigtes GPG bestehen kann.



VSE kombiniert mit SOEP

Boll (2015) berichtet über Analysen, die im Hamburgischen WeltWirtschaftsInstitut (HWWI) durchgeführt wurden und in denen die Daten der Verdienststrukturerhebung kombiniert wurden mit Daten aus dem Sozio-oekonomischen Panel (SOEP).

Analysiert wurden u.a. die Auswirkungen auf das unbereinigte GPG und das bereinigte GPG, wenn Einmalzahlungen, tatsächliche (statt vereinbarte) Arbeitsstunden, Kleinbetriebe und öffentliche Verwaltung einbezogen werden. Wenn man die Informationen des SOEP so weit wie möglich ausschöpft, beträgt das bereinigte GPG nur noch 2.3 % bei einem unbereinigten GPG von 22.8 %.



Fehlerquelle "(potentielle) Berufserfahrung"

Viel Berufserfahrung, und zwar möglichst einschlägige Berufserfahrung, zählt zu den wichtigsten Einflußfaktoren das erzielbare Gehalt. Dummerweise kann die Berufserfahrung eines Arbeitnehmers nur nur auf Basis eines vollständigen Bildungs- und Lebenslaufs gemessen werden, aus dem u.a. Zeiten für Ausbildung, Wehrdienst, Arbeitslosigkeit etc. hervorgehen. Derart genaue Angaben liegen in den Datenbeständen i.d.R. nicht vor. Daher werden stattdessen Ersatzgrößen ("Proxy-Variablen") verwendet, u.a.:
  • das Alter
  • Alter - Ausbildungsjahre - 6. Diese Ersatzgröße wird u.a. in der VSE benutzt, s. S. 7, Tabelle 2, Variable "Berufserfahrung" und Variable "Berufserfahrung quadriert". In späteren Tabellen in Finke (2010) heißt der entsprechende Eintrag "potenzielle Berufserfahrung".
  • (potentielle) Berufserfahrung abzüglich einer Betreuungszeit pro erfaßtem Kind.
Diese und andere Ersatzgrößen führen allerdings i.a. zu einem erheblichen Fehler bei der Berechnung des bereinigten GPGs (s. Gosse (2002), Abschnitt 5.4), weil bei Frauen Erwerbsunterbrechungen wesentlich häufiger vorkommen als bei Männern und weil die potentielle Berufserfahrung die tatsächliche Berufserfahrung deutlich überschätzt (s. Miller (1993)). Im Endeffekt wird ein zu großer Wert für das bereinigte GPG berechnet.

Finke (2010) z.B. kommt wegen der falsch geschätzten Berufserfahrung zum (absurden) Ergebnis, daß die Berufserfahrung praktisch keinen Einfluß auf den Lohn hat. In den Tabellen 18, 20 und 22, die eine detaillierte Zerlegung des Gender Pay Gap für ganz Deutschland, Westdeutschland bzw. Ostdeutschland angeben, werden 0.0, 0.2 bzw. -0.6 Prozentpunkte des unbereinigten GPGs durch die Berufserfahrung "erklärt". Der negative Wert zeigt sogar einen völlig unplausiblen negativen Einfluß auf den Lohn an.

Ebenfalls nicht korrekt dargestellt in der Schätzgröße wird:

  • der Effekt von Teilzeitbeschäftigungen: tendenziell wird bei einer Halbtagsbeschäftigung weniger Erfahrung gesammelt als bei einer Vollzeitbeschäftigung,
  • die Einschlägigkeit der Berufserfahrung, insb. wenn frühere Beschäftigungen aus Sicht der aktuellen Beschäftigung fachfremd und daher wertlos waren.
Beide Fehlerquellen sind tendenziell bei Frauen häufiger als bei Männern (s. Miller (1993)).


Der WSI-Datenbestand

Dieser Datenbestand wird vom Wirtschafts- und Sozialwissenschaftlichen Institut der Hans Böckler Stiftung (WSI) erhoben. Über die Seite www.lohnspiegel.de werden regelmäßig Gehaltsumfragen durchgeführt. Über ein ca. 20 Seiten langes Formular kann man anonym Daten eingeben, d.h. es gibt keinerlei Schutz vor Mißbrauch, und es bleibt völlig offen, wie repräsentativ die hier gewonnene Stichprobe ist. Informationen über die Größe und Zusammensetzung des Datenbestands werden bei den Eigendarstellungen und Auswertungstabellen nicht angezeigt.

Laut Diringer (2015) waren in 2015 Insgesamt 18.649 Datensätze (12.525 Männer, 6.124 Frauen) für 20 Berufe erfaßt. Von den Frauen waren allein 1.003 Krankenschwester und 860 Verkäufer, aber nur 54 Chemiker. Die Gehaltstabellen für Chemieberufe weisen für insgesamt 10 Berufsgruppen (z.B. Chemieingenieur/in) unterschiedliche durchschnittliche Bruttomonatseinkommen auf 4 Stellen genau aus, obwohl im Schnitt nur 5 Frauen pro Berufsgruppe vorhanden sein können.

Gesamtbeurteilung: Der WSI-Datenbestand ist sehr unzuverlässig und praktisch unbrauchbar für präzise GPG-Berechnungen. Die Datenerhebung ist manipulationsanfällig (s. Diringer (2014) ) und fehleranfällig, Die Teilnehmerzahlen, insb. die der Frauen, sind viel zu klein, um sinnvolle Durchschnitte bilden bzw. multifaktorielle Analysen durchführen zu können. Die berechneten GPGs kann man bestenfalls als schwache Indizien werten, daß ein GPG vorhanden sein könnte. Auf die Unzuverlässigkeit der Angaben wird leider nicht hingewiesen. Oben wurde schon betont, daß die Berichterstattung über das GPG auf lohnspiegel.de hochgradig unseriös ist. Ein deutliches Indiz für die Unzuverlässigkeit der Angaben sind teilweise erhebliche Veränderungen in den GPGs zwischen aufeinanderfolgenden Kalenderjahren (s. Diringer (2015)).



Der Datenbestand der Hay-Analyse

Die Personal- und Organisationsberatung Korn Ferry in der Hay Group publizierte 2016 eine oft zitierte GPG-Berechnung. Basis war eine Gehaltsdatenbank mit insgesamt 294.000 Gehältern von Männern und Frauen von 353 Firmen in Deutschland (als Teil einer internationalen Analyse mit insg. 8.7 Millionen Fällen). Als Klassifikationsattribute wurden verwendet:
  • das Alter der Mitarbeiter, das in drei Generationen klassifiziert wurde (Baby-Boomers, Generation X, Generation Y)
  • der Arbeitsbereich im Unternehmen bzw. Branche (Finance/Accounting, Sales, Administration, HR)
  • die Unternehmensgröße (4 Klassen)
Die Analyse ergab, daß bei den jüngeren Mitarbeitern (Generation Y) nur minimale GPGs auftreten oder sogar negative, d.h. Frauen verdienen in den Vergleichsgruppen sogar mehr als Männer. Gehaltsunterschiede zwischen den Geschlechtern kommen, wenn überhaupt, eher in kleinen Unternehmen und bei älteren Mitarbeitern vor.

Gesamtbeurteilung: Mit rund 300.000 Arbeitsverhältnissen ist die Stichprobe zwar sehr groß, sie ist deswegen aber nicht notwendig repräsentativ für den gesamten Arbeitsmarkt. Für die 4 o.g. Branchen sind die zugehörigen Anteile wegen der großen Zahl vermutlich repräsentativ, für alle anderen Branchen eher nicht.

Die Menge der betrachteten Attribute ist sehr klein, vor allem im Vergleich zur VSE. Im Vergleich zur VSE ist die Berufserfahrung deutlich vergröbert erfaßt, die Arbeitsplatzbeschreibungen - die für Personalvermittler besonders wichtig sind - hingegen deutlich genauer klassifiziert ("job level", Unternehmen und "Funktion").

Daß diese wenigen Attribute ausreichen, um das GPG auf nahezu 0 zu bereinigen, kann als sehr deutliches Indiz gewertet werden, daß in den hier abgedeckten Branchen bzw. Tätigkeitsbereichen das bereinigte GPG tatsächlich praktisch 0 ist und daß die Arbeitsplatzbeschreibungen bzw. Qualifikationsanforderungen des Arbeitsplatzes, die sich nicht immer in den formalen Qualifikationen oder der in Berufsjahren gemessenen Erfahrung ausdrücken, einen signifikanten Einfluß auf die Dotierung einer Stelle haben.

Quellen


Der Datenbestand der Glassdoor-Analyse

Glassdoor, Inc, ist ein Analyseinstitut für Arbeitsmarktdaten. In der umfangreichen Analyse Chamberlain (2016) (Kurzfassung: Chamberlain (2016a)) werden bereinigte und unbereinigte GPGs von 5 Ländern (USA, United Kingdom, Australien, Deutschland, Frankreich) berechnet. Die Studie kommt in allen Ländern auf relativ ähnliche Ergebnisse wie die Destatis-Analysen. Die Daten stammen weit überwiegend aus den USA, es sind nur 1603 Fälle aus Deutschland, die Stichprobe kann daher für Deutschland nicht als repräsentativ angesehen werden. Es wird ein unbereinigtes GPG von 22.5% für die Grundgehälter berechnet.

Interessant an dieser Studie ist neben einer speziellen Datenerfassungsmethode, daß zwei verschiedene Bereinigungsmethoden parallel verwendet werden. Wenn die Daten nach Methode der "Comparable Workers" (statistische Zwillinge) bereinigt werden, verbleibt ein Rest von 5.5%. Zur Bereinigung werden neben diversen üblichen Merkmalen auch die Job-Bezeichnungen verwendet. Bei Verwendung der Oaxaca-Blinder-Zerlegung bleiben 11.1%, also fast die Hälfte, "unerklärt", also weitaus mehr als bei den wesentlich umfangreicheren VSE-Daten.

Quellen


Zusammenfassung: Typische fehlende lohnrelevante Daten

Zunächst kann festgehalten werden, daß es sehr viele lohnrelevante Merkmale von Beschäftigungsverhältnissen gibt. Die VSE erfaßt alleine 15 Merkmale, andere Datenbestände erfassen nur wenige weitere Merkmale. Die VSE hat eine herausragende Bedeutung, da die Stichprobe sehr groß ist, da sie sehr langfristig durchgeführt wurde und da sie internationale Vergleiche ermöglicht - nationale Statistiken in diversen anderen Ländern verwenden die gleichen Merkmale. Daher konzentrieren wir uns hier i.w. auf die in der VSE fehlenden lohnrelevanten Daten und vergleichen sie mit anderen Datenbeständen, die weitere Merkmale erfaßt haben.

Viele Merkmale der VSE, z.B. Berufshauptgruppe, Beschäftigungsumfang oder Unternehmensgröße, erscheinen hinreichend präzise erfaßt. Viele Merkmale haben nur ferner einen geringen statistischen Einfluß auf den Lohn, so daß eine vereinfachte Erfassung, z.B. durch wenige Kategorien von Unternehmensgrößen, vertretbar erscheint. Zwei sehr wichtige Merkmale werden allerdings sehr ungenau erfaßt, und zwar

  1. die qualitativen Qualifikations- und quantitativen Leistungsanforderungen des Arbeitsplatzes
  2. die tatsächliche Qualifikation und die tatsächliche Leistung des Stelleninhabers
Zunächst einmal werden beide Merkmale in der VSE nicht klar getrennt und können nur grob aus folgenden anderen erfaßten Merkmalen erschlossen werden:
  1. Leistungsgruppe; Kategorien: Arbeitnehmer in leitender Stellung, herausgehobene Fachkräfte, Fachangestellte, angelernte Arbeitnehmer, ungelernte Arbeitnehmer, geringfügig Beschäftigte, Auszubildende.
    Dies ist in erster Linie ein Merkmal der Stelle, allerdings werden hierdurch auch Qualifikationsanforderungen grob definiert, und mit hoher Wahrscheinlichkeit werden Stelleninhaber entsprechende formale Qualifikationen aufweisen.
  2. Ausbildung; Kategorien: mit Hochschulabschluss, mit Berufsausbildung, ohne Berufsausbildung.
    Dies ist ein Merkmal des Stelleninhabers. Die Kategorisierung ist sehr grob. Bei den Hochschulabschlüssen wird z.B. kein Unterschied gemacht zwischen Bachelor- und Master-Abschlüssen oder einer Promotion, obwohl die höherwertigen Abschlüsse i.d.R. zu höheren Anfangsgehälter und besseren Aufstiegschancen führen. Die abhängig von Dauer und Schwierigkeitsgrad des Studiums sehr unterschiedlichen Investitionen in die eigene Qualifikation - die eigentlich durch entsprechend höhere Gehälter kompensiert werden sollten - werden nicht erfaßt. Dies gilt auch für Praktika, Zertifikate u.a. (Weiter-) Bildungsmaßnahmen, die nicht zu einer höheren formalen Qualifikation führen.
  3. (potentielle) Berufserfahrung
    Dies ist ein Merkmal des Stelleninhabers, Schätzverfahren und dessen Fehler siehe oben.
Die Merkmale sind so stark vergröbert, so daß es kaum möglich erscheint, auf dieser Basis für ein einzelnes Beschäftigungsverhältnis den angemessenen Lohn halbwegs genau zu schätzen. Auf die beiden Gesamtpopulationen (Männer bzw. Frauen) bezogen stört dies wiederum nicht, solange die Fehler bei beiden Populationen gleich verteilt sind. Diese Annahme ist wiederum nicht plausibel, da Frauen und Männer verschiedene Berufe und Branchen bevorzugen und verschiedene Biographien haben. Insb. die Hay-Analyse deutet stark darauf hin, daß eine genauere Erfassung der Arbeitsplatzmerkmale zu einem wesentlich kleinen GPG führt.

Die vielzitierte Passage aus Finke (2010)

Der ermittelte Wert [des GPGs] ist eine Obergrenze. Er wäre geringer ausgefallen, wenn der Berechnung weitere lohnrelevante Eigenschaften - vor allem Angaben zu Erwerbsunterbrechungen - zur Verfügung gestanden hätten.
ist vor diesem Hintergrund eine Untertreibung. Nicht nur die Erwerbsunterbrechungen, sondern viel genereller ist die Qualifikation der Arbeitnehmer nur unzureichend erfaßt, ebenso die nicht erwähnten, aber genauso wichtigen Qualifikations- und Leistungsanforderungen des Arbeitsplatzes.

Korrekter erscheint die Einschätzung des IW Köln (2013) und des HWWI, wonach das bereinigte GPG eine Größenordnung von nur 2 - 3% hat, wenn man alle lohnrelevanten Merkmale der Beschäftigungsverhältnisse kennt und berücksichtigt, und damit in der Größenordnung des statistischen Rauschens und der Schätz- und Rechenfehler der Berechnungsverfahren liegt.