Psychologische Sicherheit messen: Edmondson-Skala auswerten [2026]
Psychologische Sicherheit gilt als der stärkste Treiber für Team-Performance - Google hat das in der Project-Aristotle-Studie bestätigt, Amy Edmondson seit 1999 empirisch belegt. Doch wie misst man ein so weiches Konstrukt eigentlich belastbar? Und wie werte ich den Fragebogen so aus, dass er sowohl wissenschaftlich sauber als auch rechtlich tragfähig ist?
Dieser Artikel zeigt Schritt für Schritt, wie Sie die Edmondson-Skala in der Praxis einsetzen, einen Team-Score berechnen und das Ergebnis in konkrete Maßnahmen übersetzen. Für Definition, Modelle (Edmondson, Clark, it-agile) und die strategische Einordnung siehe unseren Leitfaden psychologische Sicherheit.
Warum überhaupt messen?
Psychologische Sicherheit wirkt im Team täglich - aber ihre Wirkung ist unsichtbar, solange Sie nicht danach fragen. Ohne Messung arbeiten Sie mit Bauchgefühl, und genau dort beginnt das Problem: Führungskräfte überschätzen die psychologische Sicherheit in ihren Teams systematisch. Eine Wiley-Studie aus 2023 zeigt die Lücke zwischen Führungskräften und Mitarbeitenden: 93 % der Executives berichten, sich psychologisch sicher zu fühlen, aber nur 86 % der Individual Contributors. In der Praxis liegt die Diskrepanz oft höher.
Drei Gründe, warum eine standardisierte Messung sich lohnt:
- Sichtbar machen, bevor es eskaliert. Niedrige psychologische Sicherheit kostet: Innovation sinkt, Fehlerquoten steigen, Fluktuation zieht an. Ein Score macht diesen Risikoindikator früh diskutierbar.
- Wirkung belegen. Maßnahmen wie Führungskräfte-Trainings, Retrospektiven oder Feedback-Rituale lassen sich erst dann als wirksam belegen, wenn Sie den Score vor und nach der Intervention vergleichen.
- Anschluss an Engagement- und Survey-KPIs. Psychologische Sicherheit korreliert stark mit Engagement, eNPS und Fluktuationsabsicht. Ein regelmäßiger Wert ergänzt Ihre bestehende Mitarbeiterbefragung um den Verhaltens-Treiber dahinter.
Der Standard: die Edmondson-7-Item-Skala
Amy Edmondson veröffentlichte die Skala 1999 im Administrative Science Quarterly auf Basis einer Studie mit 51 Arbeitsteams eines US-Industrieunternehmens. Sieben Aussagen werden auf einer 7-Punkt-Likert-Skala bewertet, von 1 („stimme überhaupt nicht zu") bis 7 („stimme voll und ganz zu"). Die interne Konsistenz lag in der Originalstudie bei einem Cronbach’s Alpha von 0,82 - ein für ein 7-Item-Konstrukt sehr guter Wert, der in Dutzenden Folgestudien repliziert wurde.
Drei der sieben Items sind negativ formuliert: Ein hoher Zustimmungswert bedeutet hier eine niedrige psychologische Sicherheit. Vor der Auswertung müssen Sie diese Items umdrehen (siehe Abschnitt „Reverse-Coding").
Die 7 Items im Wortlaut
Team Psychological Safety Scale (Edmondson 1999)
7 Items, 7-Punkt-Likert-Skala · deutsche Übersetzung + englisches Original
-
1. Wenn man in diesem Team einen Fehler macht, wird einem das oft vorgehalten. Reverse (R)
"If you make a mistake on this team, it is often held against you."
-
2. In diesem Team können Probleme und schwierige Themen offen angesprochen werden.
"Members of this team are able to bring up problems and tough issues."
-
3. Menschen in diesem Team werden manchmal abgelehnt, weil sie anders sind. Reverse (R)
"People on this team sometimes reject others for being different."
-
4. In diesem Team ist es sicher, ein Risiko einzugehen.
"It is safe to take a risk on this team."
-
5. Es fällt schwer, andere Teammitglieder um Hilfe zu bitten. Reverse (R)
"It is difficult to ask other members of this team for help."
-
6. Niemand in diesem Team würde absichtlich so handeln, dass meine Arbeit untergraben wird.
"No one on this team would deliberately act in a way that undermines my efforts."
-
7. In der Zusammenarbeit mit diesem Team werden meine besonderen Fähigkeiten und Talente wertgeschätzt und genutzt.
"Working with members of this team, my unique skills and talents are valued and utilized."
Hinweis zur deutschen Validierung: 2020 haben Fischer und Hüttermann mit dem PsySafety-Check (PS-C) eine im deutschsprachigen Raum validierte Version veröffentlicht (Cronbach’s Alpha 0,81 in einer Stichprobe von 325 Beschäftigten aus Metall/Elektro, Technologie und Finanzdienstleistung). Die Items sind sinngleich zur Edmondson-Skala, die Nummerierung und einzelne Formulierungen weichen leicht ab. Für deutschsprachige Teams ist die PS-C-Version gut belegt.
Likert-Skala und Reverse-Coding erklärt
Warum 7 Punkte statt 5?
Edmondson nutzte bewusst eine 7-Punkt-Skala. Der praktische Vorteil: Mehr Abstufungen bedeuten mehr Differenzierungspotenzial nach oben und nach unten, und der sogenannte Decken-Effekt („alle Teams clustern bei 4–5") tritt seltener auf. In Deutschland ist die 5-Punkt-Skala weiter verbreitet - wer die Edmondson-Skala in eine bestehende 5-Punkt-Befragung integriert, sollte die Antwort-Labels konsistent halten, aber die Vergleichbarkeit zu Benchmark-Werten beachten.
Was Reverse-Coding konkret bedeutet
Die Items 1, 3 und 5 sind negativ formuliert („Fehler werden vorgehalten", „Menschen werden abgelehnt", „schwer, um Hilfe zu bitten"). Wenn jemand hier eine 7 ankreuzt, stimmt die Person der negativen Aussage voll zu - das heißt, die psychologische Sicherheit in diesem Punkt ist niedrig. Für die gemeinsame Auswertung mit den positiv formulierten Items müssen diese Werte umgekehrt werden:
- Umkehr-Formel:
neuer Wert = 8 − alter Wert(auf 7-Punkt-Skala; bei 5-Punkt-Skala entsprechend6 − alter Wert) - Aus 7 wird 1, aus 5 wird 3, aus 2 wird 6 - und so weiter.
Der Sinn: Nach dem Umkehren bedeutet ein hoher Wert bei allen sieben Items einheitlich eine hohe psychologische Sicherheit. Erst dann lässt sich ein Mittelwert bilden, der inhaltlich Sinn ergibt.
Der zweite Zweck des Reverse-Codings ist methodisch: Gemischte Item-Formulierungen reduzieren die sogenannte Akquieszenz-Tendenz („Ja-Sage-Verhalten"), bei der Befragte unabhängig vom Inhalt eher zustimmen. Edmondson hat dieses Muster bewusst in ihre Skala eingebaut.
Auswertung Schritt für Schritt (mit Rechenbeispiel)
So werten Sie die Skala für ein Team aus. Das folgende Beispiel zeigt die Berechnung für ein Team von fünf Personen.
Schritt 1: Rohdaten sammeln
Jede Person vergibt auf jedes der 7 Items einen Wert zwischen 1 und 7. Ergebnis: eine Tabelle mit 5 Zeilen (Befragte) und 7 Spalten (Items). In unserem Beispiel:
| Person | Item 1 (R) | Item 2 | Item 3 (R) | Item 4 | Item 5 (R) | Item 6 | Item 7 |
|---|---|---|---|---|---|---|---|
| A | 2 | 6 | 3 | 5 | 2 | 6 | 6 |
| B | 3 | 5 | 2 | 6 | 3 | 5 | 5 |
| C | 1 | 7 | 2 | 7 | 1 | 7 | 7 |
| D | 4 | 4 | 5 | 4 | 4 | 4 | 4 |
| E | 2 | 6 | 3 | 6 | 2 | 6 | 6 |
Schritt 2: Reverse-Items umkehren
Für die Items 1, 3 und 5 gilt: neuer Wert = 8 − alter Wert. Aus der 2 von Person A bei Item 1 wird also 6 (= 8 − 2).
| Person | Item 1* | Item 2 | Item 3* | Item 4 | Item 5* | Item 6 | Item 7 |
|---|---|---|---|---|---|---|---|
| A | 6 | 6 | 5 | 5 | 6 | 6 | 6 |
| B | 5 | 5 | 6 | 6 | 5 | 5 | 5 |
| C | 7 | 7 | 6 | 7 | 7 | 7 | 7 |
| D | 4 | 4 | 3 | 4 | 4 | 4 | 4 |
| E | 6 | 6 | 5 | 6 | 6 | 6 | 6 |
(* = recodiert)
Schritt 3: Einzel-Scores berechnen (Mittelwert pro Person)
Jede Zeile wird gemittelt - das ergibt den persönlichen Sicherheits-Score der Person:
- Person A: (6+6+5+5+6+6+6) / 7 = 5,71
- Person B: (5+5+6+6+5+5+5) / 7 = 5,29
- Person C: (7+7+6+7+7+7+7) / 7 = 6,86
- Person D: (4+4+3+4+4+4+4) / 7 = 3,86
- Person E: (6+6+5+6+6+6+6) / 7 = 5,86
Schritt 4: Team-Score (Mittelwert aller Einzel-Scores)
Der Team-Score ergibt sich als Mittelwert der fünf Einzel-Scores:
Team-Score = (5,71 + 5,29 + 6,86 + 3,86 + 5,86) / 5 = 5,52
Schritt 5: Streuung prüfen
Ein Mittelwert allein genügt nicht. Psychologische Sicherheit ist laut Edmondson ein „shared belief" - eine geteilte Überzeugung. Wenn vier Personen sehr hohe Werte angeben und eine Person einen sehr niedrigen, ist die Streuung ein Warnsignal. Berechnen Sie die Standardabweichung der Einzel-Scores: Liegt sie über 1,0, spricht das für uneinheitliche Wahrnehmungen im Team - der Team-Score täuscht dann über Unterschiede hinweg.
In unserem Beispiel: Standardabweichung ≈ 1,09 - moderat erhöht. Person D (3,86) liegt deutlich unter den anderen. Hier lohnt eine Segment-Analyse: Ist D in einer anderen Rolle, einem anderen Standort, mit einer anderen Führungskraft?
Team-Score interpretieren
Für die Edmondson-Skala existieren keine offiziell publizierten DACH-Benchmarks. Als heuristische Einordnung, basierend auf Edmondsons Originalstudie (Mittelwert 5,25 auf Team-Ebene) und der deutschen Validierung von Fischer und Hüttermann, hat sich folgende Bandbreite etabliert:
| Team-Score | Einordnung | Was das bedeutet |
|---|---|---|
| < 3,5 | Kritisch | Angst vor Sanktionen, Rückzug, wenig Innovation. Unmittelbarer Handlungsbedarf, häufig in Kombination mit Führungsproblemen. |
| 3,5 – 4,5 | Ausbaufähig | Grundsicherheit vorhanden, aber spürbare Hemmschwellen. Typisches Ergebnis für Teams in Umbruch oder mit neuer Führung. |
| 4,5 – 5,5 | Gut | Offene Gesprächskultur, Fehler werden benannt. Raum für gezielte Verbesserung einzelner Items (meist Reverse-Items). |
| > 5,5 | Sehr hoch | Hohe Offenheit, aktive Kritik, belastbare Lernkultur. Fokus verschiebt sich auf Erhalt und gezielte Challenger-Safety-Förderung. |
Wichtig: Diese Einordnung ist eine heuristische Leselinie, kein validierter Benchmark. Im Zweifel gilt: Der Trend über mehrere Messzeitpunkte ist aussagekräftiger als der absolute Wert einer Einzelmessung. Ein Team, das von 4,2 auf 4,8 steigt, hat messbar Fortschritte gemacht - auch wenn es noch unter dem „gut"-Bereich liegt.
Unser Team im Beispiel hat einen Score von 5,52 - knapp im „sehr hoch"-Bereich. Aber die Streuung von 1,09 mit Person D als Ausreißer zeigt: Auf Gesamt-Team-Ebene gut, aber ein individuelles oder Sub-Gruppen-Muster darunter verdient Aufmerksamkeit.
Rechtlicher Rahmen in Deutschland
Eine Erhebung zur psychologischen Sicherheit ist eine Mitarbeiterbefragung - und damit kein rechtliches Niemandsland. Drei Punkte sollten Sie vor dem ersten Rollout klären.
DSGVO: Echte Anonymität ist der sauberste Weg
Personenbezogene Befragungsdaten fallen unter die DSGVO. Die möglichen Rechtsgrundlagen sind alle mit Unsicherheiten behaftet: § 26 BDSG ist für freiwillige Meinungsabgaben umstritten, weil sie sich nicht klar der „Durchführung des Beschäftigungsverhältnisses" zuordnen lassen; die Einwilligung nach Art. 6 Abs. 1 lit. a DSGVO in Verbindung mit § 26 Abs. 2 BDSG gilt im Arbeitsverhältnis als wenig belastbar, weil die Freiwilligkeit schwer nachzuweisen ist; das berechtigte Interesse nach Art. 6 Abs. 1 lit. f DSGVO kollidiert mit den Datenschutzinteressen der Mitarbeitenden.
Die saubere Lösung: echte Anonymität. Wenn die Daten nicht mehr einzelnen Personen zuordenbar sind, fallen sie aus dem DSGVO-Anwendungsbereich heraus. Das setzt allerdings zwei Dinge voraus:
- Keine personenbezogenen Metadaten speichern (IP, E-Mail, User-ID - nur aggregierte Team-Zuordnung)
- Mindest-Gruppengröße für Auswertungen: n ≥ 5. Wenn ein Team weniger Antworten hat, werden die Ergebnisse auf die nächsthöhere Aggregationsebene zusammengefasst, damit Rückschlüsse auf Einzelpersonen ausgeschlossen sind.
Betriebsrat: § 87 BetrVG beachten
Hat Ihr Unternehmen einen Betriebsrat, greift die Mitbestimmungspflicht nach § 87 BetrVG - insbesondere:
- § 87 Abs. 1 Nr. 6 BetrVG bei digitalen Befragungstools (Verhaltens- oder Leistungsüberwachung)
- § 87 Abs. 1 Nr. 1 BetrVG bei Regelungen zur Ordnung des Betriebs
- § 94 BetrVG zusätzlich, wenn der Fragebogen Persönlichkeitsmerkmale erhebt (bei reinen Team-Klima-Fragen wie der Edmondson-Skala in der Regel nicht einschlägig)
Praxis-Empfehlung: Binden Sie den Betriebsrat früh in die Planung ein. Das spart Konflikte bei der Freigabe und stärkt die Akzeptanz der Messung - was wiederum die Antwortquote erhöht.
Abgrenzung zur psychischen Gefährdungsbeurteilung (§ 5 ArbSchG)
Die Edmondson-Skala ersetzt keine psychische Gefährdungsbeurteilung, und umgekehrt gilt dasselbe.
Die psychische Gefährdungsbeurteilung nach § 5 ArbSchG ist seit 2013 gesetzliche Pflicht für alle Arbeitgeber in Deutschland. Sie muss laut GDA-Leitlinien mindestens fünf Belastungsdimensionen abdecken: Arbeitsinhalte, Arbeitsorganisation, soziale Beziehungen, Arbeitsumgebung und neue Arbeitsformen.
Die Edmondson-Skala misst eine Teilfacette davon (soziale Beziehungen und Teamklima). Sie kann als Modul in einem umfassenderen PsychGB-Fragebogen sinnvoll integriert sein, liefert aber allein keine vollständige Gefährdungsbeurteilung. Wenn Sie beides parallel betreiben wollen: Die Edmondson-Skala ist das Verhaltens- und Kultur-Messinstrument (Diagnose), die PsychGB ist der gesetzlich vorgeschriebene Rahmen für Belastungsanalyse und Maßnahmenableitung (Pflicht).
Einmalig oder regelmäßig? Die Kadenz-Frage
Psychologische Sicherheit ist kein stabiles Persönlichkeitsmerkmal, sondern ein Team-Klima - und das verändert sich mit jeder Führungskraft, jedem Projekt, jeder Reorganisation. Drei Kadenz-Muster haben sich etabliert:
- Jährlich tief (im Rahmen der Mitarbeiterbefragung): Die Edmondson-Skala als 7-Item-Block in der großen Jahres-Engagement-Umfrage. Günstigster Weg, aber reagiert träge auf Veränderungen.
- Quartalsweise als Puls: Separater Pulse-Survey alle 3 Monate, nur die 7 Items plus ein offenes Feld. Trifft die branchenübliche Kadenz und liefert einen belastbaren Trend.
- Nach Trigger-Ereignissen: Führungswechsel, M&A, Restrukturierung, größere Konflikte. Eine Ad-hoc-Messung 4–8 Wochen nach dem Ereignis zeigt, ob sich das Klima stabilisiert hat.
Warnhinweis: Messen ohne Handeln schadet der psychologischen Sicherheit. Wer befragt, aber keine sichtbaren Konsequenzen folgen lässt, signalisiert „Deine Stimme zählt eigentlich nicht" - und die psychologische Sicherheit sinkt bei der nächsten Messung tiefer als vor der ersten. Die Kadenz muss also zur organisatorischen Kapazität passen, nicht umgekehrt. Mehr zur Pulsbefragungsmethodik finden Sie in unserem Leitfaden Pulsbefragung.
30/60/90-Tage-Playbook nach der Messung
Der Score ist nur die halbe Miete. Das Folgende ist ein bewährtes Vorgehen für die ersten drei Monate nach einer Erhebung:
Tage 1–30: Verstehen und kommunizieren
- Segment-Analyse: Wo liegen die niedrigsten Item-Scores, welche Teams weichen nach oben oder unten ab?
- Ergebnisse den betroffenen Teams zeigen - transparent, ohne Beschönigung. Das ist selbst ein Akt psychologischer Sicherheit.
- Ursachen-Hypothesen gemeinsam mit den Teams entwickeln, nicht nur im HR- oder Führungskreis.
- Maximal zwei bis drei konkrete Maßnahmen pro Team vereinbaren. Weniger ist mehr.
Tage 31–60: Intervenieren
- Führungskräfte-Coaching oder Workshop für Teams mit Score unter 4,0 - typisch sind Themen wie Feedback-Kultur, Fehlerumgang, Redezeit-Verteilung in Meetings.
- Strukturelle Änderungen: Retrospektiven einführen oder neu aufsetzen, 1:1-Kadenz verdichten, Entscheidungs- und Rollen-Klarheit dokumentieren.
- Sichtbare Verhaltensänderungen durch die Führungskraft: eigene Fehler benennen, aktiv nach abweichenden Meinungen fragen.
Tage 61–90: Re-Messen und verankern
- Kurz-Puls (nur die 7 Items) in den betroffenen Teams, Vergleich zum Ausgangs-Score.
- Bei Fortschritt: Mechanismus institutionalisieren (z. B. im Onboarding, in Retrospektiven, im Führungskräfte-Feedback).
- Bei Stagnation: Hypothese überprüfen - war die Maßnahme passend, war die Zeit zu kurz, gibt es eine strukturelle Ursache jenseits des Team-Verhaltens?
Häufige Fragen
Wie viele Antworten brauche ich, damit die Messung belastbar ist?
Pro Auswertungsgruppe sollten mindestens 5 Antworten vorliegen - das ist die Anonymitäts-Untergrenze und gleichzeitig der Mindeststandard für eine sinnvolle Mittelwertbildung. Besser sind 7 oder mehr. Teams unter dieser Schwelle werden in die nächsthöhere Aggregationsebene (z. B. Abteilung) eingeordnet.
Wie werte ich reverse-codierte Items korrekt aus?
Die Items 1, 3 und 5 sind negativ formuliert. Vor jeder Auswertung müssen Sie diese Werte nach der Formel neuer Wert = 8 − alter Wert umkehren (bei 7-Punkt-Skala). Erst dann ergibt der Mittelwert über alle sieben Items eine konsistente Aussage, bei der ein hoher Wert eine hohe psychologische Sicherheit bedeutet.
Wie oft sollte psychologische Sicherheit gemessen werden?
Industriestandard ist quartalsweise als Pulse-Survey, ergänzend eine jährliche Vollerhebung im Rahmen der regulären Mitarbeiterbefragung. Nach größeren Veränderungen (Führungswechsel, Reorganisation) empfiehlt sich eine Ad-hoc-Messung 4 bis 8 Wochen später. Wichtiger als die Frequenz: Nach jeder Messung müssen sichtbare Konsequenzen folgen.
Ersetzt die Edmondson-Skala die psychische Gefährdungsbeurteilung nach § 5 ArbSchG?
Nein. Die Edmondson-Skala misst eine Teilfacette (Teamklima, soziale Beziehungen), während die Gefährdungsbeurteilung gesetzlich fünf Belastungsdimensionen abdecken muss. Die Skala kann als Modul in einem umfassenderen PsychGB-Fragebogen integriert sein, ist aber kein Ersatz. Für Details siehe unseren Leitfaden zur psychischen Gefährdungsbeurteilung.
Gibt es eine validierte deutsche Version der Edmondson-Skala?
Ja. Der PsySafety-Check (PS-C) von Fischer und Hüttermann (2020) ist die deutsche Validierung mit Cronbach’s Alpha 0,81 in einer Stichprobe von 325 Beschäftigten. Die Items sind sinngleich zur Edmondson-Skala, die Formulierungen sind für den deutschen Kontext angepasst. Für deutschsprachige Teams ist die PS-C-Version gut belegt.
Fazit: Vom Fragebogen zur Lernkultur
Die Edmondson-Skala ist kein Selbstzweck. Ihr Wert entsteht nicht aus dem Score, sondern aus den Gesprächen und Maßnahmen, die der Score auslöst. Drei Punkte zum Mitnehmen:
- Methodisch sauber messen: Edmondson-Skala oder validierte PS-C-Version nutzen, Reverse-Coding nicht vergessen, Anonymität ab n ≥ 5 sicherstellen.
- Rechtlich sauber aufstellen: Betriebsrat einbinden, DSGVO-konforme Anonymisierung, Abgrenzung zur PsychGB bewusst machen.
- Konsequent handeln: Ergebnisse den Teams zeigen, zwei bis drei Maßnahmen je Team, nach 90 Tagen nachmessen. Messen ohne Handeln schadet mehr, als es nutzt.
Alles Weitere zu Definition, Modellen und Maßnahmen finden Sie im Leitfaden psychologische Sicherheit. Für die Einbindung in eine bestehende Engagement-Messung lohnt ein Blick auf unseren Leitfaden eNPS und den Leitfaden Mitarbeiterengagement.
Psychologische Sicherheit als Teil Ihrer Pulsbefragung
Honestly integriert die Edmondson-7-Item-Skala als validierten Block in Ihre Pulse- oder Engagement-Umfrage. Automatische Reverse-Coding-Auswertung, Team-Segmentierung, Trend-Dashboards und KI-gestützte Handlungsempfehlungen - DSGVO-konform und Made in Germany.
Quellen
- Edmondson, A. C. (1999). Psychological Safety and Learning Behavior in Work Teams. Administrative Science Quarterly, 44(2), 350–383. DOI: 10.2307/2666999.
- Fischer, J. A., & Hüttermann, H. (2020). PsySafety-Check (PS-C) - Fragebogen zur Messung psychologischer Sicherheit in Teams. ZIS – Open Access Repository für Messinstrumente (GESIS).
- Gesetz über die Durchführung von Maßnahmen des Arbeitsschutzes (ArbSchG), § 5.
- Gemeinsame Deutsche Arbeitsschutzstrategie (GDA): Leitlinie Beratung und Überwachung bei psychischer Belastung am Arbeitsplatz (4. Auflage).
- Betriebsverfassungsgesetz (BetrVG), §§ 87, 94.
- Workplace Intelligence / Wiley (2023). Psychological Safety Survey - Discrepancy between leadership and individual-contributor perceptions.