Kapitel 1 bis Kapitel 3

„1 Statistik, Daten und statistische Methoden“

Aufgaben der Statistik “

1. Planung der Erhebung von Daten

2. Beschreibung und Visualisierung der erhobenen Befunde

3. Identifikation von Auffälligkeiten in den Daten

4. Ableitung von Schlüssen“

Was ist Statistik?

„…eine Wissenschaft, die Methoden zur Gewinnung von Daten und zum Lernen aus Daten bereit stellt.“

Teilbereiche der Statistik

1. Beschreibende Statistik (deskriptive Statistik)

2. Schließende Statistik (induktive Statistik)

Beschreibende Statistik

umfasst numerische und grafische Verfahren zur Charakterisierung und Präsentation von Daten

ZIEL: Reduktion der in den Daten enthaltenen statistischen Informationen durch Aggregation auf wenige Kenngrößen, möglichst ohne größeren Verlust an relevanter Information

Typisch für die beschreibende Statistik ist, dass sie keine Modelle benötigt.“

Explorative Datenanalyse

„Diese geht ein Stück über die beschreibende Statistik hinaus, weil hier – noch ohne Einsatz von Modellen – mit rechenintensiven Verfahren nach auffälligen Mustern und Strukturen in Datenbeständen gesucht wird. Die explorative Datenanalyse wird i. a. ebenfalls der beschreibenden Statistik zugeordnet.“

Schließende Statistik

„…leitet aus Stichprobendaten Aussagen ab, die über die jeweilige Stichprobe hinausgehen und sich auf eine umfassendere Grundgesamtheit beziehen.

Beschreibung durch Wahrscheinlichkeitsmodelle…

Aufgaben der schließenden Statistik

sind das Schätzen von Modellparametern und das Testen von Hypothesen.

„Datengestützte Entscheidungsfindung“

Evidence Based Decision Making (z. B. in der Medizin allgegenwärtig)

2 Grundbegriffe der Statistik

„statistische Einheiten oder Merkmalsträger“

„Objekte, auf die sich eine statistische Untersuchung bezieht

jede Person mit Erstwohnsitz in München am 1. Mai 2011“

Grundgesamtheit oder Population

„Die Menge aller für eine Fragestellung interessierenden statistischen Einheiten alle Personen, die am 1. Mai 2011 in München ihren Erstwohnsitz hatten;“

Teilpopulationen

Teilmengen von Grundgesamtheiten

Merkmale oder auch Variable

„Eigenschaften statistischer Einheiten

Kennzeichnung mit Großbuchstaben

z-B. der Familienstand der Person“

Merkmalsausprägungen

„Die möglichen Werte, die ein Merkmal annehmen kann

Kennzeichnung mit Kleinbuchstaben

der Familienstand der Person, etwa mit der Ausprägung „verheiratet“;“

Stichprobe

Grundgesamtheit nach einem bestimmten Auswahlverfahren eine Teilmenge auswählen

Urwerte, Primärdaten oder Rohdaten

„Die in einer Grundgesamtheit oder einer Teilmenge einer Population beobachteten Werte für ein Merkmal“

Urliste

„Fasst man alle Urwerte in einer Liste zusammen.

In einer Urliste können Merkmalswerte mehrfach auftreten.“

Zufallsvariable Ausprägungen eines Merkmals als das Ergebnis eines Zufallsvorgangs interpretiert (Modellvorstellung)

Realisierungen ist

die Ausprägung der Zufallsvariablen

Stichprobenvariablen

„In der schließenden Statistik werden auch die Ausprägungen aller Elemente einer Stichprobe als Zufallsvariablen interpretiert und dann als Stichprobenvariablen bezeichnet.“

„Einteilung von Merkmalen nach der Anzahl der Ausprägungen“ “

1. diskretes Merkmal

2. stetiges Merkmal“

diskretes Merkmal

„Ein diskretes Merkmal ist ein Merkmal,

das nur endlich viele Ausprägungen oder aber höchstens abzählbar unendlich viele Ausprägungen annehmen kann.

Zählvariablen; Anzahl der Fachsemester von Studierenden, Güteklassen bei Lebensmitteln oder Hotels, der Familienstand einer Person oder die Anzahl der zu einem Haushalt gehörenden Personen.“

stetiges Merkmal

„Ausprägungen bilden ein Intervall

Körpergröße; Größe einer Wohnung in qmEin diskretes Merkmal ist ein Merkmal, das nur endlich viele Ausprägungen oder aber höchstens abzählbar unendlich viele Ausprägungen annehmen kann. Zählvariablen; Anzahl der Fachsemester von Studierenden, Güteklassen bei Lebensmitteln oder Hotels, der Familienstand einer Person oder die Anzahl der zu einem Haushalt gehörenden Personen; Ein diskretes Merkmal ist ein Merkmal, das nur endlich viele Ausprägungen oder aber höchstens abzählbar unendlich viele Ausprägungen annehmen kann. Zählvariablen; Anzahl der Fachsemester von Studierenden, Güteklassen bei Lebensmitteln oder Hotels, der Familienstand einer Person oder die Anzahl der zu einem Haushalt gehörenden Personen.“

Arten der Skalenniveaus

Nominalskalen, Ordinalskalen und metrische Skalen

Nominalskala ist

…Messskala,bei der die Ausprägungen eines Merkmals lediglich Namen oder Kategorien darstellen, etwa Branchenzugehörigkeit von Arbeitnehmern, das Studienfach von Studierenden oder das Transportmedium von Berufspendlern. Nominalskalierte Daten sind Daten, die anhand einer Nominalskala erfasst werden

Ordinalskala oder Rangskala

„Bei einer Ordinalskala oder Rangskala gibt es hingegen eine natürliche Rangordnung, aber die Differenzen- und Quotientenbildung ist ebenfalls nicht sinnvoll erklärt.

Beispiele für ordinalskalierte Daten sind Schulnote“

metrische Skala oder Kardinalskala

Eine metrische Skala oder Kardinalskala ist dadurch gekennzeichnet, dass hier auch Abstände (Differenzen) zwischen den Merkmalsausprägungen sinnvoll interpretierbar sind.

„eine metrische Skala heißt Verhältnisskala oder Ratioskala, wenn…

“ ein natürlicher Nullpunkt existiert

Intervallskala

„ist es wenn kein natürlicher Nullpunkt existiert

Temperaturmessung in Grad Celsius“

Absolutskala

„Bei dieser gibt es nicht nur einen natürlichen Nullpunkt, sondern zusätzlich eine

natürliche Einheit. Das Merkmal „Anzahl der Fachsemester“ ist ein solches Merkmal.“

„Sinnvoll interpretierbare Operationen bei verschiedenen Skalenarten“

„Nominalskala: abzählen

Ordinalskala: abzählen; ordnen

Metrische Skala (Intervallskala): abzählen; ordnen; Differenzen bilden

Metrische Skala (Verhältnisskala): abzählen; ordnen; Differenzen bilden; Quotienten bilden

Metrische Skala (Absolutskala): abzählen; ordnen; Differenzen bilden; Quotienten bilden“

„Einteilung von Merkmalen nach dem Typ der Ausprägungen“

„1. quantitatives Merkmal

2. qualitatives Merkmal“

qualitatives Merkmal

Wenn die Ausprägungen Kategorien sind

quantitatives Merkmal

Ausprägungen eines Merkmals sind „echte“ Zahlen

„Beurteilung der Qualität von Messverfahren erfolgt anhand dreier Kriterien – WELCHER?“

„1. Objektivität (intersubjektive Nachvollziehbarkeit)

2. Reliabilität (Messgenauigkeit)

3. Validität (Gültigkeit)“

„3 Datengewinnung & Auswahlverfahren“

Daten sind…

beobachtete Werte eines Merkmals oder mehrerer Merkmale in einer Grund- oder Teilgesamtheit von Merkmalsträgern.

Datenerhebung

Gewinnung von Daten

Erhebungsdesign

Planung der Datengewinnung

Klassifikation von Erhebungen hinsichtlich der Datenquelle

Primär- und Sekundärerhebungen

Primärerhebung

„werden die Daten eigens für das jeweilige Untersuchungsziel gewonnen. Dieser Verfahrensweise begegnet man z. B. in der Arzneimittelforschung oder der Psychologie.“

Sekundärerhebung

wird hingegen auf Daten aus schon vorhandenen Quellen zurückgegriffen

Tertiärerhebungen

„wenn statistische Information aus vorhandenen Quellen geschöpft wird, aber nicht in Form der Originaldaten, sondern in aggregierter Form (z. B. gruppierte Daten oder Mittelwerte ungruppierter Daten).“

Arten der Datengewinnung

Befragung, Beobachtungsstudie, Experiment

Befragung

„dominierende Instrument mündlich (persönlich oder per Telefon), schriftlich und auch internetgestützt“

mündliche Befragung kann

unstrukturiert, teilstrukturiert oder strukturiert erfolgen

unstrukturierte Befragung

hat einen offenen Charakter und kann ohne Fragebogen realisiert werden.

„Bei teilstrukturierten und strukturierten Interviews

ist die Befragung…“ „teilweise oder ganz standardisiert. Dies lässt sich durch die Verwendung von Fragebögen mit teilweise oder vollständig geschlossenen Fragen erreichen.“

Mündliche Befragungen

CAPI

„(computer assisted personal interviewing) für das persönlich geführte Interview mit tragbarem Computer (meist Notebook) Allgemeine Bevölkerungsumfrage der Sozialwissenschaften (ALLBUS)“

CATI „(computer assisted telophone interviewing)

für das fernmündlich geführte Interview, bei dem der Interviewer mit Sprecheinrichtung vor dem Computer sitzt und die Antworten der befragten Person direkt eingibt Fernmündliche Befragungen (CATI) im Telefonstudio“

schriftlichen Befragung Fragebögen per Post oder per E-Mail an ausgewählte Adressaten verteilt oder auf einer Internetseite bereitgestellt. (Oftmals Kopplung an Gewinnspiele)

Beobachtung „systematisch geplant und

dokumentiert werden und einem spezifizierten Forschungszweck dienen. Für die Dokumentation der Beobachtungen bedient man sich eines Beobachtungsprotokolls.“

nicht-reaktive Erhebungsverfahren „also Verfahren, bei denen die Zielpersonen i. d. R. gar nicht wahrnehmen, dass sie Gegenstand einer Beobachtung sind.

Durchführung von Logfile-Analysen zur Untersuchung des Verhaltens von Internetnutzern“

Experimente „Die Überprüfung erfolgt anhand einer geplanten Untersuchung, bei der die Ausprägungen eines Merkmals oder mehrerer Merkmale

(unabhängige Variablen, Einflussfaktoren) unter Laborbedingungen systematisch

variiert und der Effekt auf ein anderes Merkmal (abhängige Variable, Zielgröße)

studiert wird. Dabei will man durch eine geeignete Organisation der UntersuchungsanFlash-Animation

„Versuchsplanung“

ordnung den Einfluss weiterer Variablen möglichst ausschalten (Kontrolle von Störvariablen).“

Versuchsplan Die Untersuchungsanordnung wird durch einen Versuchsplan festgelegt

Quasi-Experiment nicht-randomisierter Zuordnung von Versuchs- und Kontrollgruppenteilnehmern

„Unterscheidung der

Beobachtungsstudien“ Querschnittsstudien und Längsschnittstudien

Querschnittsstudie „Wenn an verschiedenen Merkmalsträgern zu einem festen Zeitpunkt die Ausprägungen

eines Merkmals erfasst werden, resultiert eine Querschnittsreihe“

Längsschnittstudie „Verfolgt man hingegen ein Merkmal an einer statistischen Einheit im

Zeitverlauf, erhält man eine Zeitreihe“

Panel kombiniert Querschnitts- und Zeitreihenanalyse; Hier werden für dieselben Objekte wiederholt Merkmalsausprägungen ermittelt.

Panelmortalität wenn Teilnehmer ausscheiden, etwa durch Krankheit oder Umzug.

„Einteilung nach

dem Umfang der

erhobenen Daten“ „1. Vollerhebung (alle Elemente der GG) Volkszählungen

2. Teilerhebung oder Stichprobenerhebung (Daten für eine Teilmenge der für die jeweilige Fragestellung relevanten Grundgesamtheit erhoben wird)

Mikrozensus und Zensus Erhebung“

Nachteil Vollerhebung teuer, aufwändig und nicht immer praktikabel

Das Sozioökonomische Panel (SOEP) “

Das Sozioökonomische Panel (SOEP) ist eine seit 1984 durchgeführte stichprobenbasierte Befragung von etwa 12:000 Haushalten (gleichbleibende Haushalte), die auf die Identifikation

politischer und gesellschaftlicher Veränderungen in Deutschland abzielt“

„Allgemeine Bevölkerungsumfrage

der Sozialwissenschaften (ALLBUS)“ „Die Allgemeine Bevölkerungsumfrage der Sozialwissenschaften (ALLBUS) ist eine seit 1980

im Zweijahresturnus durchgeführte Mehrthemenbefragung einer Stichprobe von ca. 3:000 Personen. Die Erhebung dient der Dauerbeobachtung gesellschaftlichen Wandels. Die Fragen beziehen sich u. a. auf Einstellungen, Erwerbstätigkeit, Umwelt und Politik.“

3.2 Stichprobenauswahl

Auswahlpopulation Population, aus der eine Stichprobe gezogen wird

Undercoverage „Elemente, die eigentlich zur angestrebten Grundgesamtheit gehören, aber nicht in der Auswahlgesamtheit erfaßt werden.

Beispiel Adressenkartei: veränderte Adressen werden nicht erfaßt, Zuzug von Personen wird nicht erfaßt, Kein Umzug, aber fehlerhafte Adresse“

Overcoverage “ Elemente, die nicht zur Grundgesamtheit gehören, aber in die Erhebungs-Grundgesamtheit berücksichtigt werden

Beispiel Adressenkartei: Falsche Adressen existieren, doppelte Adressen, verzogene Personen sind nicht gelöscht “

Zufallsstichprobe „Um mit der Stichprobe ein repräsentives Abbild der Grundgesamtheit zu bekommen,

zieht man eine Zufallsstichprobe. Bei einer Zufallsstichprobe hat jedes Element der

Grundgesamtheit eine von Null verschiedene Wahrscheinlichkeit in die Stichprobe zu

gelangen.“

Inferenzschluss „Rückschluss von Eigenschaften einer Stichprobe auf Eigenschaften einer Grundgesamtheit

anhand von Schätz- und Testverfahren ist Gegenstand der schließenden Statistik.“

Stichprobenfehler „Ein Inferenzschluss ist stets mit Unsicherheit verknüpft, die sich daraus ergibt, dass nur

die Teilinformation der Merkmalsträger der Stichprobe und nicht die volle Information

aller Merkmalsträger der Grundgesamtheit zur Verfügung steht. Man spricht in diesem

Zusammenhang von einem Stichprobenfehler. [auch bias]“

einfachen Zufallsstichprobe „Bei einer einfachen Zufallsstichprobe des Umfangs n ist die Stichprobenauswahl

nicht nur zufällig, sondern auch so geplant, dass jede Teilmenge der Grundgesamtheit mit n Elementen dieselbe Auswahlwahrscheinlichkeit besitzt.“

geschichtete Zufallsauswahl Manchmal verfügt man auch über Vorinformation, die bei der Auswahl der Stichprobenelemente herangezogen werden kann und i. d. R. zu verlässlicheren Inferenzschlüssen führt. Dies gilt für die geschichtete Zufallsauswahl, ein in der Praxis sehr verbreitetes Verfahren der Stichprobenziehung. Man zerlegt hier die Grundgesamtheit in sich nicht überlappende (= disjunkte) Teilgesamtheiten, sog. Schichten.

Kriterium für Schichten sollen bezüglich des zu untersuchenden Merkmals in sich möglichst homogen und untereinander möglichst heterogen sein. Aus jeder Schicht wird dann eine Zufallsstichprobe gezogen.

zweistufiges Auswahlverfahren geschichtete Stichprobenauswahl ist ein zweistufiges Auswahlverfahren

Klumpen wenn GG auf natürliche Weise verfällt

Klumpenstichprobe „zweistufiges Auswahlverfahren

Hier wird im ersten Schritt eine Zufallsstichprobe

aus der Menge aller Klumpen gezogen. Im zweiten Schritt werden dann alle Elemente

der ausgewählten Klumpen untersucht.“

„Ein Beispiel für ein

systematisches Stichprobenauswahlverfahren“ „Quotenauswahl. Bei dieser

versucht man eine Stichprobe durch Vorgabe von Quoten bezüglich eines meist sozioökonomischen Merkmals, z. B. Geschlecht oder Alter, so zu erzeugen, dass die Stichprobe

hinsichtlich dieses Merkmals – damit allerdings nicht zwingend auch hinsichtlich des

eigentlich interessierenden Untersuchungsmerkmals – eine Art verkleinertes Abbild der

Grundgesamtheit darstellt.“

„Organisation der

amtlichen

Statistik in

Deutschland“ „Für Datensammlungen, die ganz Deutschland betreffen, ist das Statistische Bundesamt zuständig, für

regionale Daten die Statistischen Landesämter. Daneben gibt es auch einige kommunale Statistikämter.“

„Träger

nicht-amtlicher

Statistik“ „Die größten Wirtschaftsforschungsinstitute in Deutschland

sind das Institut für Wirtschaftsforschung (IFO) in München, das Deutsche Institut für

Wirtschaftsforschung (DIW) in Berlin, das Rheinisch-Westfälische Institut für Wirtschaftsforschung in Essen (RWI), das Institut für Weltwirtschaft in Kiel (IfW) und das

Institut für Wirtschaftsforschung Halle (IWH).“

„Internationale Träger

amtlicher Statistik“ „EUROSTAT (Europäisches Amt für Statistik)

und Organisation für wirtschaftliche Zusammenarbeit und Entwicklung (OECD, engl.: Organisation for Economic Co-operation and Development)

und UN-Statistics Division“

Ein Gedanke zu “Kapitel 1 bis Kapitel 3

  1. Pingback: Alles nur Zahlen… « Seelenkunde's Blog

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s