Grafische explorativen Datenanalyse (EDA) Techniken

EDA basiert stark auf grafischen Techniken. Sie können grafische Techniken verwenden, um die wichtigsten Eigenschaften eines Datensatzes zu identifizieren. Hier sind einige der häufigsten verwendeten grafischen Techniken:

  • Box-Plots

  • Histogramme

  • Normale Wahrscheinlichkeitsplots

  • Streudiagramme

Box-Plots

Mit Box-Plots einige der wichtigsten Merkmale eines Datensatzes zu zeigen, wie die folgenden:

  • Minimalwert

  • Maximalwert

  • Quartile


Quartile trennen einen Datensatz in vier gleich große Abschnitte. Die erste Quartil (Q1) Ein Wert ist, so dass die folgenden Bedingungen erfüllt ist:

25 Prozent der Beobachtungen in einem Datensatz sind kleiner als die erste Quartil.
75 Prozent der Beobachtungen sind größer als die erste Quartil.

Die zweite Quartil (Q2) Ein Wert ist, so dass

50 Prozent der Beobachtungen in einem Datensatz sind kleiner als der zweite Quartil.
50 Prozent der Beobachtungen sind größer als die zweite Quartil.

Der zweite Quartil ist auch bekannt als die Median.

Das dritte Quartil (Q3) Ein Wert ist, so dass

75 Prozent der Beobachtungen in einem Datensatz sind kleiner als die dritte Quartil.
25 Prozent der Beobachtungen sind größer als die dritte Quartil.

Sie können auch Box-Plots verwenden zu identifizieren Ausreißer. Dies sind Werte, die wesentlich anders als der Rest des Datensatzes sind. Ausreißer können Probleme für die traditionelle statistische Tests führen, so ist es wichtig, sie zu identifizieren, bevor sie eine Art der statistischen Analyse durchgeführt wird.

Histogramme

Sie verwenden Histogramme Einblick in die Wahrscheinlichkeitsverteilung zu gewinnen, die ein Datensatz folgt. Mit einem Histogramm wird der Datensatz in eine Reihe von Einzelwerten organisiert oder Wertebereichen, die jeweils durch einen vertikalen Balken dargestellt. Die Höhe des Balkens zeigt, wie häufig ein Wert oder Wertebereich auftritt. Mit einem Histogramm, ist es leicht zu sehen, wie die Daten verteilt werden.

Streudiagramme

Ein Streudiagramm ist eine Reihe von Punkten, die zeigen, wie zwei Variablen zueinander in Beziehung gesetzt werden. Eine zufällige Streuung der Punkte zeigt, dass die beiden Variablen sind unabhängig, oder dass die Beziehung zwischen ihnen ist sehr schwach. Wenn die Punkte eng eine gerade Linie ähneln, zeigt dies an, dass die Beziehung zwischen den beiden Variablen annähernd linear.

Zwei Variablen linear verbunden, wenn sie mit der folgenden Gleichung beschrieben werden Y = mX + b.

X ist die unabhängige Variable, und Y ist die abhängige Variable. m ist der Steigung, die die Veränderung des Y aufgrund einer bestimmten Änderung in X. b ist der abfangen, was zeigt den Wert Y wann X gleich Null ist.

Die Abbildung zeigt ein Streudiagramm zwischen zwei Variablen, in denen die Beziehung linear zu sein scheint.

Streudiagramm einer linearen Beziehung.
Streudiagramm einer linearen Beziehung.

Die Punkte auf der Streudiagramm bilden nahezu eine gerade Linie. Es beugt sich ein wenig nach links und biegt ein wenig nach rechts, aber es ist in etwa gerade. Dies zeigt, dass die Beziehung linear ist, mit einer positiven Steigung.

Die folgende Abbildung zeigt ein Streudiagramm zwischen zwei Variablen, in denen Y scheint schneller zuzunehmen als X.

Streudiagramm eines nicht-linearen Beziehung.
Streudiagramm eines nicht-linearen Beziehung.

Siehe die Kurve? Diese Beziehung ist eindeutig nicht linear. Es ist in der Tat eine quadratische Beziehung. Eine quadratische Beziehung nimmt die Form Y = Axt2 + bX + c.

Die folgende Abbildung zeigt ein Streudiagramm, in dem es keine Beziehung zu sein scheint zwischen X und Y.

Streudiagramm ohne Beziehung zwischen den Variablen & lt; i>Xlt; / i> und lt; i> Y.lt; / i>
Streudiagramm ohne Beziehung zwischen den Variablen X und Y.

Die Variablen in der Streudiagramm dargestellt sind nicht verwandt oder unabhängig- Sie kann durch das Fehlen eines Musters in den Daten sehen dies.

Darüber hinaus die Beziehung zwischen zwei Variablen zu zeigen, kann ein Streudiagramm zeigt auch die Anwesenheit von Ausreißern. Die folgende Abbildung zeigt einen Datensatz mit einer Beobachtung, die von den anderen Beobachtungen wesentlich unterscheidet.

Streudiagramm mit einem Ausreißer.
Streudiagramm mit einem Ausreißer.

Der Ausreißer Punkt muss weiter untersucht werden, um festzustellen, ob es das Ergebnis eines Fehlers oder anderen Problemen ist. Es ist möglich, dass die Ausreißer benötigen aus den Daten entfernt werden.

Normale Wahrscheinlichkeitsplots

Normale Wahrscheinlichkeitsplots werden verwendet, um die Normalverteilung, um zu sehen, wie eng die Elemente eines Datensatzes folgen. Die Annahme von Normalität ist in vielen Disziplinen üblich. Zum Beispiel ist es oft in den Bereichen Finanzen und Wirtschaft ausgegangen, dass die Renditen auf Aktien normalverteilt sind. Die Annahme von Normalität ist sehr bequem, und viele statistische Tests basieren auf dieser Annahme basiert.

Anwendung statistischer Tests, die Normalität eine davon ausgehen, nicht-normal Dataset würde äußerst fragwürdigen Ergebnissen. Daher ist es wichtig, die Daten, um zu bestimmen, ob oder ob nicht der Regel vor jeder dieser statistischen Tests verteilt führt.

» » » » Grafische explorativen Datenanalyse (EDA) Techniken