Einführung in die Kernel Density Estimation

Kernel Density Estimation ist eine statistische Methode zur Darstellung einer Reihe von Daten. Bezogen auf Histogramme, bietet Kernel Density Estimation einen Weg , um die Verteilung einer Variablen in der Bevölkerung zu schätzen. Das Verfahren ist relativ anspruchsvoll, aber die Ergebnisse einer visuellen Interpretation der Wahrscheinlichkeit Dichte einer Variablen , in anderen Worten, die Häufigkeit, mit der eine Variable in einer Population wird . Verwendet

Kernel Density Estimation Schätzungen Form einer Dichtefunktion . Eine Dichtefunktion zeigt die Frequenz , mit der eine Variable in einer Zufallsstichprobe der Bevölkerung erscheint. Der Kernel Density Estimation wird als ein nicht-parametrische Verfahren . In der Statistik gibt es parametrischen und nicht parametrische Verfahren . Parametrische Verfahren machen mehr Annahmen als nicht- parametrische . Keine Annahmen über die Verteilung , Mittel oder Standardabweichungen sind in nicht-parametrische Statistiken benötigt . Zum Beispiel, wenn Sie wissen, ob der zehnte Test in einem Klassenzimmer würde eine höhere Punktzahl als die ersten neun haben , in para Argumentation wollte müsste , um den Mittelwert und Standardabweichung wissen , um eine Antwort abzuleiten. In nicht-parametrische Denken, einfach zu wissen, die Anzahl der Test ist genug zu wissen, der letzte Test hat eine 10 Prozent Chance, über den früheren Partituren .
Kernel

der Kernel Density Estimation hat zwei entscheidende Komponenten: der Kernel und die Bandbreite . Der Kernel ist die Dichtefunktion . Es gibt sechs häufigsten Arten von Dichtefunktionen in nicht-parametrische Statistiken : normal, einheitliche , dreieckig, Epanechnikov , vierter , triweight -und Cosinus . Jede dieser Funktionen wird verwendet, um die Häufigkeit der Zufallsvariable in einer Population zu schätzen.
Bandbreite

Die zweite Komponente , die Bandbreite , glättet die Ergebnisdaten von der Dichtefunktion des Kernel. Die Bandbreite hat daher stark beeinflusst die visuelle Darstellung der Daten. Eine gezackte Linie kann sich schrittweise , bis die Daten geglättet wurde so umschrieben , dass es nicht mehr brauchbar. In der KerndichteschätzungFormel wird die Bandbreite durch den Buchstaben h bezeichnet . Es muss positiv sein und zu einer Verteilung , die zu einem zusammenfasst .
Vorteile

Kernel Density Estimation hat Vorteile gegenüber anderen nicht-parametrische Schätzverfahren , insbesondere Histogramme . Histogramme stellen die Verteilung von Variablen in Behältern entlang einer horizontalen Reihe . Gestapelten Kästen stellen eine größere Dichte der Variablen in den Sektor der Daten. Da Histogramme symbolisieren Daten durch Tonnen, ist die Variable teilte und verschiedene Distributionen sind gezackt und diskrete , falsche Darstellung der Flüssigkeitsverteilung einer Variablen, die in einer Population wirklich existiert. Kernel Density Estimation besser repräsentiert diese Flüssigkeit mit glatten Linie, deren Glätte wird durch die in der Kerndichte Formel gewählt Bandbreite bestimmt.