Saturday 6 May 2017

Interpretation Von P Werten In Stata Forex


Um den Standardfehler der Schätzung zu finden, nehmen wir die Summe aller quadrierten Restterme und dividieren durch (n - 2) und nehmen dann die Quadratwurzel des Ergebnisses. In diesem Fall beträgt die Summe der quadrierten Reste 0.090.160.642.250.04 3.18. Mit fünf Beobachtungen, n - 2 3 und SEE (3.183) 12 1.03. Die Berechnung für Standardfehler ist relativ ähnlich der Standardabweichung für eine Probe (n - 2 wird anstelle von n - 1 verwendet). Es gibt einige Hinweise auf die prädiktive Qualität eines Regressionsmodells mit niedrigeren SEE-Zahlen, die zeigen, dass genauere Vorhersagen möglich sind. Die Standard-Fehler-Messung zeigt jedoch nicht, inwieweit die unabhängige Variable Variationen in dem abhängigen Modell erklärt. Bestimmungskoeffizient Wie der Standardfehler gibt diese Statistik einen Hinweis darauf, wie gut ein lineares Regressionsmodell als Schätzer für die abhängige Variable dient. Sie arbeitet, indem man den Bruchteil der Gesamtvariation in der abhängigen Variablen misst, die durch Variation in der unabhängigen Variable erklärt werden kann. In diesem Zusammenhang setzt sich die Gesamtvariation aus zwei Fraktionen zusammen: Gesamtvariation erklärt Variation unerklärliche Variation Gesamtvariation Gesamtvariation Der Bestimmungskoeffizient. Oder erklärter Variation als Prozentsatz der Gesamtvariation, ist der erste dieser beiden Ausdrücke. Es wird manchmal als 1 - (unerklärliche Variation Total Variation) ausgedrückt. Für eine einfache lineare Regression mit einer unabhängigen Variablen quadriert das einfache Verfahren zur Berechnung des Bestimmungskoeffizienten den Korrelationskoeffizienten zwischen den abhängigen und unabhängigen Variablen. Da der Korrelationskoeffizient durch r gegeben ist, ist der Bestimmungskoeffizient im Volksmund als R² oder R-Quadrat bezeichnet. Wenn beispielsweise der Korrelationskoeffizient 0,76 beträgt, ist das R-Quadrat (0,76) 2 0,578. R-Quadrat-Ausdrücke werden üblicherweise als Prozentsätze ausgedrückt, weshalb 0,578 57,8 betragen. Ein zweites Verfahren zur Berechnung dieser Zahl besteht darin, die Gesamtvariation in der abhängigen Variablen Y als die Summe der quadrierten Abweichungen vom Probenmittel zu finden. Als nächstes berechnen Sie den Standardfehler der Schätzung nach dem Prozess, der im vorherigen Abschnitt umrissen wurde. Der Koeffizient der Bestimmung wird dann durch (Gesamtvariation in Y) Gesamtvariation in Y berechnet. Dieses zweite Verfahren ist für mehrere Regressionen notwendig, wobei es mehr als eine unabhängige Variable gibt, aber für unseren Kontext werden wir zur Verfügung gestellt Der r (Korrelationskoeffizient), um einen R-Quadrat zu berechnen. Was R 2 uns sagt, sind die Veränderungen in der abhängigen Variablen Y, die durch Änderungen in der unabhängigen Variablen X erklärt werden. R 2 von 57.8 sagt uns, dass 57.8 der Änderungen von Y aus X resultieren, dass es auch 1 - 57.8 oder 42.2 von bedeutet Die Änderungen in Y sind durch X unerklärt und sind das Ergebnis anderer Faktoren. Je höher der R-Quadrat, desto besser die Vorhersagecharakteristik des linearen Regressionsmodells. Regressionskoeffizienten Für einen Regressionskoeffizienten (Intercept a oder Slope b) kann ein Konfidenzintervall mit folgenden Informationen ermittelt werden: 13 Ein geschätzter Parameterwert aus einer Probe 13 Standardfehler der Schätzung (SEE) 13 Signifikanzniveau für die t - Verteilung 13 Freiheitsgrade (die Stichprobengröße - 2) 13 Für einen Steigungskoeffizienten wird die Formel für das Konfidenzintervall durch btc SEE angegeben, wobei tc der kritische t-Wert auf unserem gewählten signifikanten Wert ist. Um zu veranschaulichen, nehmen Sie eine lineare Regression mit einem Investmentfonds-Renditen als abhängige Variable und den SampP 500 Index als unabhängige Variable. Für fünf Jahre der vierteljährlichen Renditen ergibt sich der Steigungskoeffizient b als 1,18, mit einem Standardfehler der Schätzung von 0,147. Die Studierenden-t-Verteilung für 18 Freiheitsgrade (20 Quartale - 2) bei einer 0,05 Signifikanzniveau ist 2,011. Diese Daten geben uns ein Konfidenzintervall von 1,18 (0,147) (2,011) oder einen Bereich von 0,87 bis 1,49. Unsere Interpretation ist, dass es nur eine Wahrscheinlichkeit von 5 gibt, dass die Steigung der Bevölkerung entweder kleiner als 0,87 oder größer als 1,49 ist - wir sind 95 zuversichtlich, dass dieser Fonds mindestens 87 so flüchtig wie der SampP 500, aber nicht mehr als 149 as ist Volatile, basierend auf unserer Fünf-Jahres-Stichprobe. Hypothesentests und Regressionskoeffizienten Regressionskoeffizienten werden häufig mit dem Hypothesentestverfahren getestet. Abhängig davon, was der Analytiker zu beweisen beabsichtigt, können wir einen Steigungskoeffizienten testen, um zu ermitteln, ob er die Chancen in der abhängigen Variablen und das Ausmaß, in dem es die Veränderungen erklärt, erklärt. Betas (Steigungskoeffizienten) können entweder über oder unter 1 (flüchtiger oder weniger flüchtig als der Markt) bestimmt werden. Alphas (der Intercept-Koeffizient) können auf einer Regression zwischen einem Investmentfonds und dem relevanten Marktindex getestet werden, um festzustellen, ob ein positiver Alpha-Wert vorliegt (was auf eine Wertschöpfung des Fondsmanagers schließen lässt). Die Mechanismen der Hypothesentests entsprechen denen, die wir vorher verwendet haben. Eine Nullhypothese wird auf der Grundlage eines Nichtgleich-, Größer - oder Klein-als-Falles gewählt, wobei die Alternative alle Werte erfüllt, die nicht im Null-Fall abgedeckt sind. Angenommen in unserem vorherigen Beispiel, in dem wir eine Rendite auf dem SampP 500 für 20 Quartale zurückverfolgt haben, ist unsere Hypothese, dass dieser Investmentfonds volatiler ist als der Markt. Ein Fonds, der der Marktvolatilität entspricht, wird eine Steigung b von 1,0 aufweisen, so dass für diesen Hypothesentest die Nullhypothese (H 0) als der Fall angegeben wird, bei dem die Steigung kleiner oder gleich 1,0 ist (dh H 0: b lt 1,0 ). Die alternative Hypothese H a hat b gt 1,0. Wir wissen, dass dies ein größerer Fall ist (dh ein Schwanz) - wenn wir ein 0,05 Signifikanzniveau annehmen, ist t gleich 1.734 bei Freiheitsgraden n - 2 18. Beispiel: Interpretieren eines Hypothesentests Aus unserer Stichprobe haben wir Hatte b von 1,18 und einen Standardfehler von 0,147 geschätzt. Unsere Teststatistik wird mit dieser Formel berechnet: t geschätzter Koeffizient - hypothetischer Koeffizient. Standardfehler (1,18 - 1,0) 0,147 0,180,147 oder t 1,224. Für dieses Beispiel liegt unsere berechnete Teststatistik unter dem Ablehnungsniveau von 1,734, so dass wir nicht in der Lage sind, die Nullhypothese zurückzuweisen, dass der Fonds volatiler als der Markt ist. Interpretation: Die Hypothese, dass b gt 1 für diesen Fonds wahrscheinlich mehr Beobachtungen (Freiheitsgrade) benötigt, die mit statistischer Signifikanz nachgewiesen werden können. Auch bei 1,18 nur leicht über 1,0 ist es durchaus möglich, dass dieser Fonds eigentlich nicht so volatil ist wie der Markt, und wir waren richtig, die Nullhypothese nicht abzulehnen. Beispiel: Interpretation eines Regressionskoeffizienten Die CFA-Prüfung ist wahrscheinlich, die zusammenfassende Statistik einer linearen Regression zu geben und um Interpretation zu bitten. Zur Veranschaulichung gehen die folgenden Statistiken für eine Regression zwischen einem Small-Cap-Wachstumsfonds und dem Russell 2000-Index in Betracht: 13 Korrelationskoeffizient 13 Die beiden Abkürzungen sind RSS und SSE: 13 RSS. Oder die Regressionssumme von Quadraten, ist die Summe der Gesamtvariation in der abhängigen Variablen Y, die in der Regressionsgleichung erklärt wird. Die RSS wird berechnet, indem jede Abweichung zwischen einem vorhergesagten Y-Wert und dem mittleren Y-Wert berechnet wird, wobei die Abweichung quadriert und alle Terme addiert werden. Wenn eine unabhängige Variable keine der Variationen einer abhängigen Variablen erklärt, dann sind die vorhergesagten Werte von Y gleich dem Mittelwert und RSS 0. 13 SSE. Oder die Summe des quadratischen Fehlers von Residuen berechnet, indem die Abweichung zwischen einem vorhergesagten Y und einem tatsächlichen Y ermittelt wird, das Ergebnis quadriert und alle Terme addiert werden. 13 TSS oder Gesamtabweichung ist die Summe aus RSS und SSE. Mit anderen Worten, diese ANOVA-Prozess bricht Varianz in zwei Teile: eine, die durch das Modell und eine, die nicht erklärt wird. Für eine Regressionsgleichung mit hoher prädiktiven Qualität müssen wir eine hohe RSS und eine niedrige SSE sehen, die das Verhältnis (RSS1) SSE (n - 2) hoch macht und (basierend auf einem Vergleich mit einem kritischen F - Wert) statistisch aussagekräftig. Der kritische Wert wird der F-Verteilung entnommen und basiert auf Freiheitsgraden. Zum Beispiel würden bei 20 Beobachtungen Freiheitsgrade n-2 oder 18 sein, was zu einem kritischen Wert (aus der Tabelle) von 2,19 führt. Wenn RSS 2,5 und SSE 1,8 wäre, wäre die berechnete Teststatistik F (2,5 (1,818) 25, die über dem kritischen Wert liegt, was anzeigt, dass die Regressionsgleichung eine prädiktive Qualität aufweist (b ist von 0 verschieden) Mit Regressionsmodellen Regressionsmodelle werden häufig verwendet, um ökonomische Statistiken wie Inflation und BIP-Wachstum abzuschätzen. Es wird angenommen, dass zwischen der geschätzten jährlichen Inflation (X oder unabhängiger Variable) und der tatsächlichen Zahl (Y oder abhängiger Variable) folgende Regression erfolgt: Modell wird die prognostizierte Inflationszahl auf der Basis des Modells für die folgenden Inflationszenarien berechnet: 13 Inflationsabschätzung 13 Inflation nach Modell 13 Die Prognosen, die auf diesem Modell basieren, scheinen am besten für typische Inflationsschätzungen geeignet zu sein und deuten darauf hin, dass extreme Schätzungen dazu tendieren Inflation - zB eine tatsächliche Inflation von nur 4,46, wenn die Schätzung war 4.7 Das Modell scheint zu deuten darauf hin, dass Schätzungen sind hoch prädiktive. Um dieses Modell besser zu bewerten, müssten wir jedoch den Standardfehler und die Anzahl der Beobachtungen sehen, auf denen er basiert. Wenn wir den wahren Wert der Regressionsparameter (Steilheit und Intercept) kennen, wäre die Varianz eines beliebigen vorhergesagten Y-Werts gleich dem Quadrat des Standardfehlers. In der Praxis müssen wir die Regressionsparameter schätzen, also ist unser vorhergesagter Wert für Y eine Schätzung, die auf einem geschätzten Modell basiert. Wie zuversichtlich können wir in einem solchen Prozess sein Um ein Vorhersageintervall zu bestimmen, verwenden Sie die folgenden Schritte: 1. Prognostizieren Sie den Wert der abhängigen Variablen Y auf der Grundlage der unabhängigen Beobachtung X. 2. Berechnen Sie die Varianz des Vorhersagefehlers Wobei n die Anzahl der Beobachtungen ist, X der Wert der unabhängigen Variablen ist, die verwendet wird, um die Vorhersage durchzuführen, wobei X der geschätzte Mittelwert der unabhängigen Variablen und sx ist 2 ist die Varianz von X. 3. Wählen Sie ein Signifikanzniveau für das Konfidenzintervall. 4. Konstruieren Sie ein Intervall bei (1 -) Prozent Zuverlässigkeit mit der Struktur Y t c s f. Hier ist ein weiterer Fall, wo das Material viel technischer als nötig wird und man kann sich in der Vorbereitung, wenn in Wirklichkeit die Formel für die Varianz eines Vorhersagefehlers nicht wahrscheinlich abgedeckt werden. Prioritize - verschwenden Sie nicht wertvolle Studienzeiten, die es merken. Wenn das Konzept überhaupt getestet wird, youll wahrscheinlich die Antwort auf Teil 2 gegeben werden. Einfach wissen, wie die Struktur in Teil 4 verwenden, um eine Frage zu beantworten. Wenn beispielsweise die vorhergesagte X-Beobachtung für die Regression Y 1,5 2,5X 2 ist, würden wir ein vorhergesagtes Y von 1,5 2,5 (2) oder 6,5 haben. Unser Vertrauensintervall beträgt 6,5 t c s f. Der t-stat basiert auf einem gewählten Konfidenzintervall und Freiheitsgraden, während sf die Quadratwurzel der oben stehenden Gleichung ist (für Varianz des Vorhersagefehlers), wenn diese Zahlen tc 2.10 für 95 Vertrauen und sf 0.443 das Intervall sind 6.5 (2.1) (0.443) oder 5.57 bis 7.43 Einschränkungen der Regressionsanalyse Konzentrieren Sie sich auf drei Hauptbeschränkungen: 1. Instabilität der Parameter - Dies ist die Tendenz, dass sich die Beziehungen zwischen Variablen im Laufe der Zeit ändern, und zwar aufgrund von Veränderungen in der Wirtschaft oder den Märkten , Unter anderen Unwägbarkeiten. Wenn ein Investmentfonds eine Rückkehr Geschichte in einem Markt, in dem Technologie ein Leadership-Sektor war, kann das Modell nicht funktionieren, wenn ausländische Märkte und Small-Cap-Märkten sind Führer 2. Public Dissemination der Beziehung - In einem effizienten Markt , Kann dies die Effektivität dieser Beziehung in künftigen Perioden begrenzen. So zeigt beispielsweise die Entdeckung, dass niedrige Kurs-to-Bull-Value-Werte einen hohen Preis-zu-Buch-Wert übertreffen, eine höhere Wertentwicklung und wertorientierte Investmentansätze Wird nicht beibehalten die gleiche Beziehung wie in der Vergangenheit. 3. Verletzung von Regressionsbeziehungen - Früher haben wir die sechs klassischen Annahmen einer linearen Regression zusammengefasst. In der realen Welt sind diese Annahmen oft unrealistisch - z. B. Dass die unabhängige Variable X nicht zufällig ist. Interpretieren statistischer Ergebnisse Ergebnisse, in denen Daten normal verteilt und Varianz bekannt sind oder unbekannt sind 13 Wenn eine Varianz einer Population (2) bekannt ist, ist der z-Test die bevorzugte Alternative, um eine Hypothese zu testen Bevölkerung (). Um die Teststatistik zu berechnen, ist Standardfehler gleich Populationsstandardabweichung sq. Wurzel der Stichprobengröße. Beispielsweise ist bei einer Populationsvarianz von 64 und einer Stichprobengröße von 25 der Standardfehler gleich (64) 12 (25) 12 oder 1,6. 13 Beispiel: Teststatistik 13 Angenommen, im selben Fall haben wir einen Hypothesentest konstruiert, dass die mittlere jährliche Rendite gleich 12 ist, dh, wir haben einen zweiseitigen Test, bei dem die Nullhypothese ist, dass die Population 12 bedeutet Ist die Alternative, dass sie nicht gleich 12 ist. Unter Verwendung eines kritischen Wertes von 0,05 (0,025 für jeden Schwanz) ist unsere Regel, den Nullwert abzulehnen, wenn die Teststatistik entweder unter -1,96 oder über 1,96 liegt (bei p .025, z 1,96) ). Angenommen, die Stichprobe beträgt 10,6. 13 Antwort: Teststatistik (10,6 - 12) 1,6 -1,41,6 -0,875. Dieser Wert fällt nicht unter den Ablehnungspunkt, so dass wir die Nullhypothese nicht mit statistischer Sicherheit ablehnen können. 13 Wenn wir Hypothesentests über ein Populationsmittel durchführen, ist es relativ wahrscheinlich, dass die Bevölkerungsabweichung unbekannt sein wird. In diesen Fällen verwenden wir eine Standardabweichung bei der Berechnung des Standardfehlers und die t-Statistik für die Entscheidungsregel (d. h. als Quelle für unser Ablehnungsniveau). Im Vergleich zur z - oder Standardnorm ist eine t-Statistik konservativer (d. H. Höhere Ablehnungspunkte für die Ablehnung der Nullhypothese). In Fällen mit großen Probengrößen (mindestens 30) kann die z-Statistik ersetzt werden. 13 Beispiel: Nehmen wir einen Fall, bei dem die Stichprobengröße 16 ist. In diesem Fall ist die t-stat die einzig geeignete Wahl. Für die t-Verteilung werden Freiheitsgrade als (Stichprobengröße - 1), df 15 in diesem Beispiel berechnet. In diesem Fall gehen wir davon aus, dass wir eine Hypothese testen, dass ein Populationsmittel größer als 8 ist, also wird dies ein eintägiger Test (rechter Schwanz) sein: Die Nullhypothese ist lt 8 und die Alternative ist gt 8. Unsere erforderliche Bedeutung Ist 0,05. Unter Verwendung der Tabelle für die t-Verteilung der Schüler für df 15 und p 0,05 ist der kritische Wert (Ablehnungspunkt) 1,753. Mit anderen Worten, wenn unsere berechnete Teststatistik größer als 1.753 ist, lehnen wir die Nullhypothese ab. 13 Antwort: Wenn wir zu Schritt 5 des Hypothesentests wechseln, nehmen wir eine Stichprobe, bei der der Mittelwert 8,3 und die Standardabweichung 6,1 beträgt. Für dieses Beispiel ist der Standardfehler s n 12 6.1 (16) 12 6.14 1.53. Die Teststatistik ist (8,3 - 8,0) 1,53 0,31,53 oder 0,196. Wenn wir 0,196 zu unserem Ablehnungspunkt von 1,753 vergleichen, können wir die Nullhypothese nicht zurückweisen. 13 In diesem Fall war unser Stichprobenmittelwert von 8,3 tatsächlich größer als 8, jedoch wird der Hypothesentest aufgestellt, um statistische Signifikanz zu erfordern, nicht einfach einen Stichprobenmittelwert mit der Hypothese zu vergleichen. Mit anderen Worten, die Entscheidungen, die in der Hypothesentests durchgeführt werden, sind auch eine Funktion der Probengröße (die bei 16 niedrig ist), der Standardabweichung, des erforderlichen Signifikanzniveaus und der t-Verteilung. Unsere Interpretation in diesem Beispiel ist, dass die 8,3 aus der Stichprobe bedeuten, während nominell höher als 8 ist einfach nicht signifikant höher als 8, zumindest bis zu dem Punkt, wo wir in der Lage, endgültig eine Schlussfolgerung in Bezug auf die Bevölkerung bedeuten, größer als 8 ist 13 Relative Gleichheit der Populationsmittel von zwei normalverteilten Populationen, bei denen unabhängige Zufallsstichproben von Varianzen gleich oder ungleich angenommen werden Für den Fall, dass die Populationsabweichungen für zwei getrennte Gruppen als gleich angenommen werden können, ist eine Technik zum Bündeln einer Schätzung der Populationsabweichung (S 2) aus den Abtastdaten ist durch die folgende Formel gegeben (nimmt zwei unabhängige Stichproben an): 13 wobei: n 1. N 2 Probengrößen sind und s 1 2 s 2 2 Probenabweichungen sind. 13 Freiheitsgrade n 1 n 2 - 2 13 Für die Prüfung der Gleichheit zweier Populationsmittel (dh 1 2) berechnet die Teststatistik die Differenz der Probenmittel (X 1 - X 2), geteilt durch den Standardfehler: die Quadratwurzel Von (s 2 n 1 s 2 n 2). Beispiel: Populationsmittel Nehmen wir an, dass die gepoolte Schätzung der Varianz (s 2) 40 war und die Stichprobengröße für jede Gruppe 20 war. Standardfehler (4020 4020) 12 (8020) 2. Antwort: Wenn die Abtastwerte 8,6 und 8,9 waren, (8,6 - 8,9) 2 & ndash; 0,32 & ndash; 0,15. Tests für Gleichheitsprüfung sind zweiseitige Tests. Bei df 38 (Summe der Probengrößen - 2) und wenn wir 0,05 Signifikanz (p 0,025) annehmen, beträgt der Ablehnungspegel t lt -2,024 bzw. t gt 2,024. Da unsere berechnete Teststatistik -0.15 war, können wir die Nullhypothese nicht ablehnen, dass diese Populationsmittel gleich sind. 1. Für Hypothesenstudien mit gleicher Bevölkerungszahl, bei denen Varianzen nicht gleich angenommen werden können, ist die entsprechende Teststatistik für die Hypothese der t-stat, aber wir können keine Schätzung der Standardabweichung mehr zusammenfassen und der Standardfehler wird zum Quadrat Wurzel von (s 1 2 n 1) (s 2 2 n 2). Die Nullhypothese bleibt 1 2. Und die Teststatistik wird ähnlich dem vorherigen Beispiel berechnet (d. H. Die Differenz in der Abtastvorrichtung bedeutet einen Standardfehler). Berechnen von Freiheitsgraden wird durch diese Formel angenähert 13 Hinweis: Verbringen Sie nicht Zeit, sich diese Formel zu merken, die es für die Prüfung nicht erforderlich ist. Konzentrieren Sie sich stattdessen auf die Schritte der Hypothesenprüfung und Interpretation der Ergebnisse. 13 Der Paired-Comparisons-Test Das vorangegangene Beispiel prüfte die Gleichheit oder Ungleichheit von zwei Populationsmitteln, mit einer Schlüsselannahme, dass die beiden Populationen unabhängig voneinander waren. In einem Paarvergleichstest haben die beiden Populationen einen gewissen Grad an Korrelation oder Co-Bewegung, und die Berechnung der Teststatistik berücksichtigt diese Korrelation. Nehmen wir einen Fall, bei dem wir zwei Investmentfonds vergleichen, die beide als Large-Cap-Wachstum eingestuft werden, wobei wir testen, ob die Renditen für einen deutlich über dem anderen liegen (statistisch signifikant). Der gepaarte Vergleichstest eignet sich, da wir einen gewissen Korrelationsgrad annehmen, da die Renditen für jede von dem Markt abhängig sind. Um die t-Statistik zu berechnen, finden wir zunächst die Stichproben-Mittelwertdifferenz. (D 1 d 2 d 3 dn), wobei n die Anzahl der gepaarten Beobachtungen ist (in unserem Beispiel die Anzahl der Quartale, für die wir vierteljährlich zurückkehren) und d die Differenz ist Zwischen jeder Beobachtung in der Probe. Als nächstes wird eine Probenabweichung durchgeführt. Oder (Summe aller Abweichungen von d) 2 (n - 1) wird mit der Standardabweichung (s d) der positiven Quadratwurzel der Varianz berechnet. Standardfehler sd (n) 12. Bei unserem gegenseitigen Beispiel, wenn unsere Durchschnittsrenditen für 10 Jahre (40 Quartale der Daten) liegen, eine mittlere Durchschnittsdifferenz von 2,58 und eine Standardabweichung von 5,32 haben, wird unsere Teststatistik berechnet (2,58) ((5,32) (40) 12) oder 3,067. Bei 49 Freiheitsgraden mit einem Signifikanzniveau von 0,05 beträgt der Ablehnungspunkt 2,01. So lehnen wir die Nullhypothese ab und geben an, dass es einen statistisch signifikanten Unterschied in den Renditen zwischen diesen Fonds gibt. Hypothesentests zur Varianz einer normalverteilten Population Hypothesentests zum Wert einer Varianz (2) beginnen mit der Formulierung der Null - und Alternativhypothesen. 13 In Hypothesentests für die Varianz auf einer einzigen normalverteilten Population ist die entsprechende Teststatistik als Chi-Quadrat mit 2 bezeichnet. Anders als die Verteilungen, die wir bisher verwendet haben, ist das Chi-Quadrat asymmetrisch, wie es gebunden ist Die linke um null. (Das muss wahr sein, da die Varianz immer eine positive Zahl ist.) Das Chi-Quadrat ist tatsächlich eine Verteilungsgruppe ähnlich der t-Verteilung mit verschiedenen Freiheitsgraden, die zu einer anderen Chi-Quadrat-Verteilung führt. 13 Wobei: n Stichprobengröße, s 2 Stichprobenabweichung, 0 2 Bevölkerungsabweichung aus der Hypothese Probenabweichung s 2 wird als Summe der Abweichungen zwischen den beobachteten Werten und der Stichprobe mittlere 2 Freiheitsgrade oder n - 1 Beispiel: Hypothesenprüfung W Chi Squared Statistic Um einen Hypothesen-Test unter Verwendung der Chi-Quadrat-Statistik zu veranschaulichen, nehmen wir ein Beispiel für einen Fonds, von dem wir glauben, dass er sehr volatil ist, und wir möchten das Risiko (nach vierteljährlicher Standardabweichung) nachweisen ) Ist größer als der Durchschnitt der Märkte. Für unseren Test gehen wir davon aus, dass die vierteljährliche Standardabweichung der Märkte 10 ist. Unser Test wird vierteljährliche Renditen in den letzten fünf Jahren untersuchen, also n 20 und Freiheitsgrade 19. Unser Test ist ein größerer Test als die Nullhypothese von 2 Lt (10) 2. oder 100 und eine abweichende Hypothese von 2 gt 100. Unter Verwendung einer 0,05-Signifikanzstufe beträgt unser Ablehnungspunkt aus den Chi-Quadrat-Tabellen mit df 19 und p 0,05 im rechten Schwanz 30,144. Wenn also unsere berechnete Teststatistik größer als 30,144 ist, lehnen wir die Nullhypothese auf 5 Signifikanzniveau ab. Antwort: Untersucht man die vierteljährlichen Renditen für diesen Zeitraum, so finden wir unsere Stichprobenvarianz (s 2) ist 135. Mit n 20 und 0 2 100 haben wir alle Daten, die zur Berechnung der Teststatistik erforderlich sind. 2 ((n - 1) s 2) 0 2 ((20 - 1) 135) 100 2565100 oder 25,65. Da 25.65 kleiner als unser kritischer Wert von 30.144 ist, haben wir nicht genügend Beweise, um die Nullhypothese zurückzuweisen. Während dieser Fonds in der Tat recht volatil sein kann, ist seine Volatilität nicht statistisch bedeutungsvoller als der Marktdurchschnitt für den Zeitraum. Hypothesentests bezüglich der Gleichheit der Varianzen von zwei normalverteilten Populationen, bei denen beide Stichproben zufällig und unabhängig sind Für Hypothesentests bezüglich relativer Werte der Varianzen von zwei Populationen - ob 1 2 (Varianz der ersten Population) und 2 2 (Varianz Der zweiten) sind nicht gleich viel größer als - wir können Hypothesen auf eine von drei Arten konstruieren. 13 Wenn ein Hypothesentest Abweichungen von zwei Populationen vergleicht und wir davon ausgehen können, dass zufällige Stichproben aus den Populationen unabhängig (unkorreliert) sind, ist der entsprechende Test der F-Test, der das Verhältnis der Probenabweichungen darstellt. Wie beim Chi-Quadrat ist die F-Verteilung eine Familie von asymmetrischen Verteilungen (die von links nach links gebunden sind). Die F-Verteilungsfamilie wird durch zwei Freiheitsgrade definiert: den Zähler (df 1) und den Nenner (df 2). Jeder der Freiheitsgrade wird aus den Probengrößen (jede Stichprobengröße - 1) entnommen. Der aus den Probendaten entnommene F-Test könnte entweder s 1 2 s 2 2 oder s 2 2 s 1 2 sein, wobei die Konvention verwendet wird, je nachdem, welches Verhältnis die größere Zahl erzeugt. Auf diese Weise braucht der F-Test nur mit Werten größer als 1 zu rechnen, da eines der beiden Verhältnisse immer eine Zahl über 1 beträgt. Beispiel: Hypothesenprüfung w Verhältnis der Probenvarianten Um einen Fall von zwei zu veranschaulichen, Investmentfonds. Fonds A hat höhere Performance-Renditen als Fonds B (die wir im Besitz, leider). Unsere Hypothese ist, dass das Risiko zwischen diesen beiden tatsächlich ziemlich ähnlich ist, was bedeutet, dass der Fonds A überlegene risikoadjustierte Ergebnisse hat. Wir testen die Hypothese für die letzten fünf Jahre der Quartalsdaten (df ist 19 für Zähler und Nenner). Unter Verwendung von 0,05 Signifikanz ist unser kritischer Wert aus den F-Tabellen 2.51. Nehmen wir an, dass die vierteljährlichen Standardabweichungen 8,5 für den Fonds A und 6,3 für den Fonds B entsprechen. Antwort: Unsere F-Statistik ist (8,5) 2 (6,3) 2 72,2539,69 1,82. Da 1,82 das Ablehnungsniveau von 2,51 nicht erreicht, können wir die Nullhypothese nicht ablehnen, und wir geben an, dass das Risiko zwischen diesen Fonds nicht signifikant verschieden ist. Konzepte aus der Hypothese-Test-Sektion sind wahrscheinlich nicht durch rigorose Übungen in Anzahl Crunching getestet werden, sondern eher die Identifizierung der einzigartigen Attribute einer bestimmten Statistik. Beispielsweise kann eine typische Frage gestellt werden: In der Hypothesenprüfung, welche Teststatistik durch zwei Freiheitsgrade, den Zähler und den Nenner definiert wird, gibt es folgende Optionen: A. t-Test, B. z-Test, C. chi - Quadrat oder D. F-Test. Natürlich wäre die Antwort D. Eine andere Frage könnte fragen, welche Verteilung ist nicht symmetrisch, und geben Sie dann diese Wahlmöglichkeiten: A. t, B. z, C. chi-Quadrat, D. normal. Hier wäre die Antwort C. Fokus auf die definierenden Merkmale, da sie die wahrscheinlichste Quelle für Prüfungsfragen sind. Parametrische und nichtparametrische Tests Alle bisher beschriebenen Hypothesentests wurden so konzipiert, dass sie den vorhergesagten Wert eines oder mehrerer Parameter testen - unbekannte Variablen wie Mittelwert und Varianz, die eine Population charakterisieren und deren beobachtete Werte verteilt sind In einer gewissen vermuteten Weise. In der Tat sind diese spezifischen Annahmen obligatorisch und auch sehr wichtig: Die meisten der am häufigsten angewandten Tests werden mit Daten aufgebaut, die davon ausgehen, dass die zugrunde liegende Bevölkerung normal verteilt ist, was, wenn nicht wahr, die Schlussfolgerungen ungültig macht. Je weniger normal die Bevölkerung (d. H. Je mehr die Daten schräg sind), desto weniger sollten diese parametrischen Tests oder Verfahren für den beabsichtigten Zweck verwendet werden. Nichtparametrische Hypothesentests sind für Fälle ausgelegt, in denen entweder (a) weniger oder unterschiedliche Annahmen über die Populationsdaten angebracht sind, oder (b) wenn der Hypothesentest keinen Populationsparameter betrifft. In vielen Fällen sind wir neugierig auf eine Reihe von Daten, aber glauben, dass die erforderlichen Annahmen (z. B. normal verteilte Daten) nicht für dieses Beispiel gelten, oder sonst ist die Stichprobengröße zu klein, um bequem eine solche Annahme zu machen. Eine Anzahl von nichtparametrischen Alternativen wurde entwickelt, um in solchen Fällen verwendet zu werden. Die nachfolgende Tabelle zeigt einige Beispiele, die den üblichen parametrischen Tests entsprechen. 13 Anlaß zur Hypothese

No comments:

Post a Comment