Die Grundidee der Regression ist, dass die Wahrscheinlichkeitsverteilung von $ y $ span> von $ x $ span> abhängt : Es gibt eine Familie von Verteilungen $ P_x (y) $ span>. Es wird allgemein angenommen, dass diese Verteilungen alle normal sind und eine konstante Standardabweichung (Homoskedastizität) aufweisen. Dabei bleibt nur der Mittelwert abhängig von $ x $ span>: $ p (Y = y) = N (\ mu_x, \ sigma) $ span>. Bei kontinuierlichen Daten erhalten Sie normalerweise nur ein $ y $ span> für endlich viele $ x $ span> und kein $ y $ span> für den Rest. Schätzen Sie $ \ mu_x $ span>, indem Sie sich nur Ihre Stichprobe $ y $ span> für diesen $ x $ span> funktioniert nicht. Daher wird häufig die weitere Annahme getroffen, dass $ u_x $ span> eine einfache lineare Funktion von $ x $ span> ist dass $ p (Y = y) = N (mx + b, \ sigma) $ span> für einige Zahlen $ m, b , \ sigma $ span>. Die lineare Regressionsformel gibt Ihnen dann eine Schätzung von $ m $ span> (Steigung) und $ b $ span> (Achsenabschnitt) ) für Ihre Daten.
Hier scheinen Sie stark verzerrte Daten zu haben, und es scheint einen allgemeinen Trend zu einer abnehmenden Streuung zu geben. Wenn Sie also eine lineare Regression verwenden würden, wären die Annahmen zur Normalität und Homoskedastizität problematisch. Sie scheinen jedoch einen großen Datensatz für jeden Wert von $ x $ span> zu haben. Um $ \ mu $ span> für einen bestimmten $ x $ span> zu schätzen, muss die Linearität nicht verwendet werden Regressionsformel; Sie können einfach $ \ bar y $ span> für jeden $ x $ span> nehmen. Dies ist informativer für die Vorhersage eines $ y $ span> für $ x = 4 $ span>: Betrachten des $ y $ span> -Werte für $ x = 4 $ span> oder betrachten Sie den $ y $ span> -Werte für $ x = 3 $ span> und $ x = 5 $ span>, und versuchen, zwischen ihnen zu interpolieren?
Möglicherweise möchten Sie andere Zusammenfassungsstatistiken als nur $ \ bar y_x $ span> anzeigen. Ein Box-Plot kann beispielsweise Metian und Quartile anzeigen. Möglicherweise möchten Sie auch die Standardabweichung irgendwie darstellen.
Sie können auch die gesamten Distributionen anzeigen. Sie können dies mit x-Dithering tun, wie Pieter vorgeschlagen hat, oder mit einem anderen Diagrammtyp, wie z. B. Dichtediagrammen. Sie könnten sie nebeneinander stellen, wie in Pieters Antwort, aber mit nur sechs Kategorien ist es möglicherweise möglich, sie zu einem Diagramm zu kombinieren, wobei die Kategorien durch Farben getrennt sind. Hier ist eine Diskussion über Histogramme und Dichtediagramme: https://towardsdatascience.com/histograms-and-density-plots-in-python-f6bda88f5ac0