Ich stimme der Antwort von @ PeterFlom größtenteils zu. Meiner Meinung nach sollten Sie Ihre Daten nicht mitteln (Sie werfen im Grunde genommen 2/3 Ihrer Informationen weg, warum sollten Sie das tun?), Aber Sie sollten auf jeden Fall die Tatsache berücksichtigen, dass Messungen an demselben Patienten dazu neigen näher beieinander liegen als Messungen an verschiedenen Patienten. In einer solchen Situation empfehle ich normalerweise gemischte lineare Modelle, die eine einfache Instanz der von @PeterFlom empfohlenen mehrstufigen Modelle sind.
Insbesondere würden Sie ein verallgemeinertes lineares gemischtes Modell verwenden. Die Verknüpfungsfunktion wäre logistisch, wie bei der "normalen" logistischen Regression. Die funktionale Form würde jedoch mehrere Beobachtungen an jedem Teilnehmer beinhalten, die durch einen zufälligen Effekt modelliert werden, genau wie in "gewöhnlichen" linearen gemischten Modellen, $ y∼F (Xβ + Zγ) $. In R können Sie dies mit glmer () unter Verwendung der Binomialfamilie in das lme4 -Paket einfügen. Für die Vorhersage können Sie eine einzelne Messung verwenden.
Ob ein gemischtes Modell in einer bestimmten Umgebung besser vorhersagt als ein nicht gemischtes Modell, ist natürlich schwer zu sagen. Das gemischte Modell berücksichtigt die Variabilität innerhalb der Person. Wenn Sie nur die drei ursprünglichen Datenpunkte mitteln, verlieren Sie die gesamte Variabilität zwischen den Messungen, sodass Sie zu optimistisch sind, was Sie aus einer einzelnen neuen Beobachtung vorhersagen können.
Wenn Sie dies andererseits tun Werfen Sie einfach alle Beobachtungen ein, ohne die Gruppierung zu berücksichtigen. Sie werden wieder zu optimistisch sein, da alle Standardfehler schrumpfen. Überlegen Sie, was passieren würde, wenn Sie mit einer einzelnen Beobachtung pro Teilnehmer beginnen würden, beispielsweise 100 Datenpunkte ... und dann jede Beobachtung einfach 100 Mal kopieren würden. Sie würden am Ende 10.000 "Beobachtungen" und weitaus kleinere Standardfehler als bei den Originaldaten haben, obwohl Sie keine neuen Informationen eingegeben haben.
Darüber hinaus ermöglichen gemischte Modelle die Modellierung anderer Gruppierungsfaktoren wie Standort, spezifische Demografie, Personal, Diagnoseeigenschaften usw. Sie sind also viel allgemeiner als die Mittelwertbildung.