Wir haben einen Datensatz mit 10.000 manuell beschrifteten Instanzen und einen Klassifizierer, der für alle diese Daten trainiert wurde. Der Klassifikator wurde dann anhand ALLER dieser Daten ausgewertet, um eine Erfolgsrate von 95% zu erhalten.
Was genau ist an diesem Ansatz falsch? Ist es nur so, dass die Statistik 95% in diesem Setup nicht sehr informativ ist? Kann diese 95% -Zahl noch einen Wert haben? Obwohl ich verstehe, dass es theoretisch keine gute Idee ist, habe ich nicht genug Erfahrung in diesem Bereich, um mir selbst sicher zu sein. Beachten Sie auch, dass ich den betreffenden Klassifikator weder erstellt noch bewertet habe.
Abgesehen vom gesunden Menschenverstand, könnte mir jemand eine sehr solide, maßgebliche Referenz geben, die besagt, dass dieses Setup irgendwie falsch ist?
Alles, was ich im Internet finde, sind Spielzeugbeispiele, die eine gewisse Intuition vermitteln sollen. Hier habe ich ein Projekt von Profis mit einer etablierten Erfolgsbilanz, daher kann ich nicht einfach sagen, dass dies falsch ist, zumal ich es nicht genau weiß.
Zum Beispiel dies Seite sagt:
Die Bewertung der Modellleistung mit den für das Training verwendeten Daten ist im Data Mining nicht akzeptabel, da dadurch leicht überoptimistische und überangepasste Modelle generiert werden können.
Dies ist jedoch kaum eine maßgebliche Referenz. Tatsächlich ist dieses Zitat eindeutig falsch, da die Bewertung nichts mit der Erzeugung überanpassender Modelle zu tun hat. Es könnte zu überoptimistischen Datenwissenschaftlern führen, die die falschen Modelle auswählen würden, aber eine bestimmte Bewertungsstrategie hat nichts mit Überanpassung von Modellen an sich zu tun.