Es sieht so aus, als würden Sie zwei Probleme ansprechen: 1. Interpretierbarkeit und 2. Effizienz der Vorhersage. Wie bereits in den obigen Kommentaren erwähnt, können Sie in Python variable Wichtigkeit extrahieren, sodass Punkt 1 angesprochen wird.
Um Punkt 2 anzusprechen, wenn Sie sich mit der Effizienz bis hinunter befassen In Mikrosekunden möchten Sie möglicherweise andere Algorithmen untersuchen, z. B. die logistische Regression, und die Leistung außerhalb der Stichprobe mit der von Random Forest generierten vergleichen. Wenn die Leistung nahezu gleichwertig ist, die logistische Regression jedoch viel schneller ist, können Sie sich für die logistische Regression entscheiden.
Wenn Sie Random Forest verwenden, lautet die kurze Antwort, dass Sie technisch könnte einen zufälligen Baum erstellen, indem ntree = 1 gesetzt wird, und es könnte eine anständige Vorhersage erzeugen, aber eine Sammlung von Bäumen ist viel besser als ein einzelner Baum. Es ist also nicht sinnvoll, nur einen Baum aus der Teilmenge der Bäume zu erstellen, es sei denn, Sie möchten die Leistung außerhalb der Stichprobe gegen Effizienz eintauschen.
Außerdem können Sie die Vorhersagen um beschleunigen ein Faktor von 10 oder mehr, indem nur eine Teilmenge der Bäume in der endgültigen Vorhersage verwendet wird. Wenn Sie 1500 Bäume trainieren, können Sie die Teilmenge auswählen, die am besten zur endgültigen Vorhersage beiträgt. Ich denke an etwas in der Art von Ensemble-Auswahl aus einem Bibliotheksmodell, bei dem jeder Baum in Ihrem Wald das Modell in Ihrem Ensemble wäre.