Das Wichtigste zuerst, ich glaube nicht, dass es viele Fragen der Form "Ist es eine gute Praxis, beim maschinellen Lernen immer X zu sein" gibt, bei denen die Antwort endgültig sein wird. Immer? Immer immer? Über parametrische, nicht parametrische, Bayes'sche, Monte-Carlo-, sozialwissenschaftliche, rein mathematische und Millionen-Feature-Modelle hinweg? Das wäre schön, nicht wahr?
Konkret gibt es hier einige Möglichkeiten: Es kommt nur darauf an.
Manchmal ist Normalisierung gut:
1) Mehrere Algorithmen, insbesondere SVMs, können bei normalisierten Daten manchmal viel schneller konvergieren (obwohl ich mich genau daran nicht erinnern kann).
2) Wenn Ihr Modell empfindlich auf die Größe reagiert und die Einheiten zweier verschiedener Merkmale unterschiedlich und beliebig sind. Dies ist wie in dem von Ihnen vorgeschlagenen Fall, in dem etwas mehr Einfluss erhält, als es sollte.
Aber natürlich sind nicht alle Algorithmen in der von Ihnen vorgeschlagenen Weise abhängig von der Größe. Lineare Regressionskoeffizienten sind identisch, wenn Sie Ihre Daten skalieren oder nicht, da proportionale Beziehungen zwischen ihnen betrachtet werden.
Manchmal wird normalisiert schlecht:
1) Wenn Sie Ihre Koeffizienten interpretieren möchten und sie sich nicht gut normalisieren. Regression auf so etwas wie Dollar gibt Ihnen ein aussagekräftiges Ergebnis. Eine Regression des Anteils des maximalen Dollars in der Stichprobe ist möglicherweise nicht möglich.
2) Wenn tatsächlich die Einheiten Ihrer Funktionen von Bedeutung sind und die Entfernung einen Unterschied macht! Zurück zu SVMs - Wenn Sie versuchen, einen Max-Margin-Klassifikator zu finden, sind die Einheiten, die in diesen 'Max'-Bereich fallen, von Bedeutung. Skalierungsfunktionen für Clustering-Algorithmen können das Ergebnis erheblich verändern. Stellen Sie sich vier Cluster um den Ursprung vor, die sich jeweils in einem anderen Quadranten befinden und alle gut skaliert sind. Stellen Sie sich nun vor, die y-Achse wird auf das Zehnfache der Länge der x-Achse gedehnt. Anstelle von vier kleinen Quadranten-Clustern erhalten Sie das lange gequetschte Baguette mit Daten, das entlang seiner Länge in vier Teile geschnitten wird! (Und der wichtige Teil ist, dass Sie vielleicht beides bevorzugen!)
In der sicher unbefriedigenden Zusammenfassung lautet die allgemeinste Antwort, dass Sie sich ernsthaft fragen müssen, was mit den Daten Sinn macht. und Modell, das Sie verwenden.