Ich habe eine Frage und würde gerne hören, was die Community zu sagen hat. Angenommen, Sie trainieren ein tief lernendes neuronales Netzwerk. Die Implementierungsdetails sind für meine Frage nicht relevant. Ich weiß sehr gut, dass Sie, wenn Sie eine zu große Lernrate wählen, eine Kostenfunktion erhalten, die möglicherweise zu Nan wird (wenn Sie beispielsweise die Sigmoid-Aktivierungsfunktion verwenden). Angenommen, ich verwende die Kreuzentropie als Kostenfunktion. Typisches Problem mit der binären Klassifizierung (oder sogar mit mehreren Klassen mit Softmax). Ich weiß auch, warum das passiert. Ich beobachte oft folgendes Verhalten: Meine Kostenfunktion nimmt gut ab, aber nach einer bestimmten Anzahl von Epochen wird sie nan. Wenn Sie die Lernrate reduzieren, geschieht dies später (also nach weiteren Epochen). Liegt das wirklich daran, dass sich der (zum Beispiel) Gradientenabstieg nach Annäherung an das Minimum nicht stabilisieren kann und wild herumspringt? Ich dachte, dass der Algorithmus nicht genau auf das Minimum konvergiert, sondern um ihn herum schwingen sollte und dort mehr oder weniger stabil bleibt ... Gedanken?