Waarom los lstm verdwynende gradiënt op?

Waarom los lstm verdwynende gradiënt op?
Waarom los lstm verdwynende gradiënt op?
Anonim

LSTM'e los die probleem op deur gebruik te maak van 'n unieke additiewe gradiëntstruktuur wat direkte toegang tot die vergeethek se aktiverings insluit, wat die netwerk in staat stel om gewenste gedrag van die foutgradiënt aan te moedig deur gereelde hekke-opdatering te gebruik op elke tydstap van die leerproses.

Hoe los LSTM ontploffende gradiënt op?

'n Baie kort antwoord: LSTM ontkoppel seltoestand (tipies aangedui deur c) en versteekte laag/afvoer (tipies aangedui deur h), en doen slegs bykomende opdaterings aan c, wat herinneringe in c meer stabiel maak. Dus word die gradiënt wat deur c vloei, behou en moeilik om te verdwyn (daarom is die algehele gradiënt moeilik om te verdwyn).

Hoe kan verdwynende gradiëntprobleem opgelos word?

Oplossings: Die eenvoudigste oplossing is om ander aktiveringsfunksies te gebruik, soos ReLU, wat nie 'n klein afgeleide veroorsaak nie. Residuele netwerke is nog 'n oplossing, aangesien dit oorblywende verbindings direk na vroeëre lae verskaf.

Watter probleem los LSTM op?

LSTM'e. LSTM (kort vir lang korttermyngeheue) los hoofsaaklik die verdwynende gradiëntprobleem in terugpropagasie op. LSTM'e gebruik 'n hekmeganisme wat die memoriseringproses beheer. Inligting in LSTM'e kan gestoor, geskryf of gelees word via hekke wat oop- en toemaak.

Hoekom LSTM'e keer dat jou hellings verdwyn 'n uitsig vanaf die agteruitpas?

Die rede hiervoor is omdat, om hierdie konstante foutvloei af te dwing, die gradiëntberekening afgekap is om nie terug te vloei na die inset- of kandidaathekke.

Aanbeveel: