Consiglio Nazionale delle Ricerche

Tipo di prodottoArticolo in rivista
TitoloBlock layer decomposition schemes for training deep neural networks
Anno di pubblicazione2020
Formato
  • Elettronico
  • Cartaceo
Autore/iPalagi, Laura; Seccia, Ruggiero
Affiliazioni autoriSapienza Univ Rome
Autori CNR e affiliazioni
  • LAURA PALAGI
Lingua/e
  • inglese
AbstractDeep feedforward neural networks' (DFNNs) weight estimation relies on the solution of a very large nonconvex optimization problem that may have many local (no global) minimizers, saddle points and large plateaus. Furthermore, the time needed to find good solutions of the training problem heavily depends on both the number of samples and the number of weights (variables). In this work, we show how block coordinate descent (BCD) methods can be fruitful applied to DFNN weight optimization problem and embedded in online frameworks possibly avoiding bad stationary points. We first describe a batch BCD method able to effectively tackle difficulties due to the network's depth; then we further extend the algorithm proposing an online BCD scheme able to scale with respect to both the number of variables and the number of samples. We perform extensive numerical results on standard datasets using various deep networks. We show that the application of BCD methods to the training problem of DFNNs improves over standard batch/online algorithms in the training phase guaranteeing good generalization performance as well.
Lingua abstractinglese
Altro abstract-
Lingua altro abstractinglese
Pagine da97
Pagine a124
Pagine totali28
RivistaJournal of global optimization
Attiva dal 1991
Editore: Kluwer Academic Publishers - Boston
Paese di pubblicazione: Paesi Bassi
Lingua: inglese
ISSN: 0925-5001
Titolo chiave: Journal of global optimization
Titolo abbreviato: J. glob. optim.
Numero volume della rivista77
Fascicolo della rivista1
DOI10.1007/s10898-019-00856-0
Verificato da refereeSì: Internazionale
Stato della pubblicazionePublished version
Indicizzazione (in banche dati controllate)
  • ISI Web of Science (WOS) (Codice:000529229900006)
  • Scopus (Codice:s2.0-85075232350)
Parole chiaveDeep feedforward neural networks, Block coordinate decomposition, Online optimization, Large scale optimization
Link (URL, URI)-
Titolo parallelo-
Licenza-
Scadenza embargo-
Data di accettazione-
Note/Altre informazioni-
Strutture CNR
  • IASI — Istituto di analisi dei sistemi ed informatica "Antonio Ruberti"
Moduli/Attività/Sottoprogetti CNR
  • DIT.AD021.027.001 : OPTIMA - Ottimizzazione, Matematica Discreta e Applicazioni per la Società e l'Industria
Progetti Europei-
Allegati