Nachrichten / Spiele

Eine mathematische Erklärung von Deep Learning

Deep Learning hat den Bereich des maschinellen Lernens (und folglich die Welt) dramatisch verändert, da maschinelles Lernen heute viel breiter auf verschiedene Anwendungsszenarien angewendet wird – wie z. B. Empfehlungssysteme, Spracherkennung, autonomes Fahren und automatisches Spielen. 2018 wurden Professor Joshua Bengio, Geoffrey Hinton und Yann Lecun für ihre Beiträge zum Deep Learning mit dem Turing-Preis (oft als „Nobelpreis für Informatik“ bezeichnet) ausgezeichnet. Dennoch wird Deep Learning von vielen Forschern und Praktikern immer noch als Black Box betrachtet, und theoretische Erklärungen des zugrunde liegenden Mechanismus werden immer noch mit Spannung erwartet. Lassen Sie uns also untersuchen, warum das Grundprinzip des Deep Learning ziemlich generisch ist, und zwar über die Beziehungen zwischen hochmodernen Deep-Learning-Modellen und mehreren frühen Modellen, die nicht unter die Überschrift Deep Learning fallen (einschließlich eines von mir miterfundenen Modells).

Neuronale Netze können entweder als universelle Funktionsapproximatoren oder als Informationsprozessoren interpretiert werden. Wir werden versuchen, den Mechanismus des Deep Learning aus der Perspektive universeller Funktionsapproximatoren zu erklären. Universelle funktionale Annäherung war ein traditionelles Thema und wir werden einige neuronale Netze vor und in der Ära des tiefen Lernens überprüfen. Anhand ihrer Ähnlichkeiten und Unterschiede zeigen wir, warum neuronale Netze tief sein müssen und wie tief sie wirklich sein müssen. Und unsere Theorie stimmt sehr gut mit den derzeit verwendeten Convolutional Neural Networks überein.

Traditionelle neuronale Netze

Es gibt eine lange Geschichte neuronaler Netzwerkmodelle. Und seine Aktivierungsfunktion ist typischerweise eine sigmoidale Funktion oder eine hyperbolische Tangensfunktion. Mehrschichtige neuronale Netze wurden Multi-Layer Perceptron (MLP) genannt [1]. Und es könnte mit der von David Rumelhart, Geoffrey Hinton und Ronald Williams 1986 vorgeschlagenen Backpropagation-Methode trainiert werden, die im Grunde eine Gradienten-basierte Methode ist. Diese Aktivierungsfunktionen sind nichtlinear und glatt. Sie haben auch frühe glockenförmige Derivate und feste Bereiche. Beispielsweise verschiebt die Sigmoidalfunktion den Ausgabewert schnell in Richtung 0 oder 1, während die hyperbolische Tangensfunktion den Ausgabewert schnell in Richtung -1 oder 1 verschiebt. Dadurch eignen sie sich gut für Klassifikationsprobleme. Wenn jedoch die Anzahl der Schichten zunimmt, beginnen die Gradienten aufgrund der Verwendung des Backpropagation-Verfahrens zu verschwinden. MLP-Modelle mit Hidden Layer waren damals wohl am weitesten verbreitet.

Es ist auch allgemein bekannt, dass die gleichgerichtete lineare Einheit (ReLU) als Aktivierungsfunktion in Deep-Learning-Modellen als Ersatz für sigmoidale und hyperbolische Tangensfunktionen verwendet wurde. Seine mathematische Form ist so einfach wie max {0, x}, und es hat eine andere Namensrampenfunktion. Der Grund für seine Verwendung ist, dass seine Steigung in Bezug auf x 1 ist, sodass der Gradient niemals verschwindet, wenn die Anzahl der Schichten zunimmt. Schauen wir uns tiefe neuronale Netze aus der Perspektive von ReLU genauer an.

Stückweise stetige lineare Funktionen

Eines der ersten Modelle, das ReLU für Regression und Klassifikation verwendete, waren die artikulierten Hyperebenen-Modelle, die 1993 von Leo Breiman vorgeschlagen wurden [2]. Professor Breiman war ein Pionier auf dem Gebiet des maschinellen Lernens und seine Arbeit schlägt eine Brücke zwischen Statistik und Informatik. Das Modell ist die Summe einer Reihe von Scharnieren und kann daher als grundlegendes Funktionsmodell wie die B-Spline- und Wavelet-Modelle betrachtet werden. Jedes Scharnier in seinem Modell ist tatsächlich eine Maximum- oder Minimumfunktion von zwei linearen Funktionen. Dieses Modell kann sowohl für die Regression als auch für die Klassifizierung verwendet werden. Ein binäres Klassifikationsproblem kann direkt als Regressionsproblem betrachtet werden, während ein Mehrklassen-Klassifikationsproblem als multiples Regressionsproblem betrachtet werden kann.

Das von Breiman vorgeschlagene Modell kann als eindimensionale kontinuierliche stückweise lineare (CPWL) Funktionen betrachtet werden. Shunning Wang hat 2004 bewiesen, dass dieses Modell beliebige kontinuierliche, stückweise lineare Funktionen in einer Dimension darstellen kann und dass die Verschachtelung solcher Modelltypen für die Darstellung beliebiger CPWL-Funktionen mit mehrdimensionalen Eingaben erforderlich ist. [3]. Basierend auf diesem theoretischen Ergebnis schlug Ian Goodfellow 2013 ein tiefes neuronales ReLU-Netzwerk namens Maxout-Netzwerke vor [4]. Die theoretische Grundlage für die Verwendung von CPWL-Funktionen zur Annäherung beliebiger nichtlinearer Funktionen ist einfach der Satz von Taylor für multivariate Funktionen in der Analysis.

Seit den 1970er Jahren haben Leon O. Chua und andere Forscher ein zelluläres neuronales Netzwerk vorgeschlagen, um CPWL-Funktionen mit Eingaben in verschiedenen Dimensionen darzustellen [5][6][7]. Professor Leon Chua hat große Beiträge auf dem Gebiet der Schaltungen und Systeme geleistet, und diese Arbeit wurde von der Gemeinschaft der neuronalen Netze mit renommierten Preisen ausgezeichnet. Die Notwendigkeit einer komplizierteren nichtlinearen Komponente zur Darstellung von Strukturen mit Eingaben von zwei oder mehr Dimensionen wurde durch das weithin bekannte lineare Trennbarkeitsproblem beim maschinellen Lernen verursacht. In Breimans Modell treten alle Grenzen auf, wenn zwei lineare Funktionen in jedem Scharnier gleich sind, sodass alle Grenzen im gesamten Bereich linear und effizient sind. Es kann daher keine CPWL-Funktionen mit zweidimensionalen Eingaben darstellen, wie das in Abbildung 1 gezeigte Beispiel [8].

Abbildung 1. Eine CPWL-Funktion mit zweidimensionaler Eingabe

Das Modell von Chua entschied sich dafür, verschachtelte absolute Funktionen zu verwenden, um die nichtlinearen Komponenten des Modells zu konstruieren, und die Verschachtelungsebene ist gleich der Dimension der Eingabe. Dieses Modell kann also viele Parameter haben, wenn die Eingabedimension hoch ist.

Im Jahr 2005 verallgemeinerten Shunning Wang und Xusheng Sun das artikulierte Hyperebenenmodell auf beliebige Dimensionen [8]. Sie bewiesen, dass jede CPWL-Funktion durch die Summe der maximalen oder minimalen Funktionen von höchstens N + 1 linearen Funktionen dargestellt werden kann, wobei N die Dimension der Eingabe ist. Sie wiesen auch darauf hin, dass es einem tiefen neuronalen Netzwerk mit zwei Eigenschaften entspricht: Erstens wird die Rampenfunktion als Aktivierungsfunktion verwendet; Zweitens ist die maximale Anzahl von Schichten die Obergrenze von log2(N+1), wobei N die Dimension der Eingabe ist. Dadurch wurde die theoretische Grenze für die Anzahl der Schichten stark reduziert. Und im Allgemeinen kann dieses Modell mit Gradienten-basierten Methoden trainiert werden. In den letzten zehn Jahren wurde im Bereich Algorithmen und Architektur viel Arbeit geleistet, um das Training besser und einfacher zu machen.

Deep-Learning-Modelle

Einer der großen Meilensteine ​​in der Geschichte des Deep Learning ist AlexNet, das 2012 bei einem ImageNet-Wettbewerb eingesetzt wurde [9]. Alex Krizhevsky, Ilya Sutskever und Geoffrey Hinton schlugen ein tiefes neuronales Netzwerkmodell vor, das aus 8 konvolutionellen oder dichten Schichten und einigen maximalen Clustering-Schichten besteht. Das Netzwerk erzielte einen Top-5-Testfehler von 15,3 %, mehr als 10,8 Prozentpunkte weniger als der Zweitplatzierte. Seine Eingabe ist 224 * 224 in jedem der RGB-Kanäle, also ist seine Gesamtdimension 224 * 224 * 3. Unsere Grenze für die Tiefe des neuronalen Netzwerks ist also 18. Wenn die Grenze also signifikant ist, wären tiefere neuronale Netzwerke möglich um die Präzision zu erhöhen. Karen Simonyan und Andrew Zisserman schlugen 2014 das VGG-Modell vor [10]. Es hat typische Varianten mit 16 oder 19 Faltungs- oder dichten Schichten und wie erwartet eine weiter verbesserte Genauigkeit. Dies stimmt gut mit unserer Theorie überein, und es gibt mindestens eine andere Sache, die getan werden kann, um die Genauigkeit in einigen Fällen möglicherweise noch weiter zu erhöhen.

In AlexNet und VGG ist die Tiefe des Subnetzes, das an jeder Aktivierungsfunktion endet, gleich. Tatsächlich reicht es aus, zu garantieren, dass eine ausreichende Anzahl von Komponenten in den Netzwerken nicht flacher als die Grenze ist. Mit anderen Worten, die Anzahl der linearen Funktionen in jeder maximalen oder minimalen Funktion in dem verallgemeinerten artikulierten Hyperebenenmodell könnte in der Praxis flexibel sein. Und es könnte parametereffizienter sein, einige Komponenten mit noch größerer Tiefe und einige Komponenten mit geringerer Tiefe zu haben. Kaiming He, Xiangyu Zhang, Shaoqing Ren und Jian Sun schlugen 2015 das ResNet-Modell vor [11]. Dieses Modell entschied sich dafür, einige Komponenten einige vorherige Schichten umgehen zu lassen. Im Allgemeinen ist dieses Modell tiefer und schmaler und hat eine Variante mit einer Tiefe von bis zu 152 Schichten und eine noch weiter verbesserte Genauigkeit.

Wir haben uns in diesem Artikel auf Convolutional Neural Networks konzentriert. Andere tiefe neuronale Netze wie rekurrente neuronale Netze müssen durch andere Theorien erklärt werden. Darüber hinaus gibt es noch neue Innovationen im Bereich der Aktivierungsfunktionen wie Exponential Linear Unit (ELU) [12]. Meiner Meinung nach haben Modellierungs- und Trainingsalgorithmen, Datenverfügbarkeit, Computerinfrastruktur und Anwendungsszenarien dazu geführt, dass Deep Learning heute weit verbreitet ist.

Die Referenzen:

[1] DE Rumelhart, GE Hinton und RJ Williams (1986) Lernen von Darstellungen durch Rückwärtsausbreitung von Fehlern. Natur, 323, 533-536.

[2] L. Breiman, „Artikulierte Hyperebenen für Funktionsregression, Klassifikation und Approximation“, IEEE Trans. Inf. Theorie, Bd. 39, Nr. 3, p. 999-1013, Mai 1993.

[3] S. Wang, „Allgemeine konstruktive Darstellungen für kontinuierliche stückweise lineare Funktionen“, IEEE Trans. Systemschaltungen Ich, Reg. Papiere, Bd. 51, Nr. 9, p. 1889-1896, September 2004.

[4] IJ Goodfellow, D. Warde-Farley, M. Mirza, A. Courville und Y. Bengio. „Maxout-Netzwerke“, ICML, 2013.

[5] LO Chua und SM Kang, „Piecewise Sectional Linear Functions: Canonical Representation, Properties, and Applications“, IEEE Trans. Systemschaltungen, Bd. CAS-30, Nr. 3, p. 125-140, März 1977.

[6] LO Chua und AC Deng, „Canonical Piecewise Linear Representation“, IEEE Trans. Systemschaltungen, Bd. 35, Nr. 1, p. 101-111, Januar 1988.

[7] J. Lin und R. Unbehauen, „Canonical Piecewise Linear Networks“, IEEE Trans. Neuronales Netz, Bd. 6, Nr. 1, p. 43-50, Januar 1995.

[8] S. Wang und X. Sun, „Generalization of hinging hyperplanes“, in IEEE Transactions on Inf. Theorie, Bd. 51, Nr. 12, S. 4425-4431, Dezember 2005.

[9] A. Krizhevsky, I. Sutskever und G. Hinton. Imagenet-Klassifizierung mit Deep Convolutional Neural Networks. NIPS, 2012.

[10] K. Simonyan und A. Zisserman. „Sehr tiefe Faltungsnetzwerke für groß angelegte Bilderkennung“, ICLR, 2015.

[11] K. He, X. Zhang, S. Ren und J. Sun. Deep Residual Learning für die Bilderkennung. CVPR, 2015.

[12] D.-A. Clevert, T. Unterthiner und S. Hochreiter, „Fast and Accurate Deep Network Learning by Exponential Linear Units (ELUS)“, ICLR, 2016.


Weder die Roblox Corporation noch dieser Blog befürworten oder unterstützen irgendein Unternehmen oder einen Dienst. Darüber hinaus werden keine Gewährleistungen oder Versprechungen hinsichtlich der Genauigkeit, Zuverlässigkeit oder Vollständigkeit der in diesem Blog enthaltenen Informationen abgegeben.

Dieser Blogbeitrag erschien ursprünglich im Roblox Tech Blog.