AutoML : 更有效地設計神經網路模型

2020 年 9 月 14 日
AI

字幕組雙語原文：AutoML : 更有效地設計神經網路模型

英語原文：AutoML: Creating Top-Performing Neural Networks Without Defining Architectures

翻譯：雷鋒字幕組（chenx2ovo）

自動化機器學習，通常被稱為AutoML，是自動化構建指神經網路結構。AutoML通過智慧架構的操作，可以讓大家更方便、更快速的進行深度學習的研究。

在本文中，我們將介紹AutoML的以下內容：

如何安裝AutoKeras來進行神經網路架構搜索
在使用結構化、影像和文本數據進行回歸和分類任務中，如何使用AutoKeras找到最佳的神經網路架構。
如何評估、預測、導出（搜索到的模型）到Keras/TensorFlow，並且查看搜索到的高性能模型的架構。

關於AutoKeras的一個簡短介紹

通過AutoKeras這個神經架構搜索演算法，我們可以找到最好的神經網路架構，比如層中神經元的數量，架構的層數，加入哪些層，層的特定參數，比如Dropout中的濾波器大小或掉落神經元的百分比等等。當搜索完成後，你可以將模型作為常規的TensorFlow/Keras模型使用。
通過使用AutoKeras，你可以建立一個具有複雜組件的模型，比如嵌入和空間縮減，這些對於那些還在學習深度學習的人來說是不太容易理解的。
當AutoKeras創建模型時，會進行大量預處理操作，如矢量化或清理文本數據等等，都會自動完成並優化。
啟動和訓練搜索只需要兩行程式碼。AutoKeras擁有一個類似Keras的介面，所以它非常易於使用。

是不是很激動，讓我們正式開始叭！

安裝

在安裝前，請先確保你安裝了以下包：

Python 3 (AutoKeras不能在Python 2上運行)
TensorFlow ≥ 2.3.0 (AutoKeras基於TensorFlow構建

在命令行中，運行下列兩個命令。這樣就能正確安裝AutoKeras。注意，不能在Kaggle筆記型電腦中運行，最好在本地環境中運行。

作為測試，在編碼環境中運行import autokeras以確保一切正常。

結構化數據的分類/回歸任務

我們從著名的iris數據集開始，該數據集可以從sklearn的幾個簡單的示例數據集中導入。導入的數據是一個字典，有兩個鍵值對組成，”data “和 “target”。

然而，由於target是分類標籤（三個類別），我們需要對它進行虛擬編碼。由於結果是一個pandas DataFrame，並且需要一個NumPy數組，我們在pd.get_dummies之後調用.values（獨熱編碼）。

調用X.shape得到(150，4)，調用y.shape得到(150，3)。這是說明X中包含了150行4列，y中有3個不同的類別（因此有3列）。為了評估我們的模型，我們將把數據分成訓練集和測試集。

查看數組的尺寸是一個很好的做法：

X_train: (105, 4)
X_test: (45, 4)
y_train: (105, 3)
y_test: (45, 3)

太好了！一切都很順利。我們可以開始使用Autokeras了。

導入Autokeras通常沒有問題。StructuredDataClassifier是一個在 “結構化數據 “，或者說是帶有列和標籤的標準二維數據上工作的搜索對象。max_trials參數表示要測試的模型的最大數量；在iris數據集上，由於數據集規模較小，這個參數可以設置較高一些。通常在達到max_trials之前搜索就會結束（它作為一個上限）。