從Python程式碼到APP，你只需要一個小工具：GitHub已超3000星

2019 年 11 月 5 日
筆記

選自TowardsDataScience

作者：Adrien Treuille

參與：魔王、一鳴

機器學習開發者想要打造一款 App 有多難？事實上，你只需要會 Python 程式碼就可以了，剩下的工作都可以交給一個工具。近日，Streamlit 聯合創始人 Adrien Treuille 撰文介紹其開發的機器學習工具開發框架——Streamlit，這是一款專為機器學習工程師創建的免費、開源 app 構建框架。這款工具可以在你寫 Python 程式碼的時候，實時更新你的應用。目前，Streamlit 的 GitHub Star 量已經超過 3400，在 medim 上的熱度更是達到了 9000+。

Streamlit 網站：https://streamlit.io/

GitHub地址：https://github.com/streamlit/streamlit/

用 300 行 Python 程式碼，編程一個可實時執行神經網路推斷的語義搜索引擎。

以我的經驗，每一個不平凡的機器學習項目都是用錯誤百出、難以維護的內部工具整合而成的。這些工具通常用 Jupyter Notebooks 和 Flask app 寫成，很難部署，需要對客戶端伺服器架構（C/S 架構）進行推理，且無法與 Tensorflow GPU 會話等機器學習組件進行很好的整合。

我第一次看到此類工具是在卡內基梅隆大學，之後又在伯克利、Google X、Zoox 看到。這些工具最初只是小的 Jupyter notebook：感測器校準工具、模擬對比 app、光學雷達對齊 app、場景重現工具等。

當一個工具越來越重要時，項目經理會介入其中：進程和需求不斷增加。這些單獨的項目變成程式碼腳本，並逐漸發展成為冗長的「維護噩夢」……

機器學習工程師創建 app 的流程（ad-hoc）。

而當一個工具非常關鍵時，我們會組建工具團隊。他們熟練地寫 Vue 和 React，在筆記型電腦電腦上貼滿聲明式框架的貼紙。他們的設計流程是這樣式的：

工具團隊構建 app 的流程（乾淨整潔，從零開始）。

這簡直太棒了！但是所有這些工具都需要新功能，比如每周上線新功能。然而工具團隊可能同時支援 10 多個項目，他們會說：「我們會在兩個月內更新您的工具。」

我們返回之前自行構建工具的流程：部署 Flask app，寫 HTML、CSS 和 JavaScript，嘗試對從 notebook 到樣式表的所有一些進行版本控制。我和在 Google X 工作的朋友 Thiago Teixeira 開始思考：如果構建工具像寫 Python 腳本一樣簡單呢？

我們希望在沒有工具團隊的情況下，機器學習工程師也能構建不錯的 app。這些內部工具應該像機器學習工作流程的副產品那樣自然而然地出現。寫此類工具感覺就像訓練神經網路或者在 Jupyter 中執行點對點分析（ad-hoc analysis）！同時，我們還想保留強大 app 框架的靈活性。我們想創造出令工程師驕傲的好工具。

我們希望的 app 構建流程如下：

Streamlit app 構建流程。

與來自 Uber、Twitter、Stitch Fix、Dropbox 等的工程師一道，我們用一年時間創造了 Streamlit，這是一個針對機器學習工程師的免費開源 app 框架。不管對於任何原型，Streamlit 的核心原則都是更簡單、更純粹。

Streamlit 的核心原則如下：

1. 擁抱 Python

Streamlit app 是完全自上而下運行的腳本，沒有隱藏狀態。你可以利用函數調用來處理程式碼。只要你會寫 Python 腳本，你就可以寫 Streamlit app。例如，你可以按照以下程式碼對螢幕執行寫入操作：

import streamlit as stst.write('Hello, world!')

2. 把 widget 視作變數

Streamlit 中沒有 callback！每一次交互都只是自上而下重新運行腳本。該方法使得程式碼非常乾淨：

import streamlit as stx = st.slider('x')  st.write(x, 'squared is', x * x)

3 行程式碼寫成的 Streamlit 交互 app。

3. 重用數據和計算

如果要下載大量數據或執行複雜計算，怎麼辦？關鍵在於在多次運行中安全地重用資訊。Streamlit 引入了 cache primitive，它像一個持續的默認不可更改的數據存儲器，保障 Streamlit app 輕鬆安全地重用資訊。例如，以下程式碼只從 Udacity 自動駕駛項目（https://github.com/udacity/self-driving-car）中下載一次數據，就可得到一個簡單快速的 app：

使用 st.cache，在 Streamlit 多次運行中保存數據。程式碼運行說明，參見：https://gist.github.com/treuille/c633dc8bc86efaa98eb8abe76478aa81#gistcomment-3041475。

運行以上 st.cache 示例的輸出。

簡而言之，Streamlit 的工作流程如下：

每次用戶交互均需要從頭運行全部腳本。
Streamlit 根據 widget 狀態為每個變數分配最新值。
快取保證 Streamlit 重用數據和計算。

如下圖所示：

用戶事件觸發 Streamlit 從頭開始重新運行腳本。不同運行中僅保留快取。

感興趣的話，你可以立刻嘗試！只需運行以下行：

網頁瀏覽器將自動打開，並轉向本地 Streamlit app。如果沒有出現瀏覽器窗口，只需點擊鏈接。

這些想法很簡潔，但有效，使用 Streamlit 不會妨礙你創建豐富有用的 app。我在 Zoox 和 Google X 工作時，看著自動駕駛汽車項目發展成為數 G 的視覺數據，這些數據需要搜索和理解，包括在影像數據上運行模型進而對比性能。我看到的每一個自動駕駛汽車項目都有整支團隊在做這方面的工具。

在 Streamlit 中構建此類工具非常簡單。以下 Streamlit demo 可以對整個 Udacity 自動駕駛汽車照片數據集執行語義搜索，對人類標註的真值標籤進行可視化，並在 app 內實時運行完整的神經網路（YOLO）。