腦洞清奇的日本人,連搞 AI 都不正經

  • 2019 年 12 月 1 日
  • 筆記

納尼!機器學習還能這樣用?

不得不承認,日本人的腦洞發達程度應該是世界第一,幾乎整個主流社會都沉浸在各種二次元、惡搞整蠱、宅基腐的奇特氛圍里。

而「機器學習」這樣鋼鐵直男般的技術,無論在發展領先的美國還是中國,都普遍首先應用在安防、金融、自動駕駛、物流這些重型領域中,是不是聽起來就很霸氣。

如此鋼鐵直男的機器學習到了日本,畫風突變。

來自東京的數據科學家 Kenji Doi 使用機器學習模型和 Google 的 AutoML Vision 來對拉麵進行分類。

你沒聽錯,真的是拉麵。

這項目的目的也很神奇,Kenji Doi 想要通過機器學習,確定這碗面來自日本拉麵名店 Ramen Jiro 眾多分店中的哪一家。截至目前為止,據說這個模型的準確度已經達到 95 %。

通過這張動圖,了解一下這個模型的數據集:

Ramen Jiro 是日本最受歡迎的餐廳之一,光在東京就有 41 家分店。每家店都共用一份菜單,連盛面用的碗幾乎都是一模一樣。再加上日本人對於工作的細緻精準和匠人精神,相信每個分店的製作製程和水準都有著一套嚴格要求。

所以想通過一碗面的圖片,就來分辨這屬於哪家分店,真的很難。即便是常客身之廚師本人也很難做到。

但 Kenji 醬認為,深度學習能通過識別一些最微小的差別來解決這個問題。

RML(Ramen Machine Learning)

為此,他開始逐店深入品嘗。(誤)

他建立了一個機器學習模型來對拉麵進行分類,而且是想通過 Google 的 AutoML Vision ,試試是否能更有效地完成這項工作。

AutoML Vision 通過創建自定義的 ML 模型來識別野生動物,或者商品類型,所以理論上,它可以被用來對拉麵進行分類。而且它操作簡單,只要你上傳標記良好的圖片,點擊確認即可。

在 Kenji 的案例中,他按照拉麵次郎在東京的分店地址編製了一套 48,000 張碗的照片以及每家商店的標籤,並將其上傳到 AutoML Vision。這個模型大約跑了了 24 個小時來進行識別,並取得了令人振奮的結果:Kenji 的模型通過照片預測商店位置的準確率達到了 94.5%。

AutoML 如何檢測拉麵的差異,絕對不是口味,畢竟 GPU 沒有舌頭。

Kenji 的第一個假設是該模型通過碗和桌子的顏色或形狀來識別,但是每家分店的設計都十分相似。對此,Kenji 的第二個嘗試是,通過食材的數量和擺盤、肉的厚度與腌制色澤,這些差異是常人無法感知,肉眼也很難判定的。但是通過機器學習的方式,就變得簡單可量化起來。

AutoML Vision 操作簡單,簡單到沒有太多編程基礎都可以使用,這也為非電腦專業的專家們的研究提供了便利,一起期待更多有趣的嘗試。

AI 在日本不正經的玩法太多了

其實相比於拉麵,日本有更多有趣的人工智慧技術,都應用在二次元文化上。

一鍵加貓耳

在這個小工具中,用戶只需要拖拽圖片到網頁里,演算法就會根據角色頭部的傾斜角度、整體畫風自動加上一個合適的獸耳。

耳朵的顏色還可以根據角色的發色變化,除了貓耳,還可以換成兔耳、犬耳、狐耳……

深度學習當然用到了影像識別這個步驟李,該項目中使用了二次元臉部識別庫 AnimeFace 提供的部分參數。為了提高臉部識別的準確度,AnimeFace 積累了7 萬張臉部圖片和3 億張非臉部圖片訓練數據,最終達到了能精確識別臉、皮膚、頭髮、瞳色的效果。

老婆照片放再大也不失真

這個工具 「Waifu2x」 以風趣直接的名字和實用性,在二次元工程師中小有名氣。在日語發音里「Wife」讀作「waifu」,2x 就是乘以兩倍。

Waifu2x 是一個圖片放大工具,僅針對於動漫風格的圖片,能把模糊的小影像無損放大兩倍,並降低噪點、柔和曲線。我們從名字中就可以感受到作者對於二次元美少女們的愛意。

Waifu2x 的演算法基於卷積神經網路技術,作者學習了幾萬張動漫美少女圖片,和幾萬張與原圖對應、寬高縮小一倍的縮略圖,讓它學習從縮略圖出發,如何放大以盡量還原原圖。

這麼有行動力和想像力,或許有那麼一天,二次元真的可以拯救世界。