脑洞清奇的日本人,连搞 AI 都不正经

  • 2019 年 12 月 1 日
  • 筆記

纳尼!机器学习还能这样用?

不得不承认,日本人的脑洞发达程度应该是世界第一,几乎整个主流社会都沉浸在各种二次元、恶搞整蛊、宅基腐的奇特氛围里。

而「机器学习」这样钢铁直男般的技术,无论在发展领先的美国还是中国,都普遍首先应用在安防、金融、自动驾驶、物流这些重型领域中,是不是听起来就很霸气。

如此钢铁直男的机器学习到了日本,画风突变。

来自东京的数据科学家 Kenji Doi 使用机器学习模型和 Google 的 AutoML Vision 来对拉面进行分类。

你没听错,真的是拉面。

这项目的目的也很神奇,Kenji Doi 想要通过机器学习,确定这碗面来自日本拉面名店 Ramen Jiro 众多分店中的哪一家。截至目前为止,据说这个模型的准确度已经达到 95 %。

通过这张动图,了解一下这个模型的数据集:

Ramen Jiro 是日本最受欢迎的餐厅之一,光在东京就有 41 家分店。每家店都共用一份菜单,连盛面用的碗几乎都是一模一样。再加上日本人对于工作的细致精准和匠人精神,相信每个分店的制作工艺和水准都有着一套严格要求。

所以想通过一碗面的图片,就来分辨这属于哪家分店,真的很难。即便是常客身之厨师本人也很难做到。

但 Kenji 酱认为,深度学习能通过识别一些最微小的差别来解决这个问题。

RML(Ramen Machine Learning)

为此,他开始逐店深入品尝。(误)

他建立了一个机器学习模型来对拉面进行分类,而且是想通过 Google 的 AutoML Vision ,试试是否能更有效地完成这项工作。

AutoML Vision 通过创建自定义的 ML 模型来识别野生动物,或者商品类型,所以理论上,它可以被用来对拉面进行分类。而且它操作简单,只要你上传标记良好的图片,点击确认即可。

在 Kenji 的案例中,他按照拉面次郎在东京的分店地址编制了一套 48,000 张碗的照片以及每家商店的标签,并将其上传到 AutoML Vision。这个模型大约跑了了 24 个小时来进行识别,并取得了令人振奋的结果:Kenji 的模型通过照片预测商店位置的准确率达到了 94.5%。

AutoML 如何检测拉面的差异,绝对不是口味,毕竟 GPU 没有舌头。

Kenji 的第一个假设是该模型通过碗和桌子的颜色或形状来识别,但是每家分店的设计都十分相似。对此,Kenji 的第二个尝试是,通过食材的数量和摆盘、肉的厚度与腌制色泽,这些差异是常人无法感知,肉眼也很难判定的。但是通过机器学习的方式,就变得简单可量化起来。

AutoML Vision 操作简单,简单到没有太多编程基础都可以使用,这也为非计算机专业的专家们的研究提供了便利,一起期待更多有趣的尝试。

AI 在日本不正经的玩法太多了

其实相比于拉面,日本有更多有趣的人工智能技术,都应用在二次元文化上。

一键加猫耳

在这个小工具中,用户只需要拖拽图片到网页里,算法就会根据角色头部的倾斜角度、整体画风自动加上一个合适的兽耳。

耳朵的颜色还可以根据角色的发色变化,除了猫耳,还可以换成兔耳、犬耳、狐耳……

深度学习当然用到了图像识别这个步骤李,该项目中使用了二次元脸部识别库 AnimeFace 提供的部分参数。为了提高脸部识别的准确度,AnimeFace 积累了7 万张脸部图片和3 亿张非脸部图片训练数据,最终达到了能精确识别脸、皮肤、头发、瞳色的效果。

老婆照片放再大也不失真

这个工具 「Waifu2x」 以风趣直接的名字和实用性,在二次元工程师中小有名气。在日语发音里「Wife」读作「waifu」,2x 就是乘以两倍。

Waifu2x 是一个图片放大工具,仅针对于动漫风格的图片,能把模糊的小图像无损放大两倍,并降低噪点、柔和曲线。我们从名字中就可以感受到作者对于二次元美少女们的爱意。

Waifu2x 的算法基于卷积神经网络技术,作者学习了几万张动漫美少女图片,和几万张与原图对应、宽高缩小一倍的缩略图,让它学习从缩略图出发,如何放大以尽量还原原图。

这么有行动力和想象力,或许有那么一天,二次元真的可以拯救世界。