人类仍是最好的有损图片压缩器

  • 2019 年 11 月 11 日
  • 筆記

本文是来自Stanford Compression Workshop 2019的演讲,讲者是三位高中生:来自Palo Alto High School的Ashutosh Bhown,来自Monta Vista High School的Soham Mukherjee,来自Saint Francis High School的Sean Yang。

本次演讲主要介绍了一个有趣的实验。给定一张图片,一人使用网络上相似图像的链接和文本说明作为图像描述,另一人根据图像描述使用PS等工具重建图像。将人类的文本描述简单压缩后的文件,作为人类组的压缩结果。对照组由WebP算法生成相似大小的文件。将两组的重建图像在问卷平台上发布打分,人类组的效果胜出。这表明面向人类感知做图像压缩还有很大空间。

Soham首先介绍了图像的色彩空间,压缩的必要性,现代的预测变换量化压缩机制。

之后,Sean介绍了JPEG等传统的失真压缩器,及存在的锯齿效应等缺陷。本次实验旨在设计一种面向人类感知的压缩方法,用英语来描述图像,同时利用网上的图片资源。Sean介绍了人类组的实验方法。

随后,Ashutosh演示了一次人类组的实验过程,介绍了两组的评价方法,即通过Amazon问卷平台,征集群众打分,对两组重建图像给出1-10分的评价。实验结果中,13张图片中人类组10次胜出。相较于日常常见的人脸,人类组在自然或街景图片中评价更高。

实验表明,在极低比特率下,面向人类感知的压缩方法更有优势,有效使用语义及相似的网络图片可以极大提升压缩比。实验的局限在于实验人员的PS技能有限、搜索相似图片较为费时、英语描述不够有效,基于神经网络的模型有可能解决上述问题。