新闻资讯

苹果PICO感知编解码器:AI如何将图像压缩到三分之一

从数学优化到感知优化:一场编解码范式的革命

2026年5月底,苹果工程师团队发布了一项可能改变图像压缩行业格局的研究成果——PICO(Perceptual Image Codec)感知图像编解码器。这项工作的核心思想极为简洁却极具颠覆性:不再追求PSNR、SSIM等传统数学指标的高分,转而直接优化人眼的视觉感知体验。这个看似微小的方向转换,却在图像压缩领域引发了一场真正的范式革命。

PICO的论文标题为《What Matters in Practical Learned Image Compression》,通讯作者为苹果研究员Oren Rippel。值得注意的是,Rippel团队的核心成员来自初创公司WaveOne——2017年以神经网络打败主流编解码器一战成名,后来推出视频压缩ELF-VC,最终整个团队被苹果收购。PICO可以看作是他们在苹果的算力和平台资源下,交出的第一份系统性答卷。

三大核心创新:从速度到保真的全面突破

  • 一次性上下文模型解决熵编码慢:传统自回归编码每压缩一个像素都需参考周围已压缩像素,如同厨师每放一块食材都要回头看锅里状态,速度极慢。PICO将熵编码中最关键的"尺度参数"单独拆出,在一次前向传播中全部算完,其余参数则并行计算。实测显示,若去掉该模块,模型性能下降10.28%;加上它,速度几乎不受影响。
  • TextFidelityLoss解决文字变形:GAN训练会编造不存在的纹理,而人眼对文字极度敏感。PICO引入专门的文字保真损失函数,利用文字检测器自动找出图中文字区域,强制施加严格的像素保真约束。加上该损失后,文字区域的绝对误差降低了整整一半。
  • TilingArtifactLoss解决分块边界色差:为适应手机芯片,图像被切成504x504像素的瓦片分别处理再拼接,但GAN倾向忽略低频色彩导致色差。PICO引入多分辨率L1损失,强制模型在多个空间频率上保持色彩一致,瓦片边界的误差下降了一半以上。

性能数据:主观质量碾压,端侧实时运行

在主观视觉质量方面,PICO的表现堪称惊艳。苹果委托第三方平台Mabyduck进行大规模人类主观盲测,610位通过色盲和伪影辨别筛选的评测者共进行了74,925次配对比较。结果显示:在相同主观视觉质量下,PICO的文件体积仅为AV1、AV2、VVC、ECM和JPEG AI的1/3至1/2(所需比特数仅为这些标准的30%至43%)。即使对比最强的学习型感知编解码器(HiFiC、MRIC等),PICO也节省了20%至40%的文件大小。

更令人印象深刻的是编解码速度。在iPhone 17 Pro Max上,12MP照片编码仅需230毫秒,解码仅需150毫秒。作为对比,大多数顶级ML编解码器在NVIDIA V100服务器显卡上运行,速度还不如PICO在手机上的表现。这意味着PICO已经具备了端侧实时部署的条件。

有意思的是,在PSNR等传统数学指标上,PICO表现平平。团队对此的解读恰好印证了其核心判断——优化感知质量和优化数学指标本质上是两个方向,鱼与熊掌不可兼得。

局限与意义:AIGC底层的审美智能重构

PICO并非没有局限。对于卡通、示意图等高度规则化的合成图像,其压缩效率不如传统编解码器——因为这类内容天然适合规则驱动的自回归建模,而非感知生成。但这个局限恰恰指向了PICO更深远的意义:它标志着AIGC底层正在被"审美智能"重塑。

当图像压缩不再追求数学最优而追求人眼满意,当编解码器的评判标准从机器指标转向人类感知,我们正在见证一场从"数学世界"到"经验世界"的技术范式转移。PICO在iPhone上的实时运行能力更意味着,这种范式转移不是学术实验,而是即将触达数十亿用户的商业现实。对于流媒体、社交平台、云计算等严重依赖图像压缩的行业来说,PICO带来的潜在带宽成本节省将以百亿美元计。