新闻资讯

苹果PICO感知编解码器：AI如何将图像压缩到三分之一

📅 2026-05-31 08:00 · 👁 3 次阅读 · 📝 1,601 字 · ⏱ 约 6 分钟读完

从数学优化到感知优化：一场编解码范式的革命

2026年5月底，苹果工程师团队发布了一项可能改变图像压缩行业格局的研究成果——PICO（Perceptual Image Codec）感知图像编解码器。这项工作的核心思想极为简洁却极具颠覆性：不再追求PSNR、SSIM等传统数学指标的高分，转而直接优化人眼的视觉感知体验。这个看似微小的方向转换，却在图像压缩领域引发了一场真正的范式革命。

PICO的论文标题为《What Matters in Practical Learned Image Compression》，通讯作者为苹果研究员Oren Rippel。值得注意的是，Rippel团队的核心成员来自初创公司WaveOne——2017年以神经网络打败主流编解码器一战成名，后来推出视频压缩ELF-VC，最终整个团队被苹果收购。PICO可以看作是他们在苹果的算力和平台资源下，交出的第一份系统性答卷。

三大核心创新：从速度到保真的全面突破

一次性上下文模型解决熵编码慢：传统自回归编码每压缩一个像素都需参考周围已压缩像素，如同厨师每放一块食材都要回头看锅里状态，速度极慢。PICO将熵编码中最关键的"尺度参数"单独拆出，在一次前向传播中全部算完，其余参数则并行计算。实测显示，若去掉该模块，模型性能下降10.28%；加上它，速度几乎不受影响。
TextFidelityLoss解决文字变形：GAN训练会编造不存在的纹理，而人眼对文字极度敏感。PICO引入专门的文字保真损失函数，利用文字检测器自动找出图中文字区域，强制施加严格的像素保真约束。加上该损失后，文字区域的绝对误差降低了整整一半。
TilingArtifactLoss解决分块边界色差：为适应手机芯片，图像被切成504x504像素的瓦片分别处理再拼接，但GAN倾向忽略低频色彩导致色差。PICO引入多分辨率L1损失，强制模型在多个空间频率上保持色彩一致，瓦片边界的误差下降了一半以上。

性能数据：主观质量碾压，端侧实时运行

在主观视觉质量方面，PICO的表现堪称惊艳。苹果委托第三方平台Mabyduck进行大规模人类主观盲测，610位通过色盲和伪影辨别筛选的评测者共进行了74,925次配对比较。结果显示：在相同主观视觉质量下，PICO的文件体积仅为AV1、AV2、VVC、ECM和JPEG AI的1/3至1/2（所需比特数仅为这些标准的30%至43%）。即使对比最强的学习型感知编解码器（HiFiC、MRIC等），PICO也节省了20%至40%的文件大小。

更令人印象深刻的是编解码速度。在iPhone 17 Pro Max上，12MP照片编码仅需230毫秒，解码仅需150毫秒。作为对比，大多数顶级ML编解码器在NVIDIA V100服务器显卡上运行，速度还不如PICO在手机上的表现。这意味着PICO已经具备了端侧实时部署的条件。

有意思的是，在PSNR等传统数学指标上，PICO表现平平。团队对此的解读恰好印证了其核心判断——优化感知质量和优化数学指标本质上是两个方向，鱼与熊掌不可兼得。

局限与意义：AIGC底层的审美智能重构

PICO并非没有局限。对于卡通、示意图等高度规则化的合成图像，其压缩效率不如传统编解码器——因为这类内容天然适合规则驱动的自回归建模，而非感知生成。但这个局限恰恰指向了PICO更深远的意义：它标志着AIGC底层正在被"审美智能"重塑。

当图像压缩不再追求数学最优而追求人眼满意，当编解码器的评判标准从机器指标转向人类感知，我们正在见证一场从"数学世界"到"经验世界"的技术范式转移。PICO在iPhone上的实时运行能力更意味着，这种范式转移不是学术实验，而是即将触达数十亿用户的商业现实。对于流媒体、社交平台、云计算等严重依赖图像压缩的行业来说，PICO带来的潜在带宽成本节省将以百亿美元计。

本站文章来源于网络摘取整理发布，如有侵权请联系 hy@uicn.cn 删除

从数学优化到感知优化：一场编解码范式的革命

三大核心创新：从速度到保真的全面突破

性能数据：主观质量碾压，端侧实时运行

局限与意义：AIGC底层的审美智能重构

相关文章

OpenAI Codex登陆Windows：Computer Use实测与Mac版差距

阿里百炼CLI开源+Qoder Cloud Agents：Agent上线从1个月缩至1天

ClickUp裁员22%百万年薪招AI人才：AI原生组织的残酷法则