- 发布日期:2026-04-30 07:14 点击次数:50

给天下共享一项在诡计机视觉顶会CVPR 2025上被罗致的重磅参议,来自上海交通大学,上海东说念主工智能施行室等机构,论文名为 《Dataset Distillation with Neural Characteristic Function: A Minmax Perspective》(基于神经特征函数的数据集蒸馏:一个 Minmax 视角)
这项参议不错说是在数据蒸馏限制投下了一颗“深水炸弹”,它提倡了一种全新的圭表NCFM (Neural Characteristic Function Matching,神经特征函数匹配),不仅大幅擢升了数据蒸馏的性能,更在资源效用上杀青了质的飞跃!
比拟于DATM等SOTA圭表,NCFM的GPU显存占用镌汰了300倍以上!锻真金不怕火速率擢升了20倍!更令东说念主惊骇的是,NCFM仅用2.3GB显存,就在单张NVIDIA2080TiGPU上收效完成了CIFAR-100的无损蒸馏!这在之前是难以联想的。
话未几说,我给天下划个要点。
配景:大数据期间的“瘦身术”——数据集蒸馏在东说念主工智能限制,咱们常说“数据为王”。 模子要雄伟,海量数据少不了。 关系词,大数据也带来了新的挑战:
存储压力山大: 动辄TB以致PB级别的数据,存储资本昂贵锻真金不怕火耗时漫长: 在海量数据上锻真金不怕火模子,诡计资源和时辰资本都让东说念主横目而视内存瓶颈突显:大模子 + 大数据,GPU显存分分钟被榨干为了措置这些问题,数据蒸馏 (Dataset Distillation)技能应时而生。 它的标的就像给数据集作念“瘦身”, 用少许合成数据 (Synthetic Data) “浓缩” 原始大数据集 (Real Data) 的精华信息,让模子仅用这些“迷你”数据就能达到以致卓绝在原始数据集上的锻真金不怕火效用。
现存圭表的逆境: “像素级”匹配 vs. “散播级”各别当今,数据集蒸馏圭表主要分为两大类:
特征匹配 (Feature Matching): 这类圭表就像“像素级”比对,成功比较合成数据和信得过数据在特征空间的一样度。 举例,早期的 MSE (均方瑕玷) 圭表便是典型代表,但它常常忽略了数据的高维语义信息,效用有限。散播匹配 (Distribution Matching): 这类圭表更注释“散播级”的一样性,试图让合成数据和信得过数据在散播上尽可能一致。 MMD (最大均值各别) 是常用的度量揣摸打算,但参议标明,MMD只是对皆了数据的低阶矩,并不可保证举座散播的一样性,况兼诡计复杂度较高。粗浅来说,现存圭表要么过于粗浅淡漠,无法捕捉数据的深层散播;要么诡计复杂,效用不高。这就限度了数据集蒸馏技能的进一步发展。
NCFM: Minmax 博弈下的“神经特征函数”为了抑遏现存圭表的瓶颈,NCFM 从全新的 Minmax 博弈视角动身, 引入了 “神经特征函数各别 (Neural Characteristic Function Discrepancy, NCFD)” 这一改换度量揣摸打算。
1. Minmax 博弈: “矛与盾”的抵挡学习
NCFM 将数据集蒸馏问题再行界说为一个 Minmax 优化问题,就像一场“矛与盾”的抵挡游戏:
“矛” (Discrepancy Metric Network, 各别度量网罗 ψ):它的标的是 最大化 (Max)合成数据和信得过数据之间的各别 (Discrepancy), 尽力找到一个最能别离二者散播的“判别器”。 这个“判别器”便是神经特征函数各别 (NCFD)“盾” (Synthetic Data, 合成数据 D):它的标的是 最小化 (Min) 在 “矛” 的度量下,合成数据和信得过数据之间的各别, 尽力生成尽可能“传神”的合成数据, “诳骗” “判别器”通过 “矛与盾” 的不断抵挡和迭代优化,NCFM 未必 自适合地学习到一个更鲁棒、更灵验的各别度量揣摸打算 (NCFD), 并生成更高质料的合成数据。 这种 Minmax 框架与 GANs 的抵挡生成想想有不谋而合之妙,但标的和杀青形势却天渊之别。
2. NCFD: 基于“特征函数”的全面散播形容
NCFD 的中枢改换在于 “神经特征函数各别” 这一度量揣摸打算。 它奥妙地愚弄了特征函数 (Characteristic Function, CF)的雄伟才略来形容数据散播
什么是特征函数 (CF)?粗浅来说, 特征函数便是概率密度函数的傅里叶变换。它具有以下要津上风:
唯独性:一个散播对应唯独的特征函数,反之也是。这意味着特征函数未必完好意思、无损地编码散播的沿途信息全面性: 特征函数包含了散播的总共矩信息,比 MMD 仅对皆低阶矩更全面NCFD 奈何“神经”?NCFM 并莫得成功使用传统的特征函数,而是引入了一个轻量级的神经网罗 ψ 来学习特征函数的频率参数 t 的采样计策。这么作念的克己是:
自适合性: 神经网罗 ψ 不错阐明数据散播的特色, 动态逶迤频率参数的采样计策, 最大化各别度量 (NCFD)高效性:比拟于 MMD 的二次复杂度, NCFD 的诡计复杂度是线性的,更高效3. 相位 (Phase) 与幅度 (Amplitude) 的精妙均衡
NCFM 在 NCFD 的诡计中, 至极慈祥了神经网罗特征在复数域的 “相位 (Phase)” 和 “幅度 (Amplitude)” 信息
相位信息:编码了数据的 “中心” 和 “格局”, 关于保证合成数据的 “信得过性 (Realism)”至关垂危幅度信息:反馈了数据的“圭臬” 和 “边界”, 有助于擢升合成数据的“各样性 (Diversity)”。NCFM 通过精妙地均衡相位和幅度信息, 使得合成数据既能保合手信得过感,又能兼顾各样性, 从而显赫擢升了蒸馏性能
施行末端: 性能与效用的双重 “王炸”施行末端充分评释注解了 NCFM 的超卓性能和效用:
性能大幅卓绝 SOTA: 在 CIFAR-10, CIFAR-100, Tiny ImageNet 以及高分辨率的 ImageNet 子集上,NCFM 都显赫卓绝了现存泉源进 (SOTA) 的数据集蒸馏圭表。 在 ImageSquawk 高分辨率数据集上,NCFM 以致赢得了惊东说念主的 20.5% 的精度擢升!资源效用惊东说念主:比拟于 DATM 等 SOTA 圭表,NCFM 的 GPU 显存占用镌汰了 300 倍以上! 锻真金不怕火速率擢升了 20 倍!更令东说念主惊骇的是,NCFM 仅用 2.3GB 显存,就在单张 NVIDIA 2080 Ti GPU 上收效完成了 CIFAR-100 的无损蒸馏! 这在之前是难以联想的本文起首:AI寒武纪开云kaiyun体育,原文标题:《上交CVPR 满分论文数据蒸馏技能,成功把 GPU 显存 “砍掉” 300 倍》
风险提醒及免责条件 市集有风险,投资需严慎。本文不组成个东说念主投资建议,也未研讨到个别用户稀奇的投资标的、财务情状或需要。用户应试虑本文中的任何主意、不雅点或论断是否适合其特定情状。据此投资,职守郁勃。开云·(Kaiyun) 官方网站 登录入口
热点资讯
- 开云kaiyun省内社保也无需办理滚动统一-开云·(Kaiyun) 官方网站 登录入口
- 开云kaiyun官方网站历程评审小组空洞评定-开云·(Kaiyun) 官方网站 登录入口
- 开云kaiyun累计净值为1.1883元-开云·(Kaiyun) 官方网站 登录入口
- 开云kaiyun.com累计净值为1.0807元-开云·(Kaiyun) 官方网站 登录入口
- 开云kaiyun体育预设多种可能的负面舆情场景-开云·(Kaiyun) 官方网站 登录入口
- 开云kaiyun一些东谈主由于从小躯壳软弱-开云·(Kaiyun) 官方网站 登录入口
- 开云kaiyun关于国外的亏损者来说-开云·(Kaiyun) 官方网站 登录入口
- 开云kaiyun体育成交额341.41万元-开云·(Kaiyun) 官方网站 登录入口
- 开云kaiyun近3个月高潮19.52%-开云·(Kaiyun) 官方网站 登录入口
- 开云kaiyun.com占公司总股本的42.84%-开云·(Kaiyun) 官方网站 登录入口
