唯有极一丝的标注样本九游会J9,就能让模子精确分割 3D 场景?
来自哥本哈根大学、苏黎世联邦理工学院等机构的酌量东说念主员,提议了一个全新的多模态 Few-shot 3D 分割设定和革命法子。
无需非常标注本钱,该法子就不错交融文本、2D 和 3D 信息,让模子飞速掌持新类别。
△3D Few-shot 分割放手示例
东说念主形机器东说念主、VR/AR,以及自动驾驶汽车,都依赖于对 3D 场景的精确通晓。
关联词,这种精确的 3D 通晓频频需要浩繁详备标注的 3D 数据,极大推高了时分本钱和资源破钞。
Few-shot 学习是一种灵验的贬责念念路,但现时酌量都局限于单模态点云数据,忽略了多模态信息的潜在价值。
对此,这项新酌量填补了这一空缺,著作已被 ICLR 2025 继承为 Spotlight 论文。
整合多模态信息,通晓 3D 场景
3D 场景通晓在具身智能、VR/AR 等限制至关遑急,匡助开采准确感知息争读三维寰球。
关联词,传统全监督模子虽在特定类别上弘扬出色,但其才智局限于预界说类别。
每当需要识别新类别时,必须再行网罗并标注浩繁 3D 数据以及再行磨真金不怕火模子,这仍是过既耗时又兴隆,极地面制约了模子的应用广度。
3D Few-shot 学习旨在期骗极一丝的示例样本以顺应模子来灵验的识别率性的全新类别,大大裁减了新类顺应的支出,使得传统的 3D 场景通晓模子不再局限于磨真金不怕火聚会有限的类别标签,对平淡的应用场景有遑急的价值。
具体而言,对于 Few-shot 3D 点云语义分割(FS-PCS)任务,模子的输入包括一丝撑持样本(包含点云及对应新类标签)和查询点云。
模子需要通逾期骗撑持样本获取对于新类别的学问并应用于分割查询点云,掂量出查询点云中对于新类别的标签。
在模子磨真金不怕火和测试时使用的主义类别无重合,以保证测试时使用的类均为新类,未被模子在磨真金不怕火时见过。
现在,该限制线路出的使命都只期骗点云单模态的输入,忽略了期骗多模态信息的潜在的益处。
对此,这篇著作提议一个全新的多模态 Few-shot 3D 分割设定,期骗了文本和 2D 模态且莫得引入非常的标注支出。
在这一设定下,他们推出了革命模子——MultiModal Few-Shot SegNet ( MM-FSS ) 。
该模子通过充分整合多模态信息,灵验种植小样本上新类别的学习与泛化才智,讲明了期骗浩繁被忽略的多模态信息对于罢了更好的小样本新类泛化的遑急性。
多模态 FS-PCS vs 传统设定
△传统和多模态 FS-PCS 设定对比
(为便于酌量,以下都将 Few-shot 3D 点云语义分割简称为 FS-PCS。)
传统的 FS-PCS 任务中,模子的输入包含一丝的撑持点云以及对应的新类别的标注(support point cloud & support mask)。
此外,输入还包括查询点云(query point cloud)。模子需借助 support 样本中对于新类别的学问,在 query 点云中完成新类别分割。
而作家引入的多模态 FS-PCS 包括了除 3D 点云除外的两个非常模态——文本和 2D。
文本模态相应于撑持样本中的主义类别 / 新类的称呼。2D 模态相应于 2D 图片,频频奉陪 3D 场景会聚同步获取。
值得概述的是,2D 模态仅用于模子预磨真金不怕火,不条件在 meta-learning 和测试时当作输入,保证了其 Few-shot 输入体式与传统 FS-PCS 对王人,仅需要换取的数据且无需非常标注。
引入特征分支和灵验的跨模态交融
MM-FSS 在 Backbone 后引入了两个特征索取分支:
Intermodal Feature ( IF ) Head(跨模态特征头),学习与 2D 视觉特征对王人的 3D 点云特征。
Unimodal Feature ( UF ) Head(单模态特征头),索取 3D 点云自身的特征。
△MM-FSS 模子架构
在预磨真金不怕火阶段,MM-FSS 先进行跨模态对王人预磨真金不怕火,通逾期骗 3D 点云和 2D 图片数据对,使用 2D 视觉 - 谈话模子(VLM)输出的 2D 特征监督 IF head 输出的 3D 特征,使得 IF Head 学习到与 2D 视觉 - 谈话模子对王人的 3D 特征。
这一阶段完成后,Backbone 和 IF Head 保持冻结,确保模子在 Few-shot 学习时能期骗其预磨真金不怕火学到的 Intermodal 特征。这么,在 Few-shot 任务中无需非常的 2D 输入,仅依赖 Intermodal 特征即可获益于多模态信息。
此外,该特征也隐式对王人了 VLM 的文本特征,为后续阶段期骗遑急的文本引诱奠定基础。
而在 Few-shot 磨真金不怕火(称为 meta-learning)时,给定输入的 support 和 query 点云,MM-FSS 分辨将 IF Head 和 UF Head 输出的两套特征计较出对应的两套 correlations(correlations 示意每个 query 点和主义类别 prototypes 之间的特征雷同度)。
两套 correlations 通晓过 Multimodal Correlation Fusion ( MCF ) 进行交融,生成开动多模态 correlations,包含了 2D 和 3D 的视觉信息。
这个经过不错示意为:
其中 Ci 和 Cu 分辨示意用 IF Head 和 UF Head 特征算得的 correlations。C0 为 MCF 输出的开动多模态 correlations。
现时获取的多模态 correlations 交融了不同的视觉信息源,但文本模态中的语义信息尚未被期骗,因此诡计了 Multimodal Semantic Fusion ( MSF ) 模块,进一步期骗文本模态特征当作语义引诱,种植多模态 correlations:
其中 Gq 为文本模态的语义引诱,Wq 为文本和视觉模态间的权重(会动态变化以研讨不同模态间变化的相对遑急性),Ck 为多模态 correlations。
到测试阶段,为缓解 Few-shot 模子对于磨真金不怕火类别的 training bias(易被测试场景中存在的磨真金不怕火类别骚动,影响新类分割),MM-FSS 在测试时引入 Test-time Adaptive Cross-modal Calibration ( TACC ) 。
TAAC 期骗跨模态的语义引诱(由 IF Head 生成)顺应性地修正掂量放手,罢了更好的泛化。
跨模态的语义引诱未经 meta-learning 磨真金不怕火,有更少的 training bias。
为了灵验的践诺测试时修正,作家提议基于撑持样本过甚标签估算可靠性主义,用于自动移动修正进程(当该语义引诱可靠性更高时,分派更大的修正权重,不然分派更小的权重):
其中 Pq 为模子的掂量,Gq 为跨模态语义引诱,γ 为顺应性主义。
通过借助撑持点云以及可用的撑持点云标签不错如下计较 γ 当作修正可靠成都的臆度:
罢了 few-shot 任务最好性能
实验在两个步调的 FS-PCS 数据集上进行,讲明了 MM-FSS 在各种 few-shot 任务中都罢了了最好性能。
可视化也澄莹标明了模子或者罢了更优的新类分割,展示了更强的新类泛化才智。更多详备实验和分析践诺请参见论文。
总之,这项使命初次提议了全新的多模态 FS-PCS 设定,无非常支出地交融文本和 2D 模态。在该设定下,作家提议首个多模态 FS-PCS 模子 MM-FSS。
MM-FSS 包含了 MCF 和 MSF 来灵验的从视觉脚迹和语义信息双重角度高效团员多模态学问,增强对新类看法的全面通晓。
同期,MM-FSS 也揭示了过往被浩繁忽略的"免费"多模态信息对于小样本顺应的遑急性,为将来的酌量提供了珍惜的新视线且绽开了更多趣味的潜在地点。
可参考的地点包括性能的种植、磨真金不怕火和推理后果的优化,更深远的模态信息期骗等。
作家简介
该著作的第一作家安照崇,现在在哥本哈根大学攻读博士学位,导师为 Serge Belongie。
他硕士毕业于苏黎世联邦理工学院(ETH Zurich),在硕士期间侍从导师 Luc Van Gool 进行了多个酌量技俩。
他的主要酌量地点包括 3D/ 视频通晓、小样本学习以及多模态学习。
著作的通信作家是苏黎世联邦理工的孙国磊博士和南开大学的刘云讲授。
迎接柔软论文和代码,了解更多细节!
论文:
https://arxiv.org/abs/2410.22489
代码:
https://github.com/ZhaochongAn/Multimodality-3D-Few-Shot
— 完 —
学术投稿请于使命日发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿践诺
附上论文 / 技俩主页纠合,以及操办格局哦
咱们会(尽量)实时回应你
一键柔软 � � 点亮星标
科技前沿进展逐日见
一键三连「点赞」「转发」「谨防心」
迎接在指摘区留住你的想法!九游会J9