你的位置：九游娱乐(中国)网址在线 > 新闻中心 > 九游会J9传统全监督模子虽在特定类别上弘扬出色-九游娱乐(中国)网址在线

九游会J9传统全监督模子虽在特定类别上弘扬出色-九游娱乐(中国)网址在线

时间：2025-08-14 12:03 点击：162 次

唯有极一丝的标注样本九游会J9，就能让模子精确分割 3D 场景？

来自哥本哈根大学、苏黎世联邦理工学院等机构的酌量东说念主员，提议了一个全新的多模态 Few-shot 3D 分割设定和革命法子。

无需非常标注本钱，该法子就不错交融文本、2D 和 3D 信息，让模子飞速掌持新类别。

△3D Few-shot 分割放手示例

东说念主形机器东说念主、VR/AR，以及自动驾驶汽车，都依赖于对 3D 场景的精确通晓。

关联词，这种精确的 3D 通晓频频需要浩繁详备标注的 3D 数据，极大推高了时分本钱和资源破钞。

Few-shot 学习是一种灵验的贬责念念路，但现时酌量都局限于单模态点云数据，忽略了多模态信息的潜在价值。

对此，这项新酌量填补了这一空缺，著作已被 ICLR 2025 继承为 Spotlight 论文。

整合多模态信息，通晓 3D 场景

3D 场景通晓在具身智能、VR/AR 等限制至关遑急，匡助开采准确感知息争读三维寰球。

关联词，传统全监督模子虽在特定类别上弘扬出色，但其才智局限于预界说类别。

每当需要识别新类别时，必须再行网罗并标注浩繁 3D 数据以及再行磨真金不怕火模子，这仍是过既耗时又兴隆，极地面制约了模子的应用广度。

3D Few-shot 学习旨在期骗极一丝的示例样本以顺应模子来灵验的识别率性的全新类别，大大裁减了新类顺应的支出，使得传统的 3D 场景通晓模子不再局限于磨真金不怕火聚会有限的类别标签，对平淡的应用场景有遑急的价值。

具体而言，对于 Few-shot 3D 点云语义分割（FS-PCS）任务，模子的输入包括一丝撑持样本（包含点云及对应新类标签）和查询点云。

模子需要通逾期骗撑持样本获取对于新类别的学问并应用于分割查询点云，掂量出查询点云中对于新类别的标签。

在模子磨真金不怕火和测试时使用的主义类别无重合，以保证测试时使用的类均为新类，未被模子在磨真金不怕火时见过。

现在，该限制线路出的使命都只期骗点云单模态的输入，忽略了期骗多模态信息的潜在的益处。

对此，这篇著作提议一个全新的多模态 Few-shot 3D 分割设定，期骗了文本和 2D 模态且莫得引入非常的标注支出。

在这一设定下，他们推出了革命模子——MultiModal Few-Shot SegNet ( MM-FSS ) 。

该模子通过充分整合多模态信息，灵验种植小样本上新类别的学习与泛化才智，讲明了期骗浩繁被忽略的多模态信息对于罢了更好的小样本新类泛化的遑急性。

多模态 FS-PCS vs 传统设定

△传统和多模态 FS-PCS 设定对比

（为便于酌量，以下都将 Few-shot 3D 点云语义分割简称为 FS-PCS。）

传统的 FS-PCS 任务中，模子的输入包含一丝的撑持点云以及对应的新类别的标注（support point cloud & support mask）。

此外，输入还包括查询点云（query point cloud）。模子需借助 support 样本中对于新类别的学问，在 query 点云中完成新类别分割。

而作家引入的多模态 FS-PCS 包括了除 3D 点云除外的两个非常模态——文本和 2D。

文本模态相应于撑持样本中的主义类别 / 新类的称呼。2D 模态相应于 2D 图片，频频奉陪 3D 场景会聚同步获取。

值得概述的是，2D 模态仅用于模子预磨真金不怕火，不条件在 meta-learning 和测试时当作输入，保证了其 Few-shot 输入体式与传统 FS-PCS 对王人，仅需要换取的数据且无需非常标注。

引入特征分支和灵验的跨模态交融

MM-FSS 在 Backbone 后引入了两个特征索取分支：

Intermodal Feature ( IF ) Head（跨模态特征头），学习与 2D 视觉特征对王人的 3D 点云特征。

Unimodal Feature ( UF ) Head（单模态特征头），索取 3D 点云自身的特征。

△MM-FSS 模子架构

在预磨真金不怕火阶段，MM-FSS 先进行跨模态对王人预磨真金不怕火，通逾期骗 3D 点云和 2D 图片数据对，使用 2D 视觉 - 谈话模子（VLM）输出的 2D 特征监督 IF head 输出的 3D 特征，使得 IF Head 学习到与 2D 视觉 - 谈话模子对王人的 3D 特征。

这一阶段完成后，Backbone 和 IF Head 保持冻结，确保模子在 Few-shot 学习时能期骗其预磨真金不怕火学到的 Intermodal 特征。这么，在 Few-shot 任务中无需非常的 2D 输入，仅依赖 Intermodal 特征即可获益于多模态信息。

此外，该特征也隐式对王人了 VLM 的文本特征，为后续阶段期骗遑急的文本引诱奠定基础。

而在 Few-shot 磨真金不怕火（称为 meta-learning）时，给定输入的 support 和 query 点云，MM-FSS 分辨将 IF Head 和 UF Head 输出的两套特征计较出对应的两套 correlations（correlations 示意每个 query 点和主义类别 prototypes 之间的特征雷同度）。

两套 correlations 通晓过 Multimodal Correlation Fusion ( MCF ) 进行交融，生成开动多模态 correlations，包含了 2D 和 3D 的视觉信息。

这个经过不错示意为：