您当前的位置:首页> 滚动 >正文
2023中关村论坛丨智源推出通用视觉分割模型SegGPT 具有上下文推理能力|动态

2023-05-29 12:52:52     来源 : 北京商报


(相关资料图)

北京商报讯(记者 杨月涵)ChatGPT引发了语言大模型狂潮,AI另一个重大领域——视觉的GPT时刻何时到来?5月28日,北京智源人工智能研究院在2023中关村论坛平行论坛之一的人工智能大模型发展论坛上推出通用分割模型SegGPT,这也是首个利用视觉提示(prompt)完成任意分割任务的通用视觉模型。

据了解,SegGPT是智源通用视觉模型Painter的衍生模型,针对分割一切物体的目标做出优化。SegGPT训练完成后无需微调,只需提供示例即可自动推理并完成对应分割任务,包括图像和视频中的实例、类别、零部件、轮廓、文本、人脸等等。

该模型具有通用能力,SegGPT具有上下文推理能力,模型能够根据提供的分割示例(prompt),对预测进行自适应的调整,实现对“everything”的分割,包括实例、类别、零部件、轮廓、文本、人脸、医学图像等。

模型同时具有灵活推理能力,支持任意数量的prompt;支持针对特定场景的tuned prompt;可以用不同颜色的mask表示不同目标,实现并行分割推理。

此外,模型还具有自动视频分割和追踪能力,以第一帧图像和对应的物体掩码作为上下文示例,SegGPT能够自动对后续视频帧进行分割,并且可以用掩码的颜色作为物体的ID,实现自动追踪。

据悉,SegGPT与Meta AI图像分割基础模型SAM同时发布,两者的差异在于,SegGPT “一通百通”,给出一个或几个示例图像和意图掩码,模型就能get用户意图,“有样学样”地完成类似分割任务。用户在画面上标注识别一类物体,即可批量化识别分割同类物体,无论是在当前画面还是其他画面或视频环境中。SAM“一触即通”,通过一个点或边界框,在待预测图片上给出交互提示,识别分割画面上的指定物体。

无论是“一触即通”还是“一通百通”,都意味着视觉模型已经“理解”了图像结构。SAM 精细标注能力与 SegGPT的通用分割标注能力相结合,能把任意图像从像素阵列解析为视觉结构单元,像生物视觉那样理解任意场景,通用视觉GPT曙光乍现。

标签:

X 关闭

行业要闻
土巴兔公司持续盈利能力存疑 毛利率超90%比肩茅台净利率仅10%

土巴兔公司持续盈利能力存疑 毛利率超90%比肩茅台净利率仅10%

6月底前河南省实现“场所码”全覆盖 升级后的“场所码”有啥功能

6月底前河南省实现“场所码”全覆盖 升级后的“场所码”有啥功能

公安部推行新车上牌新规 便利群众快捷上牌

公安部推行新车上牌新规 便利群众快捷上牌

北京市经信局公布今年第三批北京市“专精特新”中小企业名单

北京市经信局公布今年第三批北京市“专精特新”中小企业名单

“520”迎婚姻登记高峰!深圳市民政局:高峰日扎堆登记可能影响体验感

“520”迎婚姻登记高峰!深圳市民政局:高峰日扎堆登记可能影响体验感

北京市东城区41条措施落地 2790家中小微企业享受政策支持

北京市东城区41条措施落地 2790家中小微企业享受政策支持

地球上最幸福的人!56岁非洲建筑师获普利兹克建筑奖

地球上最幸福的人!56岁非洲建筑师获普利兹克建筑奖

新疆阿克苏地区库车市发生4.1级地震 震源深度21千米

新疆阿克苏地区库车市发生4.1级地震 震源深度21千米

从东北到西北 他在“军垦第一城”规划着城建未来

从东北到西北 他在“军垦第一城”规划着城建未来

西藏米林“家庭农场”:引领种植产业 助力乡村振兴

西藏米林“家庭农场”:引领种植产业 助力乡村振兴