车讯网 - 专业汽车新闻资讯门户
当前位置: 车讯网 -> 热点

“跨次元”目标检测模型hold住各种画风,还能识别漫画中物品

时间:2022-01-17 01:10  |  责任编辑:夏冰  |  来源: IT之家  |  关键词:  |  阅读量:19987  |  

,目标检测种类多达 20000+ 种的 AI,你见过吗。不仅准确揪出每个物体所在的位置,分类效果非常准确:

“跨次元”目标检测模型hold住各种画风,还能识别漫画中物品

插画版赛博恐龙也没问题:

甚至还能检测杂志封面甚至漫画中的物体!

一起来看看。

可识别跨次元物体

这篇论文提出了一种新的名为 Detic 的方法,用来解决目标检测无法用到图像级标签的问题。

此前的目标检测方法,通常是一个检测框里一个物体:

也有一些研究想出了一种新方法,搞个弱监督学习,试图让 AI 自己学会将图像级的标签,去对应锚定框里面有什么物体,但实际上这种方法的效果也不太好。

Detic 的方法是采用目标检测数据和图像标签数据对 Detic 进行混合训练。

其中,在用目标检测数据训练 Detic 时,同时对图像分类模块 W 和目标检测模块 B 进行训练,但只用标签数据对图像分类模块 W 进行训练。

训练的数据集采用的是 ImageNet,事实证明模型在训练后无需微调,就能很好地适应到 LVIS 等数据集,相对之前的一些模型都达到了不错的效果:

这立刻吸引了不少网友来玩。

在线 Demo 可玩

有网友用梵高的世界名画试了试。

放大一点来看,艺术加工后的椅子,人和桌子也能被识别:

还有用二次元的龙猫进行识别的,除了龙猫本身被错认成猫头鹰以外,其他的雨伞和靴子都认得不错:

我们也随便用一个钟表柜的照片试了试,在线 Demo 的检测时间稍微有点久,大约需要 6 分钟左右,但效果还不错:

细看的话还是能发现一些瑕疵,例如把部分手表误认成转速计,以及怀表和时钟,以及也有一两块手表没有被检测出来。

不过,即使在二次元和插画中,这个 AI 能识别的物体,至少也需要在真实世界出现过。

例如,超出 20000 个分类的物体,如喷火龙和皮卡丘,就不在 AI 的监测范围内了,全部被认成了猴子:

将这些二次元角色也加入 AI 训练数据集中,不知能否取得同样的检测效果。

这张照片是女朋友拍的

Rohit Girdhar,Armand Joulin 和 Ishan Misra,Meta AI 的研究科学家,主要研究方向是机器学习和计算机视觉,此前 Armand Joulin 曾经在李飞飞的实验室进行博士后工作。

Philipp Krhenbühl,得克萨斯大学奥斯汀分校助理教授,Xingyi Zhou 的导师,研究方向是计算机视觉,机器学习和计算机图形学

感兴趣的小伙伴,赶紧试试你想玩的漫画,或是杂志插画吧~

Demo 地址:点击打开

论文地址:点击打开

参考链接:一,二