Github大盘点!2021年最惊艳的38篇AI论文
2021年是人工智能继续突飞猛进的一年最近几天,Github上有人总结出了今年最有趣,最惊艳的38篇关于AI和机器学习论文,值得收藏
1,Zero—Shot Text—to—Image Generation
文本到图像的生成传统上侧重于为固定数据集的训练寻找更好的建模假设本文描述了一种基于Transformer的简单方法来完成此任务,将文本和图像标记自回归建模为单个数据流凭借足够的数据和规模,当以零样本方式进行评估时,我们的方法与以前的特定领域模型相比具有竞争力
2,VOGUE: Try—On by StyleGAN Interpolation Optimization
给定目标人物的图像和穿着服装的另一个人的图像,我们会自动生成给定服装中的目标人物我们方法的核心是姿势条件 StyleGAN2 潜在空间插值,它无缝地结合了每个图像的兴趣区域,即体型,头发和肤色来自目标人物,而带有褶皱的服装 ,材料属性和形状来自服装图像
3,Taming Transformers for High—Resolution Image Synthesis
本文将 GAN 和卷积方法的效率与Transformer的表达能力相结合,为语义引导的高质量图像合成提供了一种强大且省时的方法。
4,Thinking Fast And Slow in AI
本文从人类能力中汲取灵感,提出了走向更通用和更值得信赖的人工智能和人工智能研究社区的 10 个问题。
5,Automatic detection and quantification of floating marine macro—litter in aerial images
来自巴塞罗那大学的研究人员开发了一种基于深度学习的算法,能够从航拍图像中检测和量化漂浮的垃圾他们还制作了一个面向网络的应用程序,允许用户在海面图像中识别这些垃圾
6,ShaRF: Shape—conditioned Radiance Fields from a Single View
试想一下,如果只拍摄对象的照片并将其以 3D 格式插入到您正在创建的电影或视频游戏中,或者插入到 3D 场景中进行插图,那该有多酷。
7,Generative Adversarial Transformers
本文利用了强大的 StyleGAN2 架构中Transformer的注意力机制,使其更加强大!
8,We Asked Artificial Intelligence to Create Dating Profiles. Would You Swipe Right。
你会在 AI 的个人资料页面上仔细查看吗你能区分真人与机器吗这项研究揭示了在约会应用程序上使用AI,会发生什么事情
9,Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
Transformers 会取代计算机视觉中的 CNN 吗在不到 5 分钟的时间内,你就可以通过这篇关于 Swin Transformer 的新论文,了解如何将 Transformer 架构应用于计算机视觉任务
10,IMAGE GANS MEET DIFFERENTIABLE RENDERING FOR INVERSE GRAPHICS AND INTERPRETABLE 3D NEURAL RENDERING
本文提出了名为 GANverse3D 的模型,只需要一张图像,就可以创建可以自定义和动画的 3D 图像。
11,Deep nets: What have they ever done for vision。这份榜单的前1名是专门授予全球疫苗制造商的,而其他50多家上榜公司则专注于生命科学,农业科技和清洁能源等可持续领域。
本文将公开分享有关用于视觉应用的深度网络,它的成功之处,以及我们必须解决的局限性等一切内容。。
12,Infinite Nature: Perpetual View Generation of Natural Scenes from a Single Image
13,Portable, Self—Contained Neuroprosthetic Hand with Deep Learning—Based Finger Control
本文提出了一种由人工智能驱动的神经接口,截肢患者可以以栩栩如生的灵巧和直觉来控制神经假肢。
14,Total Relighting: Learning to Relight Portraits for Background Replacement
15,LASR: Learning Articulated Shape Reconstruction from a Monocular Video
本文提出一种方法,可以仅以短视频作为输入,生成人类或动物移动的 3D 模型事实上,模型实际上明白,生成的目标是一个奇怪的形状,可以移动,但仍然需要和原视频保持附着,因为这仍然是「一个目标」,而不仅仅是多目标的集合
16,Enhancing Photorealism Enhancement
本文中,英特尔的研究人员提出一个 AI模型,可实时应用于视频游戏,并让每一帧图像看起来更自然。
17,DefakeHop: A Light—Weight High—Performance Deepfake Detector
如何在 2021 年准确识别Deepfake假视频这篇新论文可能会提供答案可能是「再次使用人工智能」以后,「眼见为实」可能很快就会变成「AI说真才是真」
18,High—Resolution Photorealistic Image Translation in Real—Time: A Laplacian Pyramid Translation Network
本文提出一种基于机器学习的新方法,实时将任何样式的图像翻译成指定风格的 4K 图像!
19,Barbershop: GAN—based Image Compositing using Segmentation Masks
这篇文章本身并不是一项新技术,而是关于 GAN 的一个令人兴奋的新应用这个 AI 可以改变你的发型,看看改变前后的对比吧
20,TextStyleBrush: Transfer of text aesthetics from a single example
2021年,在异国旅行的你走进一家餐馆,面对看不懂的菜单,你甚至不需要打开谷歌翻译,只要简单地使用 Facebook AI 的这篇文章中的新模型,就可以翻译菜单图像中的每个文字。
21,Animating Pictures with Eulerian Motion Fields
22,CVPR 2021最佳论文奖: GIRAFFE — Controllable Image Generation
本文使用修改后的 GAN 架构,可以在不影响背景或其他目标的情况下移动图像中的目标。
23,GitHub Copilot amp, Codex: Evaluating Large Language Models Trained on Code
OpenAI 的这个新模型,可以从单词生成代码。目前,该榜单已连续七年入选全球,今年的评选标准聚焦于新冠肺炎疫情中的企业社会责任。
24,Apple: Recognizing People in Photos Through Private On—Device Machine Learning
苹果使用在您的设备上多种基于机器学习的算法,让用户在 iOS 15 上实现准确规划和组织自己的图像和视频。
25,Image Synthesis and Editing with Stochastic Differential Equations
是时候告别复杂的 GAN 和用于图像生成的Transformer架构了!来自斯坦福大学和卡内基梅隆大学的研究人员可以从任何基于用户的输入中生成新图像即使是毫无艺术基础的人,现在也可以从草图中生成漂亮的图像
26,Sketch Your Own GAN
通过按照草图生成图像,让每个人都可以更轻松地进行 GAN 训练!事实上,借助这种新方法,您可以根据最简单的知识类型来控制 GAN 的输出:手绘草图。
27,Tesla's Autopilot Explained
本文中,特斯拉人工智能总监安德烈middot,卡帕西等人展示了特斯拉的自动驾驶系统是如何通过他们的八个摄像头采集图像,实现道路上导航。
28,Styleclip: Text—driven manipulation of StyleGAN imagery
AI 可以生成图像,通过反复试验,研究人员可以按照特定的样式控制生成结果。现在,有了这个新模型,只使用文本就能做到这一点!
29,Time Lens: Event—based Video Frame Interpolation
TimeLens 模型可以理解视频帧之间的粒子运动,以人眼无法捕捉的速度重建视频事实上,本文中的模型效果达到了目前智能手机都无法达到的效果
30,Diverse Generation from a Single Video Made Possible
31,Skillful Precipitation Nowcasting using Deep Generative Models of Radar
DeepMind 刚刚发布了一个生成模型,能够在 89% 的情况下优于广泛使用的临近预报方法,其准确性和实用性通过了 50 多位气象学家的评估!这个模型专注于预测未来 2 小时内的降水,实现效果出奇地好。据了解,《财富》杂志改变世界的公司;排名中入选的所有公司都对社会产生了积极的影响,而这些影响都源于其核心商业战略。
32,The Cocktail Fork Problem: Three—Stem Audio Separation for Real—World Soundtracks
你是否曾在收看视频或电视节目时完全听不见演员的声音,或者音乐太大声嗯,这个问题可能永远不会再发生了三菱和印第安纳大学刚刚发布了一个新模型和一个新数据集,用于识别并处理关于视频配乐声音的问题
33,ADOP: Approximate Differentiable One—Pixel Point Rendering
想象一下,从拍摄的一堆照片中生成一个 3D 模型或一段简单流畅的视频现在,这个目标可以实现了
34,CLIPDraw: Coupling Content and Style in Text—to—Drawing Synthesis
35,SwinIR: Image restoration using swin transformer
您是否曾经拍下过非常喜欢的图像,但现在只有一张小图了如果能把它的清晰度提高四到八倍该有多好本文中的方法可以将图像的分辨率提高4倍,使其看起来更加平滑而且可以在几秒钟内自动完成,几乎适用于任何图像
36,EditGAN: High—Precision Semantic Image Editing
37,CityNeRF: Building NeRF at City Scale
本文中的模型称为 CityNeRF,是从 NeRF 发展而来的NeRF 是最早使用辐射场和机器学习从图像构建 3D 模型的模型之一但效率不高,而且只适用于单一规模本文中,CityNeRF可同时应用于卫星和地面图像,为任何视点生成各种 3D 模型比例
38,ClipCap: CLIP Prefix for Image Captioning
。