机器视觉
人像\姿势\3D人脸
deepinsight/insightface 最先进的2D和3D人脸分析项目 人脸识别\检测\对齐
yoyo-nb/Thin-Plate-Spline-Motion-Model 用于图像动画的薄板样条运动模型 人脸、人物动作姿势模拟
AliaksandrSiarohin/first-order-model 图像动画的一阶运动模型,实现静态图像到动态图像的转换.人脸、人物动作姿势模拟
minivision-ai/photo2cartoon 人像卡通化探索项目
davidsandberg/facenet 使用 TensorFlow 进行人脸识别
serengil/deepface 轻量级人脸识别和人脸属性分析(年龄、性别、情感和种族)库
exadel-inc/CompreFace 领先的免费开源人脸识别系统
tencent-ailab/hifi3dfaceRGB-D 的高保真3D 数字人类创建
iPERDance/iPERCore 处理人体图像合成任务。其中包括人体运动模仿、外观转换和新视角合成等。并且,该项目的代码、数据集已开源。
anandpawara/Real_Time_Image_Animation 实时图像动画,使原图的人像与新图上的人脸动作一致。
GuyTevet/motion-diffusion-model 人体运动扩散模型的PyTorch官方实现
FACEGOOD-Audio2Face 将音频转换为混合形状权重,并在UE中驱动数字人小美。
facebookresearch/pifuhd 使用AI从2D图像生成人的3D高分辨率重建
open-mmlab/mmskeleton 用于人体姿势估计,基于骨骼的动作识别和动作合成。
thepowerfuldeez/facemesh.pytorch 单目实时人脸表面3D点云提取
anibali/margipose 基于2D边缘热图的3D人体姿态估计
wmcnally/evopose2d 神经架构搜索推动2D姿态识别边界
hellojialee/OffsetGuided Bottom-up人体姿态估计最优网络,多人关键点坐标的编解码方法.
ziwei-zh/CorrPM 关联人体边缘,人体姿态解析.研究了人的语义边界和关键点位置如何共同改善人的部件解析性能。
SangbumChoi/MobileHumanPose 在移动设备中实现实时 3D 人体姿态估计,PyTorch。
jby1993/SelfReconCode 从单目视频自我重建你的数字化身
ibaiGorordo/ONNX-Mobile-Human-Pose-3D 使用 ONNX 中的移动人体姿势模型执行 3D 人体姿势估计的 Python 脚本。
CMU-Perceptual-Computing-Lab/openpose 用于身体、面部、手和脚估计的实时多人关键点检测库。
wzmsltw/PaintTransformer Paint Transformer:具有笔画预测的前馈神经绘画网络。预测图片如何用画笔画出。
cleardusk/3DDFA_V2 Towards Fast 的官方 PyTorch 实现,准确稳定的3D密集人脸对齐,ECCV 2020。预测出图片人脸的3D结构。
PeterL1n/RobustVideoMatting 可在任意视频上做实时高清人物抠像.
changgyhub/deepsketch2face 用于 3D 面部和漫画建模的基于深度学习的草图系统。
YadiraF/DECA 详细的表情捕捉和动画(SIGGRAPH 2021).从单个输入图像重建具有详细面部几何形状的 3D 头部模型。生成的 3D 头部模型可以轻松制作动画。
sicxu/Deep3DFaceRecon_pytorch 具有弱监督学习的准确 3D 人脸重建:从单张图像到图像集 (CVPRW 2019)。PyTorch 实现。
xierc/Semi_Human_Pose 半监督二维人体姿态估计中折叠问题的实证研究。
DrMahdiRezaei/DeepSOCIAL DeepSOCIAL:COVID-19 大流行中的社会人物距离监测和感染风险评估。
shliang0603/Yolov4_DeepSocial DeepSOCIAL:COVID-19 大流行中的社会人物距离监测和感染风险评估。
Mukosame/Anime2Sketch 动画/插图的草图提取器。
google/mediapipe 适用于直播和流媒体的跨平台、可定制的 ML 解决方案。包括:人脸检测、面网、虹膜手、姿势、整体姿势、人脸检测、头发分割、物体检测、箱子追踪、即时运动追踪、日常物体的实时 3D 物体检测、关键点神经不变特征变换。
minivision-ai/photo2cartoon 人像卡通化探索项目
MobileStyleGAN.pytorch 用于高保真图像合成的轻量级卷积神经网络
TencentARC/GFPGAN GFPGAN 旨在开发用于真实世界面部恢复的实用算法。
人脸识别常用开源数据集大全 哥伦比亚大学公众人物脸部数据、CelebA、美国国防部、MTFL、BioID、PersonID人脸识别数据集、CMU PIE人脸库、Youtube视频人脸、CASIA 人脸图像、Caltech人脸数据库
sallymmx/ActionCLIP 视频动作识别的新范式
IGLICT/DeepFaceDrawing-Jittor 从草图中深度生成人脸图像
RameenAbdal/StyleFlow 使用条件连续归一化流对 StyleGAN 生成的面部图像进行属性条件探索
kennymckormick/pyskl 用于基于骨架的动作识别的工具箱。
nenadmarkus/pico 对标准 Viola-Jones 方法的修改。基本思想是在所有合理的位置和尺度上用级联的二元分类器扫描图像。如果图像区域成功通过级联的所有成员,则将其分类为感兴趣对象。每个二元分类器由一组决策树组成,其中像素强度比较作为其内部节点中的二元测试。这使检测器能够以非常高的速度处理图像区域。
YuliangXiu/ICON 从图片法线获得的隐式穿衣人类的3D姿态(CVPR 2022)
DirtyHarryLYL/Activity2Vec 基于HAKE数据的通用人类活动特征提取器和人体PaSta(部分状态)检测器。它的工作原理类似于 ImageNet/COCO 预训练的主干,旨在为下游任务(如 VQA、字幕、聚类等)提取多模态活动表示。
fengq1a0/FOF 学习傅里叶占有场(Fourier Occupancy Fields)用于单目实时人体重建
图像恢复
microsoft/Bringing-Old-Photos-Back-to-Life 旧照片修复
Sanster/lama-cleaner 由 SOTA AI 模型提供支持的图像修复工具。 从你的照片中删除任何不需要的物体、缺陷、人物或擦除和替换(由稳定扩散驱动)你照片上的任何东西。
TaoWangzj/Awesome-Face-Restoration 深层面部修复资源的完整列表 去噪、超分辨率、去模糊和去除伪影
xinntao/Real-ESRGAN 旨在开发通用图像恢复的实用算法。
zhangmozhe/Deep-Exemplar-based-Video-Colorization 基于深层范例的视频着色,着色时间的连贯性与稳定性
JingyunLiang/SwinIR 使用 Swin Transformer 的图像恢复,图像SR\图像去噪\伪影减少
yangxy/GPEN 用于脸部高清增强,还能将黑白人物照转成彩色照片。GPEN模型明显优于其他的修复人脸的GAN模型。
bilibili/ailab 使用百万级动漫数据进行训练的,结构与Waifu2x兼容的通用动漫图像超分辨率模型。它支持2x\3x\4x倍超分辨率,其中2倍模型支持4种降噪强度与保守修复,3倍/4倍模型支持2种降噪强度与保守修复。
nagadomi/waifu2x 动漫风格艺术的图像超分辨率
光学字符识别OCR
ouyanghuiyu/chineseocr_lite 超轻量级中文ocr
JiaquanYe/TableMASTER-mmocr 将表格内容识别任务分为四个子任务:表格结构识别、文本行检测、文本行识别和框分配。 基于 MASTER,我们提出了一种新颖的表结构识别架构,我们称之为 TableMASTER。
breezedeus/cnocr cnocr
JiaquanYe/MASTER-mmocr 本项目是 MMOCR 对 MASTER: Multi-Aspect Non-local Network for Scene Text Recognition (场景文本识别)的重新实现。
PaddlePaddle/PaddleOCR 很棒的基于PaddlePaddle的多语言OCR工具包(实用的超轻量级OCR系统,支持80+语言识别,提供数据标注和合成工具,支持服务器、移动、嵌入式和物联网设备之间的训练和部署)
FudanVI/benchmarking-chinese-text-recognition 该存储库包含用于对中文文本识别进行基准测试的数据集和基线。收集公开可用的场景数据集,包括RCTW、ReCTS、LSVT、ArT、CTW ,得到 636,455 个样本,这些样本被随机打乱,然后按 8:1:1 的比例划分,以构建训练、验证和测试数据集。六种具有代表性的方法作为基线:
-
CRNN是典型的基于 CTC 的方法,在学术界和工业界得到广泛应用。它首先将文本图像发送到 CNN 以提取图像特征,然后采用两层 LSTM 对序列特征进行编码。最后,LSTM 的输出被馈送到 CTC解码器,以最大化所有路径通往基本事实的概率。
-
ASTER 是典型的基于校正的方法,旨在处理不规则的文本图像。引入了空间变换器网络 (STN),将给定的文本图像纠正为易于识别的外观。然后将校正后的文本图像发送到 CNN 和两层 LSTM 提取特征。ASTER 利用注意力机制来预测最终的文本序列。
-
MORAN 是基于整流的方法。它首先采用多对象校正网络(MORN)以弱监督方式预测校正后的像素偏移(与利用 STN 的 ASTER 不同)。输出像素偏移进一步用于生成校正后的图像,该图像进一步发送到基于注意力的解码器(ASRN)进行文本识别。
-
SAR 利用二维特征图进行更稳健的解码。特别是,它主要是针对不规则文本提出的。一方面,SAR 在 CNN 编码器中采用更强大的残差块来学习更强的图像表示。另一方面,与 CRNN、ASTER 和 MORAN 将给定图像压缩成一维特征图不同,SAR 对特征图的空间维度采用二维注意力进行解码,从而在弯曲和斜体文字。
-
SEED是基于语义的方法。它引入了一个语义模块来提取全局语义嵌入并利用它来初始化解码器的第一个隐藏状态。SEED的解码器在继承ASTER结构的同时,吸收语义嵌入为识别过程提供先验,从而在识别低质量文本图像方面表现出优越性。
-
TransOCR 是基于 Transformer 的方法之一。它最初旨在为超分辨率任务提供文本先验。它使用 ResNet-34 作为编码器,使用自注意力模块作为解码器。与基于 RNN 的解码器不同,自注意力模块更有效地捕获给定文本图像的语义特征。
adeline-cs/GTR 场景文字识别 现有的场景文本识别(STR)方法通常使用语言模型来优化视觉识别(VR)模型预测的一维字符序列的联合概率,忽略字符实例内部和之间的视觉语义的二维空间上下文,使它们不能很好地推广到任意形状的场景文本。为了解决这个问题,本文中首次尝试基于视觉语义进行文本推理。给定 VR 模型预测的字符分割图,为每个实例构建子图,节点表示其中的像素,根据它们的空间相似性在节点之间添加边。然后,子图通过根节点顺序连接成一个完整的图。
Layout-Parser/layout-parser 基于深度学习的文档图像分析的统一工具包,旨在简化文档图像分析 (DIA) 任务。
phamquiluan/PubLayNet PubLayNet数据集上的MaskRCNN。段落检测、表格检测、图形检测… 个大型文档图像数据集,其布局使用边界框和多边形分割进行标注。
JaidedAI/EasyOCR 即用型 OCR,支持 80 多种语言和所有流行的书写脚本,包括拉丁文、中文、阿拉伯文、天城文、西里尔文等。
ocrmypdf/OCRmyPDF 为扫描的 PDF 文件添加OCR 文本图层,允许对其进行搜索
视频补帧
hzwer/arXiv2020-RIFE 视频帧插值的实时中级流量估计.旷视和北大提出的一种实时中间流估计算法。用于视频帧插值,能够改善伪影、让视频更丝滑。
Justin62628/Squirrel-RIFE 基于RIFE算法的中文补帧软件.
baowenbo/DAIN DAIN(深度感知视频帧插值)可以把30fps的进一步插帧到480fps。
nihui/dain-ncnn-vulkan DAIN 的 ncnn 实现,深度感知视频帧插值。dain-ncnn-vulkan 使用 ncnn 项目作为通用神经网络推理框架。
nihui/rife-ncnn-vulkan RIFE,视频帧插值的实时中级流量估计与 ncnn 库一起实现
myungsub/CAIN 视频帧插值只需要频道注意力
nihui/cain-ncnn-vulkan CAIN,使用 ncnn 库实现的视频帧插值只需要频道注意力
对象检测、分割
facebookresearch/segment-anything Segment Anything Model从输入提示(如点或框)生成高质量的对象遮罩,并且可用于为图像中的所有对象生成遮罩。它已经在1100万张图像和11亿个掩码的数据集上进行了训练,并且在各种分割任务上具有强大的零样本性能。
open-mmlab/mmdetection OpenMMLab基于PyTorch的开源对象检测工具箱
microsoft/Swin-Transformer 基于Masked Image Modeling的预训练方法,适用于 Swin 和 SwinV2(也适用于 ViT 和 ResNet)。它可以作为计算机视觉的通用主干。它基本上是一个分层变换器,其表示是用移位窗口计算的。移位窗口方案通过将 self-attention 计算限制在不重叠的本地窗口上,同时还允许跨窗口连接,从而带来更高的效率。将 CLIP 预训练的 ViT-L 提高了 +1.6%,以达到ImageNet-1K 图像分类,这是最准确的 ViT-L 模型。在 COCO 对象检测(58.7 box AP和51.1 mask APtest-dev)和 ADE20K 语义分割(53.5 mIoU在 val)上实现了强大的性能,大大超过了以前的模型。
google-research/kubric 一个数据生成管道,用于创建具有丰富注释的半真实合成多对象视频,例如实例分割掩码、深度图和光流。
megvii-model/YOLOF 一个没有FPN的简单、快速、高效的目标检测器。
JosephKJ/OWOD (CVPR 2021 Oral) 开放世界目标检测.引入了强大的评估协议并提供了一种新颖的解决方案,我们称之为 ORE:开放世界对象检测器,基于对比聚类和基于能量的未知识别。
RangiLyu/nanodet 超快速和轻量级的无锚物体检测模型。 仅 980 KB(int8) / 1.8MB (fp16) 并在手机上运行 97FPS.
jizhishutong/YOLOU 收集更多关于YOLO系列的算法,让小伙伴们更好的学习物体检测的知识。同时,为了更好的应用AI技术,YOLOU也将加入相应的Deploy技术,加速我们所学算法的落地,实现价值。
ultralytics/yolov5 在 COCO 数据集上预训练的对象检测模型,代表 Ultralytics 对未来视觉 AI 方法的开源研究,结合了数千小时的研究和经验教训和最佳实践。
meituan/YOLOv6 专用于工业应用的单阶段目标检测框架。
xuebinqin/U-2-Net 我们在 Pattern Recognition 2020 上新接受的论文的代码:“U^2-Net:使用嵌套 U 结构进行突出对象检测的深入发展”。
iscyy/yoloair 基于PyTorch的YOLO算法库。统一模型代码框架、统一应用、统一改进、易于模块组合、构建更强大的网络模型。
PaddlePaddle/PaddleClas 飞桨图像识别套件 PaddleClas 是飞桨为工业界和学院所准备的一个图像任务的工具集,桌面和用户训练出更好的图像分类和应用落地。PaddleClas 前沿分类、识别相关支持算法,发布行业级特色骨算法PP-HGNet、PP-LCNetv2、PP-LCNet和SSLD 半监督干式网络知识模型等模型,在此基础上打造PULC 超轻量级分类分类方案和PP-ShiTu图像识别系统。
Hawkeye-FineGrained/Hawkeye 基于开源深度学习的细粒度图像识别工具箱构建于PyTorch。基于深度滤波器:S3N (ICCV 2019) Interp-Parts (CVPR 2020) ProtoTree (CVPR 2021)。基于注意力机制:OSME+MAMC (ECCV 2018) MGE-CNN (ICCV 2019) APCNN (IEEE TIP 2021) 。基于高阶特征交互: BCNN (ICCV 2015) CBCNN (CVPR 2016) Fast MPN-COV (CVPR 2018) 。基于特殊损失函数: Pairwise Confusion (ECCV 2018) API-Net (AAAI 2020) CIN (AAAI 2020) 。基于网络数据: Peer-Learning (ICCV 2021) 其他方法 NTS-Net (ECCV 2018) CrossX (ICCV 2019) DCL (CVPR 2019)。
lucidrains/vit-pytorch 在 Pytorch 中实现 Vision Transformer,一种仅使用单个 Transformer 编码器即可在视觉分类中实现 SOTA 的简单方法
alibaba/EasyCV 基于Pytorch的计算机视觉工具,聚焦自监督学习和视觉transformer关键技术,覆盖主流的视觉建模任务例如图像分类,度量学习,目标检测,关键点检测等。
ibm-aur-nlp/PubLayNet 大型文档图像数据集,其布局用边界框和多边形分割进行了注释。 文件来源是 PubMed Central Open Access Subset(商业用途合集)。 注释是通过匹配 PubMed Central Open Access 子集中文章的 PDF 格式和 XML 格式自动生成的。
zongdai/AutoShape ICCV2021 论文:AutoShape:实时形状感知单目 3D 对象检测
facebookresearch/detectron2 用于对象检测、分割和其他视觉识别任务的下一代平台。
cfzd/Ultra-Fast-Lane-Detection 论文“超快速结构感知深度车道检测”的实现
RangiLyu/nanodet NanoDet 轻量级1.8MB、超快(移动端97fps)目标检测项目
Megvii-BaseDetection/YOLOX 高性能目标检测器YOLOX。并将YOLO检测器切换到anchor-free的方式,并结合其他先进的检测技术,如decouple head和标签分配策略SimOTA,实现了当前目标检测最优性能。
yuantn/MI-AOD 用于目标检测的多示例主动学习方法, 提出多示例主动目标检测MI-AOD,通过观察示例级的不确定性来选择信息量最大的图像用于检测器的训练。
microsoft/SoftTeacher ICCV2021 使用软教师进行端到端的半监督目标检测
raoyongming/DenseCLIP DenseCLIP:具有上下文感知提示的语言引导密集预测
dddzg/up-detr 使用 Transformers 进行目标检测的无监督预训练
Megvii-BaseDetection/DeFCN 全卷积网络的端到端目标检测
HRNet/HRFormer 高分辨率变换器(HRFormer),它学习用于密集预测任务的高分辨率表示,而原始的视觉变换器产生低分辨率表示并且具有高内存和计算成本。
Sense-X/UniFormer 统一卷积和自注意的视觉识别统一变压器,实现高效的时空表示学习 可用于: 图像分类、 视频分类、 物体检测、 语义分割、 姿势估计
bytedance/ibot 自我监督预训练框架,通过自蒸馏执行蒙版图像建模。iBOT 显示了局部语义特征,有助于模型在全局范围和局部范围内很好地转移到下游任务。iBOT在 COCO 对象检测和 ADE20K 语义分割上实现了强大的性能。
hkchengrex/XMem [ECCV 2022]使用 Atkinson-Shiffrin 进行长期视频对象分割
ytongbai/ViTs-vs-CNNs 变形金刚比 CNN 更强大吗 在测量对抗鲁棒性时,Transformers 胜过 CNN。CNN 在防御对抗性攻击方面很容易像 Transformers 一样强大,如果它们正确采用 Transformers 的训练方法的话。虽然关于分布外样本的泛化,我们表明在(外部)大规模数据集上进行预训练并不是使 Transformer 能够获得比 CNN 更好的性能的基本要求。此外,我们的消融表明,这种更强的泛化在很大程度上得益于 Transformer 本身的类似自我注意的架构,而不是其他训练设置。希望这项工作可帮助社区更好地理解和衡量 Transformer 和 CNN 的鲁棒性。
open-mmlab/mmrotate 基于 PyTorch 的旋转框检测的开源工具箱
MediaBrain-SJTU/RegAD 基于注册的少样本异常检测”(RegAD) 的官方实现
NVlabs/MinVIS 无需基于视频的培训的最小视频实例分割框架
AlexeyAB/darknet 用于对象检测的神经网络 YOLOv4 / Scaled-YOLOv4 / YOLO
ttengwang/Caption-Anything 一款结合了图像分割、视觉字幕和 ChatGPT 的多功能工具,可根据用户偏好生成具有不同控件的定制字幕。
WZMIAOMIAO/deep-learning-for-image-processing 用于图像处理的深度学习,包括分类和对象检测等。
satellite-image-deep-learning/techniques 用于分析卫星和航空图像的各种深度学习技术,包括用于分类、分割和对象检测等任务的架构、模型和算法。对于研究人员、从业者和任何对深度学习的最新进展及其对计算机视觉和遥感的影响感兴趣的人来说,它都是宝贵的资源。
图像风格
mchong6/GANsNRoses 多样化的 im2im 和 vid2vid 自拍到动漫转换。从人脸面部图像映射动漫风格图像。
williamyang1991/VToonify SIGGRAPH Asia 2022 可控高分辨率人像视频风格迁移
mchong6/JoJoGAN JoJoGAN 的官方 PyTorch 存储库:One Shot Face Stylization 人脸风格化
orpatashnik/StyleCLIP 文本驱动的StyleGAN风格生成图像处理
syz825211943/Multi-Style-Photo-Cartoonization 多风格照片卡通化
bryandlee/animegan2-pytorch AnimeGANv2 的 PyTorch 实现 基于 CartoonGAN 的改进,并提出了一个更加轻量级的动漫风格效果生成器架构.
TachibanaYoshino/AnimeGANv2 AnimeGAN的改进版本。风景照片/视频到动漫风格
PaddlePaddle/PaddleGAN 飞桨生成对抗网络开发套件–PaddleGAN,为开发者提供经典及前沿的生成对抗网络高性能实现,并支撑开发者快速构建、训练及部署生成对抗网络,以供学术、娱乐及产业应用。包括:人脸属性编辑之年龄变换 一键实现变老变年轻;视频超分SOTA算法PP-MSVSR;StyleGAN V2人脸属性编辑之性别转换;LapStyle风格迁移;人脸融合能力,结合新版Frirst Order Motion,实现人脸完美融合并带有丰富表情;真实照片转油画风格;人脸融合、风格迁移、老视频修复、人脸动作迁移、超分辨率、妆容迁移、人脸动漫化、写实人像卡通化、照片动漫化、唇形同步
SHI-Labs/Versatile-Diffusion 多功能扩散:文本、图像和变体合二为一的扩散模型,可以原生支持图像到文本、图像变体、文本到图像和文本变体,并且可以进一步扩展到其他应用,例如语义式解缠、图像-文本双引导生成、潜在图像到文本到图像编辑等。
FrozenBurning/Text2Light 零样本的文本驱动的HDR全景图生成
其他_机器视觉
taichi-dev/taichi 高效且可移植的 Python 高性能编程。该语言具有广泛的应用,包括实时物理模拟、数字计算、增强现实、人工智能、视觉和机器人技术、电影和游戏中的视觉效果、通用计算等等。
open-mmlab/mmcv MMCV 是计算机视觉研究的基础库,它提供以下功能:通用 IO API、图像/视频处理、图像和注释可视化、有用的实用程序(进度条,计时器,…)、具有挂钩机制的 PyTorch runner、各种CNN架构、CPU 和 CUDA 操作的高质量实现。
ArduPilot/ardupilot 最先进、功能最全、最可靠的开源自动驾驶软件。自 2010 年以来,它一直由专业工程师、计算机科学家和社区贡献者组成的多元化团队开发。我们的自动驾驶软件能够控制几乎任何可以想象的车辆系统,从传统飞机、四架飞机、多旋翼和直升机到漫游车、船只、平衡机器人,甚至潜艇。它正在不断扩展,为新的车辆类型提供支持。
Stability-AI/stablediffusion 具有潜在扩散模型的高分辨率图像合成
borisdayma/dalle-mini DALL·E Mini - 从文本提示生成图像
ashawkey/stable-dreamfusion 文本到3D和图像到3D和网格导出与NeRF +扩散。
OpenAI/CLIP 对比语言图像预训练
yangjianxin1/CLIP-Chinese 中文多模态对比学习预训练模型 ,可获取140w中文图文对预训练数据,以及中文CLIP预训练权重。下游任务:图文相似度计算、文本相似度计算、图片相似度计算
jexom/sd-webui-depth-lib 深度图库,用于 Automatic1111/stable-diffusion-webui 的控制网扩展
OFA-Sys/OFA 统一的序列到序列预训练模型(支持英文和中文),它统一了模态(即跨模态、视觉、语言)和任务(支持微调和提示调优):图像字幕(MSCOCO 排行榜第一) ), VQA (链接),视觉基础,文本到图像生成,文本分类,文本生成,图像分类等。
openai/consistency_models 一致性模型的官方存储库。Diffusion Models 在生成一张图片时需要多次进行模型推理,对于实时性较强的应用,就很难让人满意了。这篇文章所claim的一步采样即能达到较好的效果。
alicevision/meshroom 3D 重建软件,一款基于 AliceVision 摄影测量计算机视觉框架的免费开源 3D 重建软件。
google-research/magvit MAGVIT 的官方 JAX 实现:掩码生成视频转换器 .引入 MAGVIT 以使用单一模型处理各种视频合成任务,并展示了其质量、效率和灵活性。
silverriver/MMChat 大规模的对话数据集,其中包含以图像为基础的中文对话。 MMChat 中的每个对话都与一个或多个图像相关联(每个对话最多 9 张图像)。 我们设计了各种策略来确保 MMChat 中对话的质量。 数据集中的图像托管在微博的静态图像服务器上。
KaiyangZhou/CoOp 通过快速学习将CLIP等视觉语言模型适应下游数据集
j-min/VL-T5 通过文本生成统一视觉和语言任务
OFA-Sys/OFA 统一的序列到序列预训练模型(支持英文和中文),它统一了模态(即跨模态、视觉、语言)和任务(支持微调和提示调优):图像字幕(MSCOCO第一)、VQA链接、视觉基础、文本图像生成、文本分类生成、图像分类等。
HuiGuanLab/ms-sl 基于传统的跨模态文本-视频检索(Video-to-Text Retrieval, T2VR)任务,提出了部分相关的视频检索(Partially Relevant Video Retrieval, PRVR)。PRVR 旨在从大量未剪辑的长视频中检索出与查询文本部分相关的对应视频。作者设计了多尺度多示例模型,该模型分别对视频进行片段尺度和帧尺度的特征表示,并引入了以关键片段为向导的注意力聚合方法,模型整体以从粗到细的方式学习文本-视频间的相似度关系。该模型也可用于提高视频库片段检索(Video Corpus Moment Retrieval,VCMR)模型的性能。
facebookresearch/AugLy 用于音频、图像、文本和视频的数据增强库。
xxxnell/how-do-vits-work “视觉转换器如何工作?(ICLR 2022 )”的 PyTorch 实现。CV的多头自注意力 (MSA) 的成功并不在于弱归纳偏差以及捕获远程依赖项。 MSA 不仅是广义的 Convs,而是补充 Convs 的广义空间平滑。特别是,MSA 通过拉平损失情况来改进 NN。一个关键特征是它的数据特异性(数据依赖性),而不是远程依赖性。另一方面,ViTs 遭受非凸损失。MSA 和 Convs 表现出相反的行为,MSA 是低通滤波器,而 Convs 是高通滤波器。MSA 是形状偏向的,而 Convs 是纹理偏向的。因此,MSAs 和 Convs 是互补的。阶段末尾的 MSA(不是模型)显着提高了准确性。我们通过用 MSA 替换阶段结束时的 Convs 来引入 AlterNet。 AlterNet 在大小数据领域都优于 CNN。
salesforce/LAVIS 用于语言和视觉智能研究和应用的 Python 深度学习库。 该库旨在为工程师和研究人员提供一站式解决方案,以针对其特定的多模式场景快速开发模型,并跨标准和定制数据集对它们进行基准测试。 它具有统一的界面设计以访问:10 多个任务(检索、字幕、视觉问答、多模态分类等);20 多个数据集(COCO、Flickr、Nocaps、Conceptual Commons、SBU 等);30 多个最先进的基础语言视觉模型的预训练权重及其特定于任务的改编,包括 ALBEF、BLIP、ALPRO、CLIP。
willard-yuan/awesome-cbir-papers 经典图像检索论文合集
lucidrains/imagen-pytorch 在 Pytorch 中实现谷歌的文本到图像神经网络 Imagen ,谷歌的文本到图像神经网络,击败了 DALL-E2。 它是文本到图像合成的新 SOTA。在架构上上比 DALL-E2 简单得多。 它由一个级联 DDPM 组成,该 DDPM 以来自大型预训练 T5 模型(注意网络)的文本嵌入为条件。 它还包含用于改进分类器自由引导、噪声级调节和内存高效 unet 设计的动态裁剪。
divamgupta/stable-diffusion-tensorflow Stable Diffusion 稳定扩散的 Keras Tensorflow 实现。
LuChengTHU/dpm-solver 用于扩散概率模型采样的快速 ODE 求解器。DPM-Solver 适用于离散时间和连续时间扩散模型,无需任何进一步训练。 实验结果表明,仅需对各种数据集进行 10 到 20 次函数评估即可生成高质量样本。
jina-ai/clip-as-service 一种用于嵌入图像和文本的低延迟、高可伸缩性的服务。它可以作为一个微服务轻松集成到神经搜索解决方案中。有四种基本的视觉推理技能:对象识别、对象计数、颜色识别和空间关系理解。文本到图像跨模态搜索。
hua1995116/awesome-ai-painting AI绘画资料合集(包含国内外可使用平台、使用教程、参数教程、部署教程、业界新闻等等)
lllyasviel/style2paints 草图 + 风格 = 绘画
realtime-semantic-segmentation 用TF.js实施RefineNet以在浏览器中执行实时实例分割
extreme-assistant/CVPR2021-Paper-Code-Interpretation cvpr2021 cvpr2020 cvpr2019 cvpr2018 cvpr2017 论文/代码/解读/直播合集,极市团队整理
LeonLok/Multi-Camera-Live-Object-Tracking 多摄像头实时目标跟踪和计数,使用YOLOv4,Deep SORT和Flask
kornia/kornia 基于 PyTorch 的可微分(differentiable)的计算机视觉开源库, 实现了:可微的基础计算机视觉算子、可微的数据增广。OpenCV 和 PIL 都是不可微的,所以这些处理都只可以作为图像的预处理而无法通过观察梯度的变化来对这些算子进行优化 (gradient-based optimization),因此Kornia 便应运而生。
architras/Advanced_Lane_Lines 基于阈值的车道标记
facebookresearch/pytorch3d 基于PyTorch将深度学习与3D进行结合的研究框架。
facebookresearch/pytorchvideo 为视频理解研究打造的深度学习库。
rwightman/pytorch-image-models PyTorch图像类模型库,包括:ResNet, ResNeXT, EfficientNet, EfficientNetV2, NFNet, Vision Transformer, MixNet, MobileNet-V3/V2, RegNet, DPN, CSPNet
Thinklab-SJTU/ThinkMatch 深度图匹配算法 图形匹配(GM)是计算机视觉,模式识别和数据挖掘中一个基本但具有挑战性的问题。GM旨在通过解决称为二次分配问题(QAP)的NP硬组合问题来找到多个图之间的节点到节点对应关系。应用:桥接电影和简介、图像对应、分子匹配
google-research/vision_transformer 视觉Transformer和 MLP-混合器架构,Transformer应用于视觉,纯多层感知机视觉架构。
https://github.com/China-UK-ZSL/ZS-F-VQA 一种适用于零样本视觉问答(ZS-VQA)的基于知识图谱的掩码机制,更好结合外部知识的同时,缓解了误差传播对于模型性能的影响。
luost26/diffusion-point-cloud 基于非平衡态热力学的全新三维点云生成模型
PeterWang512/GANSketching 绘制您自己的 GAN:用手绘草图自定义 GAN 模型。
microsoft/AutoML/iRPE 视觉位置编码,在ImageNet和COCO上,与原始版相比,分别获得了1.5%(top-1 Acc)和1.3%(mAP)的性能提升(无需任何调参)。
shahroudy/NTURGB-D “NTU RGB+D”动作识别数据集、“NTU RGB+D 120”动作识别数据集、“NTU RGB+D”是用于人类动作识别的大规模数据集。“NTU RGB+D 120”是“NTU RGB+D”数据集的扩展版本。
https://github.com/yuhuan-wu/P2T 基于金字塔池化的视觉Transformer,可用于各类下游场景理解任务。
https://github.com/jantic/DeOldify 基于NoGAN技术,保证视频着色的稳定性,例如,视频中的同一件衣服,不至于转换成多种颜色。
https://github.com/junyanz/pytorch-CycleGAN-and-pix2pix 图像到图像的转换
https://github.com/joelibaceta/video-to-ascii 可以使用字符作为像素在终端中播放视频
https://github.com/bytedance/OMGD 用于 GAN 压缩的在线多粒度蒸馏 (ICCV2021)
https://github.com/TorchSSL/TorchSSL 基于 PyTorch 的半监督学习库 (NeurIPS’21)
https://github.com/google-research/mixmatch 集成了自洽正则化的超强半监督学习 MixMatch
google-research/remixmatch 改进了最近提出的MixMatch半监督学习算法,引入了两种新技术:分布对齐和增强锚定。分布对齐鼓励未标记数据预测的分布接近标签的分布。增强锚定为模型提供多个强增强版本的输入,并鼓励每个输出接近同一输入的弱增强版本的预测。
NVlabs/stylegan3 更适合视频和动画的生成模型。
isl-org/DPT 用于密集预测的Transformers,图像语义分割的目标是将图像的每个像素所属类别进行标注。因为是预测图像中的每个像素,这个任务通常被称为密集预测(dense prediction)。
google-research/mint 多模式内容创建模型训练基础设施,包括 FACT 模型(AI Choreographer)实现。带有 AIST++ 的音乐条件 3D 舞蹈生成。
yihongXU/TransCenterTransCenter:用于多对象跟踪的密集查询转换器
ashkamath/mdetr 用于端到端多模态理解的调制检测。输入描述文本及图片,识别出文字描述的对应物体。
erikalu/omnimatte 提取视频中的前、背景。精确蒙版(matte)操作,分离前景背景。
microsoft/SimMIM 用作掩码图像建模的简单框架。通过系统研究,我们发现每个组件的简单设计都显示出非常强的表示学习性能:1)用中等大小的掩码补丁大小(例如,32)对输入图像进行随机掩码,这是一个强大的前置任务;2) 通过直接回归预测 RGB 值的原始像素的性能并不比设计复杂的补丁分类方法差;3)预测头可以像线性层一样轻,性能不比较重的层差。
microsoft/Oscar 跨模态预训练方法Oscar(Object-Semantics Aligned Pre-training)。它利用在图像中检测到的对象标签作为锚点来显着简化图像-文本对齐的学习。在 650 万个文本图像对的公共语料库上对 Oscar 进行预训练,并在下游任务上对其进行微调,在六项成熟的视觉语言理解和生成任务上创造新的最新技术。
xyzforever/BEVT 视频转换器的BERT预训练。BEVT首先对图像数据进行蒙版图像建模,然后对视频数据进行蒙版图像建模和蒙版视频建模。
fengpanhe/MT-ORLPyTorch 实现论文“MT-ORL:多任务遮挡关系学习”(ICCV 2021)
snap-research/CAT 用于压缩”图像到图像模型”CycleGAN Pix2pix的压缩和教学框架.
nikheelpandey/TAUP-PyTorch 任务不可知的无监督预训练。simCLR 论文的粗略实现。 如论文中所述,在对比损失函数上使用 LARS 优化器来训练对比模型。 将此模型用作编码器并添加全连接层以创建分类器。
HobbitLong/SupContrast “监督对比学习”的 PyTorch 实现(顺便提一下 SimCLR)
hustvl/QueryInst Instances as Queries是一种简单有效的基于查询的实例分割方法,由动态掩码头的并行监督驱动,在准确性和速度方面均优于以前的技术。
isl-org/MiDaS 单目深度估计的成功依赖于大量且多样化的数据集。但是由于深度的真实值在不同的环境尺度下获取的,大量数据具有不同的特征和偏差。本文提出了一种对于深度的范围和尺度具有不变性的训练方法,从而可以在训练期间混合多个数据集。因此,本文利用3D电影构建了一个数据集并进行训练,然后在训练期间未见过的数据集上进行评测。实验证明,混合训练来自不同的数据集可以改善深度估计的效果,特别是针对训练时未见过的数据集(zero-shot dataset)。
google-research/deeplab2 用于深度标记的 TensorFlow 库,旨在为密集像素标记任务提供统一且最先进的 TensorFlow 代码库。旨在为密集像素标注任务提供统一的、最先进的 TensorFlow 代码库,包括但不限于语义分割、实例分割、全景分割、深度估计,甚至 视频全景分割。深度标记是指通过深度神经网络为图像中的每个像素分配预测值来解决计算机视觉问题。
YifanXu74/Evo-ViT 腾讯优图提出高性能Transformer加速方法.Evo-ViT: Slow-Fast Token Evolution for Dynamic Vision Transformer,能在保证分类准确率损失较小的情况下,大幅提升推理速度,如在ImageNet 1K数据集下,可提升DeiT-S 60%推理速度的同时仅损失0.4%的精度。
researchmm/CKDN 用于退化参考图像质量评估的学习条件知识提炼
phecy/SSL-FEW-SHOT 小样本图像分类的自监督学习
yangle15/RANet-pytorch 提出的分辨率自适应网络 (RANet) 通过利用spatial redundancy输入图像的分辨率来进行自适应推理。我们的动机是低分辨率表示足以对包含具有原型特征的大对象的简单样本进行分类,只有一些困难样本需要空间详细信息。
microsoft/NUWA 一个统一的多模态预训练模型,可以为8个视觉合成任务(文本转图像、模板转图像、图像补全、图像操纵、文本转视频、模板转视频、视频帧预测、视频操纵) 生成新的或操纵现有的视觉数据(即图像和视频)。待开放源码。
lucidrains/nuwa-pytorch 用于文本到视频合成的最先进的注意力网络
yuxie11/R2D2 大规模中文跨模式基准和视觉语言框架
google-research-datasets/conceptual-captions 包含(图像URL、字幕)对的数据集,用于机器学习图像字幕系统的训练和评估。数据集有约330万张图像(CC3M)和1200万张图像(CC12M)两个版本,并通过一个简单的过滤程序从网络自动收集弱相关描述。
ShannonAI/OpenViDial 一个大规模多模态对话数据集.当人类交谈时,说话者接下来会说什么很大程度上取决于他所看到的。OpenViDial 是用于此目的的大型多模块对话数据集。这些对话回合和视觉上下文是从电影和电视剧中提取的,其中每个对话回合都与它发生的相应视觉上下文配对。对于OpenViDial 1.0,共包含 110 万个对话轮次,因此图像中存储了 110 万个视觉上下文。对于OpenViDial 2.0,包含 560 万个对话轮次以及 560 万个存储在图像中的视觉上下文。基于OpenViDial,同时提出了三个模型,以不同的粒度融合视觉信息,预测下一句的对话内容。
Alibaba-MIIL/STAM 受NLP中Transformer成功的启发,我们尝试将一个标准Transformer直接应用到图像上,尽可能少的修改。为此,我们将图像分割成小块,并将这些块转化为线性嵌入序列,作为Transformer的输入。图像块(image patches)就相当于NLP任务中的单词(token)来做处理。并以有监督的方式训练图像分类模型。大规模的训练可以克服归纳偏置(inductive biases)。当ViT在足够规模上进行预先训练,并迁移到较少数据量的任务时,可以获得出色结果。
openai/glide-text2im 基于扩散的文本条件图像合成模型。以文本提示为条件的图像;填充图像的蒙版区域,以文本提示为条件;使用 GLIDE(过滤)+ 过滤噪声感知 CLIP 模型来生成以文本提示为条件的图像。
SysCV/pcan 用于多对象跟踪和分割的原型交叉注意网络
google-research/scenic Scenic:用于计算机视觉研究及其他领域的 Jax 库
CryhanFang/CLIP2Video 基于CLIP (ViT-B/32)的视频文本检索模型,将图像语言预训练模型以端到端的方式转换为视频文本检索。模型包括一个时间差异块来捕捉精细时间视频帧的运动,以及时间对齐块来重新对齐视频剪辑和短语的标记并增强多模态相关性。在主要的文本到视频和视频到文本检索基准上取得了最先进的性能,包括 MSR-VTT、MSVD 和 VATEX 检索准确性的新记录。
ArrowLuo/CLIP4Clip CLIP4Clip 是基于CLIP (ViT-B)的视频文本检索模型。在这项工作中,我们研究了三种相似度计算方法:无参数类型、顺序类型和紧密类型。该模型在 MSR-VTT、MSVC、LSMDC、ActivityNet 和 DiDeMo 上实现了 SOTA 结果。
sail-sg/poolformer PoolFormer:MetaFormer 实际上是您的视觉所需要的。transformer/MLP-like 模型的能力主要源于通用架构 MetaFormer,而不是配备的特定令牌混合器。作者独树一帜提出视觉Transformer及其变种的成功原因主要是架构的设计,并且将token mixer换为了简单的池化获得了相当好的效果。
jonhare/DifferentiableSketching 微分绘图和素描
thuiar/Self-MM 多模态情感分析的自监督多任务学习学习模态特定表示中的代码
nuno-faria/tiler Tiler 是一种使用各种其他较小图像(图块)创建图像的工具。它不同于其他马赛克工具,因为它可以适应多种形状和大小的瓷砖(即不限于正方形)。图像可以由圆圈、线条、波浪、十字绣、乐高积木、我的世界积木、回形针、字母等组成…
leandromoreira/ffmpeg-libav-tutorial FFmpeg libav 教程 - 了解媒体如何从基础到转换、转码等工作
Tencent/libpag 动画文件的渲染 SDK,降低或消除动画研发相关的成本,打通设计师创作到素材交付上线的极简流程,不断输出运行时可编辑的高质量动画内容。
salesforce/BLIP 用于 BLIP 的 PyTorch 代码:用于统一视觉语言理解和生成的引导语言图像预训练
VALUE-Leaderboard/StarterCode VALUE 基准测试的入门代码 。用于训练、评估和分析系统以理解视频和字幕的资源集合。
starmemda/CAMoE 通过多流语料库对齐和双 Softmax 损失改进视频文本检索
facebookresearch/SLIP SLIP 自监督代码发布符合语言-图像预训练
OFA-Sys/Chinese-CLIP 中文版CLIP,实现中文跨模态检索和表示生成。使用大规模中文数据进行训练(~2亿图文对),旨在帮助用户快速实现中文领域的图文特征&相似度计算、跨模态检索、零样本图片分类等任务。
yuewang-cuhk/awesome-vision-language-pretraining-papers 视觉和语言预训练模型 (VL-PTM) 的最新进展
zengyan-97/X-VLM 多粒度视觉语言预训练 将文本与视觉概念对齐。
facebookresearch/vilbert-multi-task 12 合 1:多任务视觉和语言表征学习
airsplay/lxmert 从 Transformers 学习跨模态编码器表示
uclanlp/visualbert 视觉和语言的简单且高效的基线 arxiv.org/abs/1908.03557 预训练一个 Transformer,用于处理图像字幕数据的视觉和语言 (V&L) 任务。 无监督 VisualBERT,预训练了没有对齐的图像字幕对的 V&L 转换器。
jackroos/VL-BERT 用于视觉语言任务的简单而强大的可预训练通用表示。它在大规模字幕数据集和纯文本语料库上进行了预训练,可以针对各种下游视觉语言任务进行微调,例如视觉常识推理、视觉问答和参考表达理解。
ChenRocks/UNITER 支持在 NLVR2、VQA、VCR、 SNLI-VE 、 COCO和 Flickr30k的图像文本检索以及 引用表达式理解(RefCOCO、RefCOCO+ 和 RefCOCO-g)上微调 UNITER。UNITER-base 和 UNITER-large 的预训练检查点均已发布。还可以使用域内数据进行基于 UNITER 的预训练。
ERNIE/ernie-vil 视觉语言任务的知识增强联合表示,第一个引入结构化知识以增强视觉语言预训练的工作。利用从场景图中获得的结构化知识,ERNIE-ViL 构造了三个场景图预测任务,即对象预测、属性预测和关系预测任务。因此,可以学习更好的联合视觉语言表示,表征跨视觉和语言的详细语义的对齐。
Research/NLP/UNIMO UNIfied-MODal 预训练架构,即UNIMO,可以有效地适应单模态和多模态的理解和生成任务。利用大规模的自由文本语料库和图像集合来提高视觉和文本理解能力,并利用跨模态对比学习(CMCL)将文本和视觉信息对齐到图像语料库上的统一语义空间中。用相关图像和文本增强的文本对。在丰富的非配对单模态数据的帮助下,我们的模型能够通过允许文本知识和视觉知识在统一的语义空间中相互增强来学习更多的泛化表示。实验结果表明,大大提高了几个单模态和多模态下游任务的性能。
fairseq/examples/MMPT 用于多模态视频理解的工具包!包含两篇多模态视频理解论文VideoCLIP (EMNLP, 2021) 和VLM (ACL Findings, 2021) 的实现。VideoCLIP 是一种对比学习模型,用于将零样本迁移到检索/分类/序列标记样式任务。VLM 是一种掩码语言模型样式预训练,仅使用一个带有掩码模态模型 (MMM) 的编码器来执行检索/生成/序列标签样式任务。
mczhuge/Kaleido-BERT (CVPR2021) Kaleido-BERT:时尚领域的视觉语言预训练。
linjieli222/HERO # 用于视频+语言全表示预训练的分层编码器 该存储库目前支持在 TVR、TVQA、TVC、 VIOLIN、 DiDeMo和 MSR-VTT Retrieval上微调 HERO 。发布了最好的预训练检查点(在HowTo100M和TV数据集上)。还提供了在 TV 数据集上进行 HERO 预训练的代码。
gabeur/mmt 用于视频检索的多模态变压器 提出的多模态转换器 (MMT) 从视频中聚合多模态特征序列(例如外观、运动、音频、OCR 等)。然后,它将聚合的多模式特征嵌入到带有文本的共享空间中以进行检索。它在 MSRVTT、ActivityNet 和 LSMDC 数据集上实现了最先进的性能。
Noah-Wukong Dataset 大规模的多模态中文数据集。数据集包含1 亿个image, text对。数据集中的图像根据大小(两个维度 > 200px)和纵横比(1/3 ~ 3)进行过滤。数据集中的文本根据其语言、长度和频率进行过滤。
lyakaap/ISC21-Descriptor-Track-1st Facebook AI 图像相似度挑战赛 (ISC21) 的第一名解决方案
sun-xl/ISC2021 Facebook AI 组织的图像相似度挑战赛Image Similarity Challenge (ISC) 2021 匹配赛道的第三名解决方案的源代码
zr2021/2021_QQ_AIAC_Tack1_1st QQ浏览器2021多模态视频相似度 第1名 方案
PKU-DAIR/2021_AIAC_Task2_1st QQ浏览器2021多模态视频相似度 第1名 方案
kywen1119/Video_sim 2021年qq浏览器AI算法大赛 多模态视频相似度 第四名
ChasingStar95/AIAC2021_task1_rank6 2021QQ浏览器 多模态视频相似度 rank6
AIAC_qq_browser_2021_task1_rank11 2021年 qq浏览器AI 算法大赛 赛道一 多模态视频相似度 决赛第11名
Tencent/Lichee 一个多模态内容理解算法框架,其中包含数据处理、预训练模型、常见模型以及模型加速等模块。
saic-mdal/lama LaMa 图像修复,具有傅里叶卷积的分辨率稳健的大型蒙版修复
microsoft/VideoX 跨模态视频内容理解
fnzhan/MISE 多模态图像合成和编辑:调查
NVlabs/instant-ngp 即时神经图形基元:闪电般快速的 NeRF 等 。Neural Radiance Fields(神经辐射场),是一项利用多目图像重建三维场景的技术。
Mengzi/Mengzi-Oscar 中文多模态预训练 Mengzi-Oscar 模型 下游任务模型: 中文图像摘要. 中文图文互检.
WangWenhao0716/ISC-Track2-Submission [NeurIPS Challenge Rank 3rd] 重现 Image Similarity Challenge Track 2 结果的代码和相关文件。
facebookresearch/Motionformer 训练和测试我们提出的 Motionformer 模型。Motionformer 使用提议的轨迹注意在几个视频动作识别基准(例如 Kinetics-400 和Something-Something V2)上实现最先进的结果。
snap-research/NeROIC 来自在线图像集合的神经对象捕获和渲染,两阶段模型将来自不同条件的对象图像作为输入。利用其他最先进方法获取的图像的相机位姿和对象前景蒙版,我们首先通过训练基于 NeRF 的网络优化扫描对象的几何形状并细化相机位姿;然后我们使用我们的法线提取层从几何体(由密度函数表示)计算表面法线;最后,我们的第二阶段模型分解了物体的材料属性,并解决了每个图像的光照条件。
facebookresearch/ConvNeXt 一个完全由标准 ConvNet 模块构建的纯 ConvNet 模型。ConvNeXt 准确、高效、可扩展且设计非常简单。
declare-lab/MELD 用于对话中情绪识别的多模多方数据集
visualcommonsense 视觉常识推理 ( VCR ) 是一项用于认知级视觉理解的新任务和大规模数据集
imageclef.org ImageCLEF 旨在为图像的跨语言注释和检索提供一个评估论坛。由于需要支持来自全球社区的多语言用户访问不断增长的视觉信息体,ImageCLEF 的主要目标是支持视觉媒体分析、索引、分类和检索领域的进步,通过开发必要的用于评估在单语、跨语言和与语言无关的上下文中运行的视觉信息检索系统的基础设施。ImageCLEF 旨在为此类基准测试提供可重用资源。包括:(视觉)信息检索、跨语言信息检索、计算机视觉和模式识别、医学信息学、人机交互等。
studiomoniker/Quickdraw-appendix 25k 阴茎涂鸦数据集
Jittor/JNeRF 基于 Jittor 的 NeRF 基准测试。JNeRF 重新实现了 Instant-ngp 并达到了与原始论文相同的性能。
THUDM/CogVideo 文本到视频生成的代码和模型,只支持简体中文输入。
THUDM/CogView 文本到图像的生成。NeurIPS 2021 论文“CogView: Mastering Text-to-Image Generation via Transformers”
CompVis/stable-diffusion 潜在的文本到图像的扩散模型。凭借其860M UNet和 123M文本编码器,该模型相对轻量级,并在具有至少10GB 的 GPU 上运行。
invoke-ai/InvokeAI 这个版本的 Stable Diffusion 具有流畅的 WebGUI、交互式命令行脚本,它在“dream bot”风格的界面中结合了 text2img 和 img2img 功能,以及多个功能和其他增强功能。可以在 Win、Mac 和 Linux 机器上运行,GPU 卡只有 4 GB 的 RAM。
AUTOMATIC1111/stable-diffusion-webui 稳定的扩散(文本到图像的扩散模型)网页界面
divamgupta/diffusionbee-stable-diffusion-ui Diffusion Bee 是在 M1 Mac 上本地运行 Stable Diffusion 的最简单方法。附带一键安装程序。无需依赖或技术知识。
cmdr2/stable-diffusion-ui 在pc上安装和使用稳定扩散的最简单方式。提供用于从文本提示和图像生成图像的浏览器 UI。只需输入您的文本提示,然后查看生成的图像。
nateraw/stable-diffusion-videos 通过探索潜在空间和文本提示之间的变形来实现稳定扩散(stable diffusion)的视频
kuprel/min-dalle DALL·E Mini 到 PyTorch 的快速、最小的接口。DALL-E是一个可以通过文本描述中生成图像的AI程序。 通过120亿参数版本的GPT-3 Transformer模型来理解自然语言输入并生成相应的图片。可生成现实、现实中不存在的对象。
heejkoo/Awesome-Diffusion-Models 关于扩散模型的资源和论文集
YangLing0818/Diffusion-Models-Papers-Survey-Taxonomy 扩散模型:方法和应用的综合调查
rinongal/textual_inversion 使用个性化文本反转到图像生成 。仅使用用户提供的概念(如对象或样式)的 3-5 张图像,通过学习冻结文本到图像模型的嵌入空间中的新“词”来表示它。 这些“词”可以组合成自然语言的句子,以直观的方式指导个性化创作。
remotion-dev/remotion 使用 React 以编程方式创建视频的框架。
zhegan27/VILLA VILLA:视觉和语言对抗训练 (NeurIPS 2020 Spotlight) 的官方存储库。 目前支持 UNITER 在 VQA、VCR、NLVR2 和 SNLI-VE 上的对抗微调。 使用域内数据的对抗性预训练将很快可用。 VILLA-base 和 VILLA-large 预训练检查点均已发布。
piskelapp/piskel 易于使用的精灵编辑器。 可用于创建精灵、动画、像素艺术。
pencil2d/pencil 制作二维手绘动画的简单、直观的工具。
OpenShot/libopenshot 致力于为全世界提供高质量的视频编辑、动画和播放解决方案。 API 目前支持 C++、Python 和 Ruby。
microsoft/GLIP 将目标检测任务转换为短语定位任务。对待任意一张训练图片,把标签用句号隔开,拼接成一句话。通过这种方式,所有的目标检测数据集都可转化为短语定位数据集。至此,便有了文字-重点区域对(word-region pair)。然后,对文字和图片分别进行编码,获得了文字与图片各自的特征。
jina-ai/discoart DiscoArt 是一种优雅的方式,可以为生成艺术家、AI 爱好者和铁杆开发人员创建引人注目的 Disco Diffusion艺术作品。
olive-editor/olive 适用于 Win、macOS 和 Linux 的免费非线性视频编辑器。
NatronGitHub/Natron 一款免费的开源(GPLv2 许可证)视频合成器,其功能类似于 Adobe After Effects、Foundry 的 Nuke 或 Blackmagic Fusion。 它是可移植的和跨平台的(GNU/Linux、macOS 和 Microsoft Windows)。
patriciogonzalezvivo/glslViewer 基于控制台的 OpenGL 沙盒,无需 UI 即可显示 2D/3D GLSL 着色器。 您绝对可以使用 Python 模块(包括)或任何其他通过标准 POSIX 控制台输入/输出或 OSC 与 glslViewer 来回通信的工具来制作自己的 UI 或包装器。
ossrs/srs SRS是一个简单、高效的实时视频服务器,支持RTMP、WebRTC、HLS、HTTP-FLV、SRT、MPEG-DASH和GB28181。
google-research/jax3d Jax 中用于神经渲染的库,旨在成为一个灵活的 NeRF 生态系统,以支持快速原型设计、轻松协作以及研究代码的发布。
MCG-NJU/VideoMAE 简单高效的视频自监督预训练新范式。提出了极高的掩蔽率 (90%-95%) 和管掩蔽策略,为自监督视频预训练创建具有挑战性的任务。VideoMAE 可以作为未来自监督视频预训练研究的简单但强大的基线。适用于不同规模的视频数据集,在 Kinects-400 上可以达到 87.4%(Kinetics-400是一个大规模,高质量的YouTube视频网址数据集,其中包含各种以人为本的行动。该数据集包含 400 个人类动作类,每个动作至少有 400 个视频剪辑。每个剪辑持续大约 10 秒,并且取自不同的 YouTube 视频。这些动作以人类为中心,涵盖广泛的类别,包括演奏乐器等人与物体的交互,以及握手等人与人的交互。),在 Something-Something V2 (大型的带有标签的记录了人类与日常生活中的一些物体之间的动作数据集)上可以达到 75.4%,在 UCF101 上可以达到 91.3%(UCF-101(2012)包含13,320个视频(共27个小时),101个人类行为类别,如运动、乐器和人物交互等。),在 HMDB51(HMDB51包含51类动作,共有6849个视频,每个动作至少包含51个视频,分辨率320*240,。来自于YouTube,google视频等,共2G) 上可以达到 62.6%。
POSTECH-CVLab/PeRFception 隐式3D表示(即神经辐射场(NeRFs))的最新进展使得以可微分方式进行精确和逼真的3D重建成为可能。
opendilab/InterFuser 使用可解释传感器融合Transformer实现安全增强型自动驾驶
Kuaipedia/Kuaipedia 全球首个大规模多模态短视频百科,以条目、方面、短视频为基本单位。由快首科技与哈工大、科大讯飞合作开发。亿级别多模态短视频百科体系。
Moguri/awesome-panda3d 使用Panda3D(py 3D库)的优秀资源的精选列表
photoprism/photoprism 基于人工智能的去中心化网络照片应用程序。它利用最新技术自动标记和查找图片,而不会妨碍您。您可以在家中、私人服务器或云端运行它。
magicleap/SuperGluePretrainedNetwork 强力胶:使用图神经网络学习特征匹配 。一个图神经网络,与最佳匹配层相结合,经过训练以对两组稀疏图像特征执行匹配。包括 PyTorch 代码和预训练权重,用于在 SuperPoint 关键点和描述符之上运行 SuperGlue 匹配网络。给定一对图像,可以使用此存储库提取图像对中的匹配特征。
neutraltone/awesome-stock-resources 免费图库摄影、视频和插图网站的链接集合
aleju/imgaug 机器学习实验的图像增强。
libvips/libvips 一个需求驱动的水平线程图像处理库。与类似的库相比,libvips 运行速度快,占用内存很少。涵盖算术、直方图、卷积、形态操作、频率过滤、颜色、重采样、统计等。它支持从 8 位 int 到 128 位复数的大量数值类型。影像可以具有任意数量的波段。它支持多种图像格式。
Charmve/computer-vision-in-action 学习闭环《计算机视觉实战演练:算法与应用》中文电子书、源码、读者交流社区 计算机视觉实战演练:算法与应用🌱