Skip to content

精选了千余项目,包括机器学习、深度学习、NLP、GNN、推荐系统、生物医药、机器视觉、前后端开发等内容。

License

Notifications You must be signed in to change notification settings

parety/StarrySky

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 

Repository files navigation

StarrySky

GitHub issues GitHub stars GitHub forks GitHub license

精选了千余项目,包括机器学习、深度学习、NLP、GNN、推荐系统、生物医药、机器视觉等内容。

让更多优秀的项目被人发现,让更多的人感受开源的魅力。

持续更新!欢迎star!😀😀😀

目录

Star数变化

  • 关注者

机器学习与深度学习

  • Coursera-ML-AndrewNg-Notes stars [教程/笔记]吴恩达老师的机器学习课程个人笔记

  • d2l-ai/d2l-zh stars [教程/笔记]《动手学深度学习》:面向中文读者、能运行、可讨论。中英文版被60多个国家的400多所大学用于教学。

  • apachecn/AiLearning stars [教程/笔记]AiLearning: 机器学习 - MachineLearning - ML、深度学习 - DeepLearning - DL、自然语言处理 NLP

  • microsoft/ai-edu [教程/笔记]微软人工智能教育与学习共建社区。由基础教程实践案例实践项目三大模块构成,通过系统化的理论教程和丰富多样的实践案例,帮助学习者学习并掌握人工智能的知识,并锻炼在实际项目中的开发能力。

  • microsoft/Data-Science-For-Beginners [教程/笔记]10 周20 节课,全民数据科学!

  • mli/paper-reading 深度学习经典、新论文逐段精读。包括视频讲解。

  • josephmisiti/awesome-machine-learning 机器学习框架、库和软件的精选列表

  • AMAI-GmbH/AI-Expert-Roadmap 2022年成为人工智能专家的路线图

  • dair-ai/ML-YouTube-Courses 在 YouTube 上发现最新的机器学习/人工智能课程。

  • visenger/awesome-mlops 机器学习操作 (MLOps),可自动执行并加速机器学习生命周期。精选的参考文献列表。

  • fengdu78/lihang-code 《统计学习方法》第二版的代码实现

  • Dod-o/Statistical-Learning-Method_Code 手写实现李航《统计学习方法》书中全部算法

  • ShusenTang/Dive-into-DL-PyTorch 本项目将《动手学深度学习》(Dive into Deep Learning)原书中的MXNet实现改为PyTorch实现。

  • datawhalechina/leedl-tutorial 《李宏毅深度学习教程》,PDF下载

  • ageron/handson-ml2 一系列Jupyter笔记本,引导您使用Scikit-Learn,Keras和TensorFlow 2了解Python中的机器学习和深度学习的基础知识。

  • fengdu78/deeplearning_ai_books deeplearning.ai(吴恩达老师的深度学习课程笔记及资源)

  • GitHub - GokuMohandas/Made-With-ML 了解如何设计、开发、部署和迭代生产级 ML 应用程序。在本课程中,将从实验(设计 + 开发)到生产(部署 + 迭代)。我们将通过激励组件来迭代地做到这一点,这些组件将使我们能够构建可靠的生产系统。

  • kmario23/deep-learning-drizzle 通过从这些令人兴奋的讲座中学习,让自己沉浸在深度学习、强化学习、机器学习、计算机视觉和 NLP

  • cbamls/AI_Tutorial 精选机器学习,NLP,图像识别, 深度学习等人工智能领域学习资料,搜索,推荐,广告系统架构及算法技术资料整理。算法大牛笔记汇总

  • EthicalML/awesome-production-machine-learning 精选的开源库列表,用于部署、监控、版本控制和扩展您的机器学习

  • FavioVazquez/ds-cheatsheets 统治世界的数据科学备忘单列表

  • nndl/nndl.github.io 《神经网络与深度学习》 邱锡鹏著

  • ashishpatel26/500-AI-Machine-learning-Deep-learning-Computer-vision-NLP-Projects-with-code 500个AI机器学习 深度学习 计算机视觉 NLP 代码项目

  • ZuzooVn/machine-learning-for-software-engineers 学习成为机器学习工程师的完整日常计划。

  • NirantK/awesome-project-ideas 机器学习、NLP、视觉、推荐系统项目创意的精选列表

  • Mikoto10032/DeepLearning 深度学习入门教程, 优秀文章

  • chefyuan/algorithm-base 用动画将算法说的通俗易懂

  • MorvanZhou/tutorials 机器学习相关教程

  • rougier/scientific-visualization-book 一本关于使用 python 和 matplotlib 进行科学可视化的开放获取书籍

  • bangoc123/learn-machine-learning-in-two-months 在 2 个月内学习好机器学习所需的知识。

  • ukas/ml-class 专为工程师设计的机器学习课程和教学项目

  • Mohitkr95/Best-Data-Science-Resources 该存储库包含最好的数据科学免费精选资源,可为您提供所有行业驱动的技能和面试准备工具包。

  • academic/awesome-datascience 很棒的数据科学存储库,用于学习和应用现实世界的问题。

  • eugeneyan/applied-ml 关于生产中的数据科学和机器学习的精选论文、文章和博客。

  • eriklindernoren/ML-From-Scratch 从头开始机器学习。机器学习模型和算法的裸骨 NumPy 实现,重点关注可访问性。旨在涵盖从线性回归到深度学习的所有内容。

  • roboticcam/machine-learning-notes 不间断更新的机器学习,概率模型和深度学习的讲义(2000+页)和视频链接

  • donnemartin/data-science-ipython-notebooks 数据科学Python笔记本:深度学习(TensorFlow,Theano,Caffe,Keras),scikit-learn,Kaggle,大数据(Spark,Hadoop MapReduce,HDFS),matplotlib,pandas,NumPy,SciPy,Python essentials,AWS和各种命令行。

  • NLP-LOVE/ML-NLP 机器学习(Machine Learning)、深度学习(Deep Learning)、NLP面试中常考到的知识点和代码实现,也是作为一个算法工程师必会的理论基础知识。

  • tangyudi/Ai-Learn 人工智能学习路线图,整理近200个实战案例与项目,免费提供配套教材,零基础入门,就业实战!包括:Python,数学,机器学习,数据分析,深度学习,计算机视觉,自然语言处理,等热门领域

  • dragen1860/Deep-Learning-with-TensorFlow-book 深度学习入门开源书,基于TensorFlow 2.0案例实战。

  • PKUFlyingPig/cs-self-learning 计算机自学指南深度学习入门开源书,基于TensorFlow 2.0案例实战。

  • 1c7/Crash-Course-Computer-Science-Chinese 计算机速成课 | Crash Course 字幕组 (全40集 2018-5-1 精校完成)

  • mml-book/mml-book.github.io 《机器学习数学》一书的配套网页

  • abmlai/annotated_deep_learning_paper_implementations 神经网络和相关算法的简单 PyTorch 实现的集合。将这些呈现为并排格式化的笔记。我们相信这些将帮助您更好地理解这些算法。

  • yunjey/pytorch-tutorial 深度学习研究人员的 PyTorch 教程

  • PyTorchLightning/PyTorch-lightning 基于Pytorch的轻量高级计算框架,相当于Keras框架。

  • bharathgs/Awesome-pytorch-list github上pytorch相关内容的完整列表,例如不同的模型,实现,帮助程序库,教程等。

  • sgrvinod/Deep-Tutorials-for-PyTorch 使用 PyTorch 自行实现深度学习模型的深入教程。

  • apachecn/pytorch-doc-zh Pytorch 中文文档

  • ELS-RD/kernl 第一个使用 OpenAI Triton 编写的 OSS 推理引擎,这是一种由 OpenAI 设计的新语言,可以更轻松地编写 GPU 内核。每个内核不到200行代码,易于理解和修改。

  • BoltzmannEntropy/interviews.ai 深度学习面试书:数百个完全解决的工作面试问题,来自 AI 的广泛关键主题。

  • ChristosChristofidis/awesome-deep-learning 精选深度学习教程、项目和社区列表。

  • microsoft/AI-For-Beginners Microsoft的 Azure 云倡导者很高兴提供为期 12 周、每节课的人工智能课程。

  • google-research/tuning_playbook 系统地最大化深度学习模型性能的手册。重点是超参数调优的过程。我们涉及深度学习训练的其他方面,例如管道实现和优化,但我们对这些方面的处理并不打算完整。

  • floodsung/Deep-Learning-Papers-Reading-Roadmap 深度学习论文阅读路线图,适合任何渴望学习这项惊人技术的人!

  • scutan90/DeepLearning-500-questions 深度学习500问,以问答形式对常用的概率知识、线性代数、机器学习、深度学习、计算机视觉等热点问题进行阐述,以帮助自己及有需要的读者。 分为18个章节,50余万字。

  • mrdbourke/pytorch-deep-learning 学习用于深度学习的 PyTorch:从零到精通课程的材料。

  • ageron/handson-ml3 一系列Jupyter笔记本,引导您使用Scikit-Learn,Keras和TensorFlow 2了解Python中的机器学习和深度学习的基础知识。

  • girls-in-ai/Girls-In-AI 免费学代码系列:小白python入门、数据分析data analyst、机器学习machine learning、深度学习deep learning、kaggle实战

  • kailashahirwar/cheatsheets-ai 深度学习和机器学习工程师的基本备忘单

  • cbamls/AI_Tutorial 精选机器学习,NLP,图像识别, 深度学习等人工智能领域学习资料,搜索,推荐,广告系统架构及算法技术资料整理。

  • apachecn/pytorch-doc-zh Pytorch 中文文档,PyTorch 是一个针对深度学习, 并且使用 GPU 和 CPU 来优化的 tensor library (张量库)

  • PaddlePaddle/Paddle 『飞桨』核心框架,深度学习&机器学习高性能单机、分布式训练和跨平台部署

  • alibaba/MNN 轻量级的深度神经网络推理引擎

  • Tencent/TNN 移动端高性能、轻量级推理框架,同时拥有跨平台、高性能、模型压缩、代码裁剪等众多突出优势

  • microsoft/nnfusion 灵活高效的深度神经网络(DNN)编译器,可从DNN模型描述生成高性能的可执行文件。

  • apache/incubator-tvm 用于深度学习系统的编译器堆栈。它旨在缩小以生产力为中心的深度学习框架与以性能和效率为重点的硬件后端之间的差距。TVM与深度学习框架一起使用,以提供对不同后端的端到端编译

  • geohot/tinygrad 不到1000行的深度学习框架,麻雀虽小,但五脏俱全,这个深度学习框架使用起来和PyTorch类似

  • karpathy/micrograd 微型标量自动求导引擎,类似PyTorch API的神经网络库

  • Jittor/jittor 基于 JIT 编译和元运算符的高性能深度学习框架。整个框架和元运算符是及时编译的。它使我们能够生成专门针对您的模型的高性能代码。Jittor 还包含丰富的高性能模型库,包括:图像识别、检测、分割、生成、可微渲染、几何学习、强化学习等。

  • wandb/client Weights and Biases 组织和分析机器学习实验 它与框架无关,并且比TensorBoard轻巧。每次您运行带有的脚本时wandb,都会保存您的超参数和输出指标。在训练过程中可视化模型,并轻松比较模型的版本。我们还将自动跟踪您的代码状态,系统指标和配置参数。

  • NUAA-AL/ALiPy 基于Python实现的主动学习工具包

  • facebookresearch/nevergrad 无梯度优化平台

  • yzhao062/combo 用于机器学习模型组合的 Python 工具箱。模型组合可以被认为是整体学习的子任务,并且已被广泛用于诸如Kaggle [3]之类的现实任务和数据科学竞赛中。

  • google/trax 代码更清晰的神经网络代码库

  • Oneflow-Inc/oneflow OneFlow是一个以性能为中心的开源深度学习框架。

  • jonasrauber/eagerpy 编写与PyTorch,TensorFlow,JAX和NumPy本地兼容的代码

  • tensorlayer/TensorLayerX 跨平台开发框架,支持TensorFlow, Pytorch, MindSpore, PaddlePaddle, OneFlow和Jittor,用户不需要修改任何代码即可以运行在各类操作系统和AI硬件上(如Nvidia-GPU 和 Huawei-Ascend),并支持混合框架的开发。

  • borgwang/tinynn 用 Python3 编写的轻量级深度学习框架(用于学习目的)。

  • rushter/MLAlgorithms 机器学习算法

  • MLEveryday/100-Days-Of-ML-Code 100-Days-Of-ML-Code中文版

  • csuldw/MachineLearning csuldw/MachineLearning

  • luwill/machine-learning-code-writing luwill/machine-learning-code-writing

  • geekinglcq/CDCS CDCS 中国数据竞赛优胜解集锦

  • mlpack/mlpack C++ 快速、灵活的机器学习库

  • apple/coremltools 包含用于 Core ML模型转换、编辑和验证的支持工具。

  • tensorflow/ranking TensorFlow中的排名学习

  • scikit-survival 生存分析

  • ShichenXie/scorecardpy Scorecard Development in python, 评分卡

  • lavender28/Credit-Card-Score 申请信用评分卡模型

  • modin-project/modin 通过更改一行代码来扩展加速pandas

  • vaexio/vaex 适用于Python的核外DataFrame,以每秒十亿行的速度可视化和探索大型表格数据

  • cupy/cupy 使用 CUDA 加速类似 NumPy 的 API

  • serge-sans-paille/pythran 将 Python 代码转成 C++ 代码执行 一个 AOT (Ahead-Of-Time - 预先编译) 编译器,大幅度提升性能。

  • RAPIDS Open GPU Data Science RAPIDS 开放 GPU 数据科学库

    • cudf cuDF - GPU DataFrame Library GPU数据表库
    • cuml cuML - RAPIDS Machine Learning Library RAPIDS 机器学习库
    • cugraph cuGraph - RAPIDS Graph Analytics Library RAPIDS 图分析库
    • cusignal cuSignal - RAPIDS Signal Processing Library RAPIDS信号处理库
  • AtsushiSakai/PythonRobotics 包括了机器人设计中常用的定位算法、测绘算法、路径规划算法、SLAM 、路径跟踪算法。

  • sql-machine-learning/sqlflow 连接 SQL 引擎的桥接,与机器学习工具包连接

  • esa/pagmo2 大规模并行优化的科学库 生物启发式算法和进化算法

  • geatpy-dev/geatpy 高性能遗传进化算法工具箱

  • guofei9987/scikit-opt 强大的启发式算法Python模块 遗传算法 粒子群优化 模拟退火 蚁群算法 免疫算法 人工鱼群算法

  • interpretml/interpret 训练可解释的机器学习模型和解释黑匣子系统

  • alexmojaki/heartrate 调试 Python程序执行的简单实时可视化

  • bojone/keras_recompute 通过重计算来节省显存,参考论文《Training Deep Nets with Sublinear Memory Cost》。

  • yuanming-hu/taichi_mpm 带有切割和耦合(CPIC)的高性能MLS-MPM(基于移动最小二乘法的物质点法)求解器

  • pytorch/opacus Opacus是一个库,可以使用不同的隐私训练PyTorch模型。

  • pycaret/pycaret Python中的开源,低代码机器学习库

  • thuml/Transfer-Learning-Library 用于迁移学习的开源且文档齐全的库。它基于具有高性能和友好API的纯PyTorch。当前支持的算法包括:领域对抗神经网络(DANN)深度适应网络(DAN)联合适应网络(JAN)条件域对抗网络(CDAN)最大分类器差异(MCD)Margin Disparity Discrepancy 保证金差异(MDD)

  • jxhe/unify-parameter-efficient-tuning 参数高效迁移学习 (PETL) 方法仅调整少量(额外)参数以使大型预训练模型适应下游任务。

  • FedML-AI/FedML 面向研究的联邦学习库。支持分布式计算,移动/IoT设备训练和模拟

  • bytedance/fedlearner 字节开源联邦机器学习平台,采用的是一套云原生的部署方案。数据存放在HDFS,用MySQL存储系统数据。通过Kubernetes管理和拉起任务。每个Fedlearner的训练任务需要参与双方同时拉起K8S任务,通过Master节点统一管理,Worker建实现通信。以推荐广告业务为例,联邦机器学习平台的广告主和平台方应该各自管理一套模型展示服务和模型训练服务。

  • mit-han-lab/mcunet IoT硬件上精简的深度学习库 Tiny Deep Learning on IoT Devices

  • Aimhubio/Aim 一个超级简单的记录、查找、比较AI实验的库。

  • microsoft/onnxruntime 跨平台深度学习训练和推理机加速器,与深度学习框架,可以兼容TensorFlow、Keras和PyTorch等多种深度学习框架。Open Neural Network Exchange 是用于表示深度学习模型的开放格式,定义了通用运算符、机器学习和深度学习模型的构建块以及通用文件格式,可与各种框架工具和编译器一起使用。

  • microsoft/hummingbird 将训练有素的机器学习模型编译为张量计算,以加快推理速度。 用于将经过训练的传统ML模型编译为张量计算的库。

  • microsoft/EdgeML Microsoft Research India开发的边缘设备提供了机器学习算法。

  • ml-tooling/best-of-ml-python 很棒的机器学习Python库的排名列表。

  • terryyz/PyArmadillo Python 语言的线性代数库,强调易用性。该库旨在提供类似于 Matlab 或者 Octave 的高级语法和功能,使得用户以熟悉且自然的方式表达数学运算。提供了用于矩阵和多维数据集(cube)的对象,以及 200 多个用于处理对象中存储数据的相关函数。所有功能都可以在一个平面结构中访问,并且支持整数、浮点数和复数。通过集成 LAPACK 或者 Intel MKL、OpenBLAS 等高性能替代产品,该库可以提供各种矩阵分解。

  • raminmh/liquid_time_constant_networks 一种能适应实时世界系统的变化的神经网络。神经网络的设计灵感来自生物大脑,设计灵感直接来自秀丽隐杆线虫(C. elegans)。他说:「它的神经系统仅有 302 个神经元,但却可以产生超出预期的复杂动态。」 Liquid 网络的流动性使其能更弹性地应对意料之外的数据或噪声数据。

  • mlech26l/keras-ncp 设计灵感直接来自秀丽隐杆线虫 由感官神经元接收环境信息、而后经过中间神经元,传递给指令神经元进而形成决策信息,最后由动作神经元完成决策的执行并完成动作。

  • skorch-dev/skorch 综合scikit-learn和PyTorch的机器学习库,可以实现sklearn和PyTorch高效兼容。

  • OpenMined/PySyft 用于安全和私有深度学习的Python库。PySyft使用联合学习,差分隐私和加密计算(例如PyTorch和TF中的多方计算 (MPC) 和同态加密 (HE) 将模型训练中的私人数据进行解耦。

  • pyro-ppl/pyro 基于PyTorch作为后端的通用概率编程语言 (PPL)。

  • PytorchLightning/metrics PyTorch原生的函数和度量模块的集合,用于简单的性能评估。可以使用常见的指标,如准确性,召回率,精度,AUROC, RMSE, R²等,或者创建你自己的指标。支持超过25个指标,并不断增加更多通用任务和特定领域的标准(目标检测,NLP等)。

  • teddykoker/torchsort 快速可微分排序算法PyTorch包,配有自定义C ++和CUDA

  • man-group/dtale pandas数据结构的可视化工具

  • google/model_search 帮助研究者自动、高效地开发最佳机器学习模型,谷歌开源了一个不针对特定领域的 AutoML 平台。该平台基于 TensorFlow 构建,非常灵活,既可以找出最适合给定数据集和问题的架构,也能够最小化编程时间和计算资源。

  • neuronika/neuronika 纯Rust的张量和动态神经网络库。

  • matazure/mtensor 一个tensor计算库, 支持cuda的延迟计算

  • e-tony/best-of-ml-rust 一个令人赞叹的Rust机器学习排名表。

  • awslabs/autogluon 为文本、图像、表格数据开发的自动机器学习库(AutoML)。

  • luwill/Machine_Learning_Code_Implementation 机器学习算法的数学推导和纯Python代码实现。

  • ml-tooling/best-of-ml-python 一个令人赞叹的python机器学习排名表,每周更新。

  • thuwyh/InferLight 提高模型的线上推理吞吐量近2.5倍。

  • ContrastiveSR/Contrastive_Learning_Papers 对比学习的相关论文列表。内容包括:计算机视觉、NLP、推荐系统、图模型等方面的应用。

  • Tencent/WeChat-TFCC C++深入学习推理框架。提供以下工具包,便于您开发和部署训练 DL 模型:TFCC深度学习推理库的核心、TFCC 代码生成器、TFCC 运行时。

  • idrl-lab/idrlnet 基于内嵌物理知识神经网络的开源求解框架

  • KaiyuYue/torchshard 马里兰大学帕克分校计算机科学系的研究者开源了一个轻量级的引擎,用于将 PyTorch 张量切片成并行的 shard。当模型拥有大量的线性层(例如 BERT、GPT)或者很多类(数百万)时,TorchShard 可以减少 GPU 内存并扩展训练规模,它具有与 PyTorch 相同的 API 设计。

  • marcotcr/lime LIMELocal Interpretable Model-agnostic Explanations被用作解释机器学习模型。

  • MAIF/shapash 非常炫酷的模型解释性工具包。

  • microsoft/ML-For-Beginners 微软给初学者开源了一份机器学习课程。

  • sfu-db/dataprep Python 库,有助于自动化探索性数据分析过程。它在创建数据分析报告时很有用,它还具有 3 个用于绘制图形、绘制缺失数字和数据相关性的功能。

  • scikit-learn-contrib/hdbscan 用无监督学习来查找数据集的集群聚类或密集区域的工具。主要算法是HDBSCAN。该算法的高性能实现,以及用于分析结果聚类的工具。

  • nvidia/TensorRT C++库,用于对 NVIDIA GPU 和深度学习加速器进行高性能推论。

  • dropreg/R-Drop 填补Dropout缺陷,简单又有效的正则方法。在每个 mini-batch 中,每个数据样本过两次带有 Dropout 的同一个模型,R-Drop 再使用 KL-divergence 约束两次的输出一致。

  • ucbrise/actnn PyTorch的激活压缩训练框架。在同样内存限制下,通过使用 2 bit 激活压缩,可将 batch size 扩大 6-14 倍,将模型尺寸或者输入图片扩大 6-10 倍。

  • softsys4ai/FlexiBO 基于成本感知的多目标优化深度神经网络

  • XuezheMax/apollo Apollo:用于非凸随机优化的自适应参数对角拟牛顿法

  • statsmodels/statsmodels Statsmodels:Python 中的统计建模和计量经济学库。

  • evidentlyai/evidently 在验证或生产监控期间分析机器学习模型的交互式报告。

  • louisfb01/best_AI_papers_2021 按发布日期列出的人工智能最新突破(2021 年)的精选列表,附有清晰的视频说明、更深入文章的链接和代码。

  • DataCanvasIO/DeepTables DeepTables:表格数据的深度学习工具包

  • arogozhnikov/Einops 深度学习操作被彻底改造(用于 pytorch、tensorflow、jax 等). einops(爱因斯坦标记法),让代码可读性更强.

  • haifengl/smile Java和Scala中的快速而全面的机器学习,NLP,线性代数,图形,插值和可视化系统。凭借先进的数据结构和算法,Smile 可提供最先进的性能。

  • wesm/pydata-book Wes McKinney的“Python for Data Analysis”材料和IPython笔记本,由O'Reilly Media出版

  • Visualize-ML/Book3_Elements-of-Mathematics Book_3_《数学要素》 | 鸢尾花书:从加减乘除到机器学习

  • roatienza/Deep-Learning-Experiments 了解深度学习的视频、笔记和实验

  • MingchaoZhu/DeepLearning 该书为《深度学习》(花书) 数学推导、原理剖析与源码级别代码实现

  • aladdinpersson/Machine-Learning-Collection 在此存储库中,您将找到与机器学习相关的教程和项目。我尝试使代码尽可能清晰,目标是用作学习资源和查找问题以解决特定问题的方法。对于大多数人,如果您想要代码的演练,我还在YouTube上做了视频解释。

  • fastai/fastai 一个深度学习库,它提供了高级组件,可以在标准深度学习领域快速轻松地提供最先进的结果,并为研究人员提供可以混合和匹配以构建新方法的低级组件。它旨在做到这两件事,而不会在易用性、灵活性或性能方面做出实质性妥协。这要归功于精心分层的架构,该架构以解耦抽象的形式表达了许多深度学习和数据处理技术的共同底层模式。这些抽象可以通过利用底层Python语言的动态性和PyTorch库的灵活性来简洁明了地表达。

  • rasbt/deeplearning-models 各种深度学习架构、模型和技巧的集合。Jupyter Notebooks中TensorFlow和PyTorch的深度学习架构、模型和技巧的集合。

  • bfortuner/ml-glossary 机器学习术语表

  • fastai/fastbook 这些笔记本介绍了深度学习、fastai 和 PyTorch。fastai 是用于深度学习的分层 API。

  • ZuzooVn/machine-learning-for-software-engineers 学习成为机器学习工程师的完整日常计划。

  • terryum/awesome-deep-learning-papers 被引用最多的深度学习论文 on Oct 19, 2018

  • d2l-ai/d2l-en 交互式深度学习书籍,包含多框架代码、数学和讨论。被斯坦福大学、麻省理工学院、哈佛大学和剑桥大学等 60 个国家的 400 所大学采用。

  • dragen1860/TensorFlow-2.x-Tutorials TensorFlow 2.x版本的教程和示例,包括CNN,RNN,GAN,Auto-Encoders,FasterRCNN,GPT,BERT示例等。 TF 2.0版入门实例代码,实战教程。

  • BayesWitnesses/m2cgen 将 ML 模型转换为零依赖的本机代码(Java、C、Python、Go、JavaScript、Visual Basic、C#、R、PowerShell、PHP、Dart、Haskell、Ruby、F#、Rust)

  • Jack-Cherish/Machine-Learning 机器学习实战(Python3):kNN、决策树、贝叶斯、逻辑回归、SVM、线性回归、树回归

  • Vay-keen/Machine-learning-learning-notes 周志华《机器学习》又称西瓜书是一本较为全面的书籍,书中详细介绍了机器学习领域不同类型的算法(例如:监督学习、无监督学习、半监督学习、强化学习、集成降维、特征选择等),记录了本人在学习过程中的理解思路与扩展知识点,希望对新人阅读西瓜书有所帮助!

  • Yorko/mlcourse.ai 由 OpenDataScience (ods.ai) 领导的开放式机器学习课程,由 Yury Kashnitsky(Yorko)领导。Yury拥有应用数学博士学位和Kaggle竞赛大师级学位,旨在设计一门在理论与实践之间取得完美平衡的ML课程。因此,该课程在讲座中为您提供数学公式,并以作业和 Kaggle 课堂竞赛的形式进行大量练习。目前,该课程处于自定进度模式。

  • lawlite19/MachineLearning_Python 机器学习算法python实现

  • jindongwang/MachineLearning 一些关于机器学习的学习资料与研究介绍

  • dotnet/machinelearning .NET 的开源和跨平台机器学习框架。

  • dustinvtran/ml-videos 机器学习视频资源的集合

  • Visualize-ML/Book4_Power-of-Matrix Book_4_《矩阵力量》 | 鸢尾花书:从加减乘除到机器学习;上架!

特征工程

  • FeatureLabs/featuretools 特征工程工具箱

  • ScienceKot/kydavra 特征筛选工具

  • aerdem4/lofo-importance LOFO(Leave One Feature Out)重要性基于选择的度量计算一组特征的重要性,对于选择的模型,通过迭代地从集合中删除每个特征,并评估模型的性能。

  • imbalanced-learn 解决机器学习中不平衡数据集

  • ResidentMario/missingno 灵活且易于使用的缺失数据可视化和实用程序,可让您快速直观地了解数据集的完整性(或缺乏完整性)。

  • RUCAIBox/Negative-Sampling-Paper 该知识库收录了与负采样方法相关的 100 篇论文,涵盖推荐系统(RS)、计算机视觉(CV)、自然语言处理(NLP)和对比学习(CL)等多个研究领域。

  • haifengl/smile Smile(统计机器智能和学习引擎)是Java和Scala中的快速而全面的机器学习,NLP,线性代数,图形,插值和可视化系统。凭借先进的数据结构和算法,Smile 可提供最先进的性能。

异常检测

参数优化

梯度提升和树模型

  • dmlc/xgboost 可扩展、可移植和分布式梯度提升(GBDT、GBRT 或 GBM)库,适用于 Python、R、Java、Scala、C++ 等。 在单机、Hadoop、Spark、Dask、Flink 和 DataFlow 上运行。

  • microsoft/LightGBM 基于决策树算法的快速、分布式、高性能梯度提升(GBT、GBDT、GBRT、GBM 或 MART)框架,用于排名、分类和许多其他机器学习任务。

  • motefly/DeepGBM 为在线预测任务提炼的深度学习GBDT框架

  • catboost/catboost 一个快速、可扩展、高性能的决策树梯度提升库,用于 Python、R、Java、C++ 的排名、分类、回归和其他机器学习任务。 支持在 CPU 和 GPU 上进行计算。

  • Xtra-Computing/thundergbm ThunderGBM:GPU 上的快速 GBDT 和随机森林

  • GBDT-PL/GBDT-PL 使用分段线性树进行梯度提升

  • mesalock-linux/gbdt-rs MesaTEE GBDT-RS:一个快速且安全的 GBDT 库,支持 Intel SGX 和 ARM TrustZone 等 TEE

  • tensorflow/decision-forests 一组最先进的算法,用于训练、服务和解释 Keras 决策森林模型。

  • kingfengji/gcForest 这是论文“深度森林:走向深度神经网络的替代方案”的官方实现

  • LAMDA-NJU/Deep-Forest Deep Forest 2021.2.1的实现

  • hlamotte/decision-tree 在C++的决策树

  • augboost-anon/augboost 逐步特征增强的梯度提升。

  • DataCanvasIO/HyperGBM 用于表格数据的完整管道 AutoML 工具, 涉及多个梯度提升树模型(GBM),即XGBoost、LightGBM和Catboost。

  • Microstrong0305/WeChat-zhihu-csdnblog-code Regression Tree 回归树 深入理解提升树(Boosting tree)算法 深入理解GBDT回归 GBDT二分类算法 GBDT多分类算法 XGBoost LightGBM CatBoost 深入浅出Word2Vec原理解析 Doc2vec原理解析及代码实践

  • antmachineintelligence/mtgbmcode 提出了多任务梯度提升机 (MT-GBM),这是一种基于 GBDT 的多任务学习方法。MT-GBM 可以根据多任务损失找到共享树结构和拆分分支。

神经网络结构搜索 Neural Architecture Search

分布式机器学习

  • horovod/horovod Uber开源的分布式训练框架。它的发展吸取了Facebook "Training ImageNet In 1 Hour" 与百度 "Ring Allreduce" 的优点,可为用户实现分布式训练提供帮助。

  • dask/dask 用Python编写的,是一个灵活的、开源的并行计算库,提供大规模性能 高级并行性。

  • hpcaitech/ColossalAI 用于大规模并行训练的统一深度学习系统,具有高效并行化技术的集成大规模模型训练系统。可以让您在几行代码内快速开始分布式训练,通过并行化策略、异构内存管理为深度学习任务加速或者节省显存。

  • microsoft/DeepSpeed 深度学习优化库,它使分布式训练变得容易,高效和有效。

  • FMInference/FlexGen 高吞吐量的生成引擎,用于在GPU内存有限的情况下运行大型语言模型。FlexGen允许通过IO高效分载、压缩和大有效批处理大小生成高吞吐量。

  • microsoft/SynapseML 简单和分布式机器学习。基于 Apache Spark 分布式计算框架构建,与 SparkML/MLLib 库共享相同的 API,允许您将 SynapseML 模型无缝嵌入到现有的 Apache Spark 工作流程中。

  • Oneflow-Inc/libai 基于OneFlow的大规模模型训练开源工具箱。支持丰富的并行训练配置,包括但不限于分布式训练、混合精度训练、后向重计算、ZeRO,多样化的训练技巧,同时支持视觉与自然语言处理任务、简单易用,便于上手。

  • Qihoo360/XLearning 支持多种机器学习、深度学习框架调度系统。基于Hadoop Yarn完成了对TensorFlow、MXNet、Caffe、Theano、PyTorch、Keras、XGBoost等常用框架的集成,同时具备良好的扩展性和兼容性。

  • sql-machine-learning/elasticdl Kubernetes原生的深度学习框架,支持容错和弹性调度,支持TensorFlow和PyTorch。

  • kubeflow/kubeflow 用于机器学习操作的云原生平台 - 管道、训练和部署。

  • alibaba/euler 大规模分布式的图学习框架,配合TensorFlow或者阿里内部的XDL等深度学习工具,可以支持数十亿点数百亿边的复杂异构图上进行模型训练。

  • Angel-ML/angel 用于大规模机器学习的灵活而强大的参数服务器。基于参数服务器理念的高性能分布式机器学习和图计算平台。

  • ray-project/ray 提供用于构建分布式应用程序的简单通用API的开源框架。Ray与RLlib(可扩展的强化学习库和Tune(可扩展的超参数调优库)打包在一起。

  • alibaba/Alink Alink是基于Flink的机器学习算法平台,由阿里巴巴计算平台的PAI团队开发。

  • kakaobrain/torchgpipe pytorch的可扩展管道并行性库,可有效地训练大型的,消耗内存的模型。

  • tensorflow/mesh 简化模型并行化 Mesh TensorFlow: Model Parallelism Made Easier

  • uber/fiber 简化AI的分布式计算 该项目是实验性的,API不稳定。

  • petuum/adaptdl 资源自适应深度学习(DL)训练和调度框架。AdaptDL的目标是使分布式DL在动态资源环境(如共享集群和云)中变得轻松高效。

  • learning-at-home/hivemind 一个用于在互联网上训练大型神经网络的库

  • petuum/adaptdl 一个能动态调整并行度的深度神经网络训练框架。它支持多租户集群管理,可以平衡模型训练等待及完成时间,能够提高资源利用率。

  • huggingface/accelerate 一个简单的API,将与多GPUTPU、fp16相关的样板代码抽离了出来,保持其余代码不变。PyTorch 用户无须使用不便控制和调整的抽象类或编写、维护样板代码,就可以直接上手多 GPU 或 TPU。Accelerate 支持的集成包括:CPU 单 GPU 单一节点多 GPU 多节点多 GPU TPU 带有本地 AMP 的 FP16.

  • BaguaSys/bagua 八卦是由快手科技和DS3 Lab共同开发的PyTorch深度学习训练加速框架。目前支持:高级分布式训练算法:用户只需添加几行代码(可选择弹性模式)即可将单个 GPU 上的训练扩展到多 GPU(可能跨多台机器)。

  • facebookresearch/fairscale 用于高性能和大规模训练的 PyTorch 扩展。

  • PKU-DAIR/Hetu 针对大规模和自动化分布式训练的高性能分布式深度学习系统。

  • alibaba/FederatedScope 综合性的联邦学习平台,为学术界和工业界的各种联邦学习任务提供方便的使用和灵活的定制。FederatedScope基于事件驱动的架构,集成了丰富的功能集合,以满足联邦学习日益增长的需求,旨在构建一个易于使用的平台,以安全有效地促进学习。

  • Xtra-Computing/FedTree 基于树的模型的联合学习系统。它的设计目的是高效、有效和安全。目前具有以下特点:梯度提升决策树的联合训练。多核 CPU 和 GPU 上的并行计算。支持同态加密、安全聚合和差分隐私。支持分类和回归。

  • youngfish42/Awesome-Federated-Learning-on-Graph-and-Tabular-Data 图形和表格数据相关论文、框架和数据集的联邦学习。

  • microsoft/PersonalizedFL 面向研究的个性化联邦学习代码库

其他_机器学习与深度学习

  • JuliaLang/julia 用于科学计算的高级、高性能动态语言。

  • vikasverma1077/manifold_mixup 数据增强⽅法,目标是通过插入示例的隐藏状态来学习鲁棒的特征。 我们的方法学习到的表征更具判别性和紧凑性。

  • pytorch/serve 在生产环境中提供、优化和扩展 PyTorch 模型。特色:模型管理 API:通过优化从角色到模型的分配进行多模型管理、推理 API:对批量推理的 REST 和 gRPC 支持、TorchServe 工作流:使用多个相互依赖的模型部署复杂的 DAG、导出模型以进行优化推理:开箱即用的Torchscript,ORT和ONNX,IPEX,TensorRT,FasterTransformer、性能指南:内置支持优化、基准测试和分析 PyTorch 和 TorchServe 性能、富有表现力的处理程序:一种富有表现力的处理程序体系结构,通过开箱即用的支持,支持对用例的推理变得微不足道、指标 API:通过 Prometheus 导出、自定义指标和 PyTorch 分析器支持对系统级指标的开箱即用支持

  • PaddlePaddle/PaddleHub 基于PaddlePaddle的真棒预训练模型工具包。(400+模型,包括图像,文本,音频,视频和跨模态,易于推理和服务)

  • streamlit/streamlit 用 Python 构建数据应用程序的最快方法

  • huggingface/optimum 性能优化工具,AI 生态发展迅速,越来越多的专用硬件及其优化每天都在涌现,可实现在目标硬件上训练和运行模型的最高效率。

  • mosaicml/composer 将神经网络训练速度提高 7 倍 更低的成本和更高的准确度更快地训练神经网络。我们已经实现了两打以上的加速方法,只需几行代码即可应用于您的训练循环,或与我们的内置 Trainer 一起使用。

  • China-UK-ZSL/Resources_for_KZSL KZSL:对知识驱动的零样本学习进行基准测试.用于零样本图像分类 ( ZS-IMGC)、零样本关系提取 ( ZS-RE) 和零样本知识图 (KG) 完成 ( ZS-KGC )

  • alibaba/Elastic-Federated-Learning-Solution 经过百亿规模工业级场景实战验证的跨互联网企业信息合作的联邦学习框架。EFLS有以下核心特性:云原生支持自定义特征工程——大规模高可用;首开水平聚合,层次聚合双模型——更强大更便捷。

  • wuba/dl_inference 通用深度学习推理工具,可在生产环境中快速上线由TensorFlow、PyTorch、Caffe框架训练出的深度学习模型。

  • activeloopai/Hub AI的数据集格式。为深度学习构建、管理和可视化数据集。将数据实时流式传输到PyTorch/TensorFlow并对其进行版本控制。

  • gradio-app/gradio 在 3 分钟内使用 Python 为您的机器学习模型创建 UI

  • PKU-DAIR/mindware 一个高效的开源 AutoML 系统,用于自动化机器学习生命周期,包括特征工程、神经架构搜索和超参数调整。

  • DataCanvasIO/Hypernets 通用自动化机器学习框架,用于简化特定领域中端到端 AutoML 工具包的开发。包括 tensorflow、keras、pytorch 等深度学习框架,以及 sklearn、lightgbm、xgboost 等机器学习库。引入了抽象的搜索空间表示,同时兼顾了超参数优化和神经架构搜索(NAS)的要求,使 Hypernets 成为能够适应各种自动化机器学习需求的通用框架。

  • RadeonOpenCompute/ROCm ROCm - 用于 HPC 和超大规模 GPU 计算的开源平台

  • PaddlePaddle/Paddle-Lite 飞桨多端多平台高性能深度学习推理引擎.支持多平台:涵盖 Android、iOS、嵌入式 Linux 设备、Windows、macOS 和 Linux 主机。支持多种语言:包括 Java、Python、C++。轻量化和高性能:针对移动端设备的机器学习进行优化,压缩模型和二进制文件体积,高效推理,降低内存消耗

  • nvdla/hw NVIDIA 深度学习加速器 (NVDLA) 是一种免费的开放式架构,它促进了设计深度学习推理加速器的标准方法。凭借其模块化架构,NVDLA 具有可扩展性、高度可配置性,并且旨在简化集成和可移植性。

  • lowRISC/opentitan OpenTitan是一个开源硅信任根 (RoT) 项目。使企业、平台提供商和芯片制造商的硅 RoT 设计和实现更加透明、可信和安全,以生产高质量的开放 IP 以作为全功能产品的实例化。制造商越来越多地开始关注防篡改处理器(或其中一部分),通常被称为“安全区域(Secure Enclave)”,以阻止各种攻击。芯片中使用“信任根(Root of Trust)”,在系统每次启动时进行加密检查,确保没有任何内容被恶意篡改。如果发现问题,安全区域会阻止计算机启动。

  • scikit-hep/awkward-1.0 使用类似 NumPy 的习语来处理类似 JSON 的数据。

  • alibaba/Curvature-Learning-Framework 基于Tensorflow的非欧深度学习框架。实现了多种非欧流形、非欧算子和黎曼优化器,基于与Tensorflow相似的底层接口,可以便捷的迁移模型空间而不改变模型细节。背景:欧氏空间不可能无损表征树、环结构,然而双曲(负曲率)、球面(正曲率)空间无损表征。由于对结构性强的如无尺度网络、层次数据、环状数据等的优良表征能力,非欧深度学习逐渐应用到各个领域并展示出优越性,包括链接预测、推荐系统等。

  • facebookresearch/bitsandbytes 用于 8 位优化器和量化例程的库。

  • openai/triton OpenAI的Triton是一种类 Python 的开源编程语言。能够高效编写 GPU 代码。它可以用不到 25 行代码写出与 cuBLAS 性能相匹配的 FP16 矩阵乘法内核。此外,使用 Triton 成功生成比同类实现效率高 2 倍的内核。

  • nebuly-ai/nebullvm 易于使用的库,可利用最先进的优化技术促进 AI 推理。利用多种优化技术(深度学习编译器、量化、稀疏性、蒸馏等),以确定在特定硬件上执行 AI 模型的最佳方式。可以在不损失性能的情况下将您的模型加速 2 到 10 倍,如果为超低延迟和更轻的模型牺牲准确度/精度,则可加速至 30 倍.

  • baifanxxx/awesome-active-learning 很棒的主动学习精选列表。主动学习是机器学习的特殊情况,它可以与专家进行交互(或其他信息源),再使用输出的新样本进行学习。

  • 4paradigm/OpenMLDB 一个开源机器学习数据库,它提供了一个计算一致特征的特征平台,用于训练和推理。

  • scikit-learn-contrib/MAPIE 用于估计预测间隔的 scikit-learn 兼容模块。

  • 4paradigm/AutoX 高效的 automl 工具,针对具有表格数据的数据挖掘任务。

  • dair-ai/ml-visuals 包含图形和模板,重复使用和自定义以改进您的科学写作。

  • mindsdb/mindsdb 使用 SQL语法,在数据库和数据仓库启用机器学习工作流。

  • kaidic/LDAM-DRW 使用标签分布感知边际损失学习不平衡数据集

  • Jianf-Wang/RSG 可以在训练过程中生成稀有类样本,并且可以与任何骨干网络相结合。RSG 仅用于训练阶段,因此在测试阶段不会给骨干网带来额外的负担。

  • ZhiningLiu1998/mesa 设计元知识驱动的采样器解决类别不平衡问题

  • YyzHarry/imbalanced-regression 深度不平衡回归(DIR)旨在从具有连续目标的不平衡数据中学习,解决某些区域的潜在缺失数据,并推广到整个目标范围。

  • dataease/dataease 开源的数据可视化分析工具,帮助用户快速分析数据并洞察业务趋势,从而实现业务的改进与优化。DataEase 支持丰富的数据源连接,能够通过拖拉拽方式快速制作图表,并可以方便的与他人分享。

  • google/tensorstore 用于读取和写入大型多维数组的库。

  • ahkarami/Deep-Learning-in-Production 有关在生产中部署基于深度学习的模型的有用说明和参考。

  • bentoml/BentoML ML模型服务框架.创建部署和扩展机器学习服务变得容易。

  • iterative/dvc Data 版本控制、用于数据和模型的 Git、机器学习实验管理

  • bokeh/bokeh 浏览器中的交互式数据可视化,来自 Python

  • nterpretml/interpret 适合可解释的模型。 解释黑盒机器学习。

  • Guang000/Awesome-Dataset-Distillation 数据集蒸馏是合成一个小数据集的任务,使得在其上训练的模型在原始大数据集上实现高性能。 数据集蒸馏算法将要蒸馏的大型真实数据集(训练集)作为输入,并输出一个小的合成蒸馏数据集,该数据集通过在单独的真实数据集(验证/测试集)上在该蒸馏数据集上训练的测试模型进行评估。 一个好的小型蒸馏数据集不仅对数据集理解有用,而且具有各种应用(例如,持续学习、隐私、神经架构搜索等)。

  • TimDettmers/bitsandbytes PyTorch 的 8 位 CUDA 函数。具有混合精度分解的 8 位矩阵乘法;LLM.int8() 推理;8 位优化器:Adam、AdamW、RMSProp、LARS、LAMB(节省 75% 的内存);稳定嵌入层:通过更好的初始化和规范化;提高稳定性 8 位量化:分位数、线性和动态量化;快速分位数估计:比其他算法快 100 倍

  • ydataai/ydata-profiling 从 pandas DataFrame 对象创建 HTML 分析报告

  • fbdesignpro/sweetviz 用一行代码可视化和比较数据集、目标值和关联。

  • AutoViML/AutoViz 使用一行代码自动可视化任何大小的任何数据集。

  • pola-rs/polars 速度极快的 DataFrames 库,使用 Apache Arrow Columnar Format 作为内存模型在 Rust 中实现。

  • facebookincubator/AITemplate Python 框架,可将神经网络渲染为高性能 CUDA/HIP C++ 代码。 专门用于 FP16 TensorCore(NVIDIA GPU)和 MatrixCore(AMD GPU)推理。

  • salesforce/OmniXAI 用于可解释 AI (XAI) 的 Python 机器学习库,提供全向可解释 AI 和可解释机器学习功能,以解决实践中解释模型做出的决策时的许多痛点。

  • MegEngine/MegCC 一个运行时超轻量,高效,移植简单的深度学习模型编译器

  • microsoft/Semi-supervised-learning 统一的半监督学习基准,可应用于人脸识别、语音识别和音频分类

  • polyaxon/traceml 用于机器学习/数据跟踪、可视化、可解释性、漂移检测和仪表板的引擎。

  • dabl/dabl 数据分析基线库,当前主要侧重于探索性可视化和预处理。

  • Speedml/speedml 一个Python包,用于加速启动机器学习项目。

  • TimDettmers/bitsandbytes 用于 PyTorch 的 8 位 CUDA 函数。具有混合精度分解的 8 位矩阵乘法;8位优化器:Adam,AdamW,RMSProp,LARS,LAMB,Lion(节省75%的内存);稳定嵌入层:通过更好的初始化和规范化提高稳定性;8 位量化:分位数、线性和动态量化、快速分位数估计:比其他算法快 100 倍。

  • yassouali/awesome-semi-supervised-learning 最新和精选的令人敬畏的半监督学习论文,方法和资源列表。未标记的数据可能相对容易收集,但很少有方法可以使用它们。半监督学习通过使用大量未标记的数据以及标记的数据来构建更好的分类器来解决此问题。由于半监督学习需要更少的人力并且具有更高的准确性,因此它在理论和实践中都非常有趣。

  • vespa-engine/vespa 开放的大数据服务引擎。开放的大数据服务引擎 - 在服务时存储、搜索、组织和对大数据进行机器学习推理。

  • ctgk/PRML 实现Bishop的书“模式识别和机器学习”中描述的算法的Python代码

  • slundberg/shap 一种博弈论方法,用于解释任何机器学习模型的输出。SHAP(SHapley Additive exPlanations)是一种博弈论方法,用于解释任何机器学习模型的输出。它将最优信用分配与局部解释联系起来,使用博弈论中的经典Shapley值及其相关扩展(有关详细信息和引用,请参阅论文)。虽然SHAP可以解释任何机器学习模型的输出,但我们已经为树集成方法开发了一种高速精确算法(请参阅我们的Nature MI论文)。XGBoost,LightGBM,CatBoost,scikit-learn和pyspark tree模型支持快速C++实现。

  • Baiyuetribe/paper2gui 让每个人都简单方便的使用前沿人工智能技术。一款面向普通人的 AI 桌面 APP 工具箱,免安装即开即用,已支持 40+AI 模型,内容涵盖 AI 绘画、语音合成、视频补帧、视频超分、目标检测、图片风格化、OCR 识别等领域。支持 Windows、Mac、Linux 系统。

  • zjhellofss/KuiperInfer 带你从零实现一个高性能的深度学习推理库

  • huggingface/datasets 最大的 ML 模型即用型数据集中心,提供快速、易用和高效的数据处理工具

  • NVIDIA/DeepLearningExamples 按模型组织的最先进的深度学习脚本 - 易于训练和部署,在企业级基础架构上具有可重现的准确性和性能。最新 NVIDIA 示例。

  • xorbitsai/xorbits 一个开源计算框架,可以轻松扩展数据科学和机器学习工作负载 - 从数据预处理到调优、训练和模型服务。Xorbits 可以利用多核或 GPU 来加速单台机器上的计算,或者横向扩展到数千台机器,以支持处理数 TB 的数据以及训练或为大型模型提供服务。

  • plotly/dash 下载量最大,最值得信赖的Python框架,用于构建ML和数据科学Web应用程序。

  • trekhleb/homemade-machine-learning 流行的机器学习算法的Python示例,并解释了交互式Jupyter演示和数学

  • MorvanZhou/tutorials 莫烦Python 机器学习相关教程

  • rougier/numpy-100 100 个 numpy 练习(含解决方案)

  • fastai/numerical-linear-algebra 用于计算线性代数课程 fast.ai Jupyter 笔记本的免费在线教科书

  • numba/numba 开源的、NumPy 感知的 Python 优化编译器,由 Anaconda, Inc. 赞助。它使用 LLVM 编译器项目从 Python 语法生成机器代码。Numba 可以编译一个以数字为中心的 Python 子集,包括许多 NumPy 函数。此外,Numba 还支持循环的自动并行化、GPU 加速代码的生成以及 ufuncs 和 C 回调的创建。

  • lanpa/tensorboardX PyTorch的张量板(以及Chainer,MXNET,Numpy等)。使用简单的函数调用编写张量板事件。

  • swyxio/ai-notes 软件工程师了解新 AI 开发速度的说明。用latent.space 编写和产品头脑风暴的数据存储,但已清理 /Resources 文件夹下的规范引用。

  • tensorflow/tfjs WebGL 加速的 JavaScript 库,用于训练和部署 ML 模型。

  • aws/sagemaker-python-sdk 用于在 Amazon SageMaker 上训练和部署机器学习模型的库

  • ggerganov/ggml 用于机器学习的张量库,用 C 语言编写、16 位浮点支持、整数量化支持(4 位、5 位、8 位等)、自动区分、ADAM和L-BFGS优化器、针对苹果芯片进行了优化、在x86架构上利用AVX / AVX2内部函数、在 ppc64 架构上利用 VSX 内部函数、无第三方依赖关系、运行时内存分配为零

  • probml/pyprobml Kevin Murphy的“概率机器学习”一书的Python代码

  • rasbt/python-machine-learning-book “Python Machine Learning (1st edition)” 一书代码存储库和信息资源

  • huggingface/candle Rust 的极简主义 ML 框架,专注于性能(包括 GPU 支持)和易用性。

  • ashleve/lightning-hydra-template PyTorch Lightning + Hydra。一个非常用户友好的 ML 实验模板。

NLP自然语言处理

Transformer库与优化

  • huggingface/transformers 支持Pytorch、TensorFlow和JAX的最先进的机器学习Transformers库。提供了数以千计的预训练模型,支持100多种语言的文本分类、信息抽取、问答、摘要、翻译、文本生成。它的宗旨让最先进的 NLP 技术人人易用。

  • jadore801120/attention-is-all-you-need-pytorch PyTorch 实现的Transformer模型在“注意力就是你所需要的一切”。

  • adapter-hub/adapter-transformers HuggingFace 的 Transformers 的友好分支,将适配器添加到 PyTorch 语言模型。可用作 HuggingFace 的直接替代品,并定期同步新的上游更改。

  • microsoft/DeBERTa 注意力分散的增强解码的BERT,使用了BERT和RoBERTa模型,显着提高了预训练的效率和下游任务的性能。

  • pytorch/fairseq Python的Facebook AI Research Sequence-to-Sequence包。

  • ml-jku/hopfield-layers NLP 领域里大热的 Transformer,其网络更新规则其实是和 Hopfield 网络在连续状态下是相同的。Transformer 中的这种注意力机制其实等价于扩展到连续状态的 modern Hopfield 网络中的更新规则。作者来自奥地利林茨大学、挪威奥斯陆大学,与 Jürgen Schmidhuber 合著 LSTM 的 Sepp Hochreiter 也是作者之一。

  • laiguokun/Funnel-Transformer Transformer优化,一种新的自我注意模型,可以将隐藏状态的序列逐渐压缩为较短的状态,从而降低了计算成本。

  • mit-han-lab/hardware-aware-transformers 用于高效自然语言处理的硬件感知型Transformers.实现高达3倍的加速和3.7倍的较小模型尺寸,不会降低性能。

  • mit-han-lab/lite-transformer 具有长距离短距离注意的Lite transformer

  • allenai/longformer 用于长文档的类似BERT的模型

  • Tencent/TurboTransformers 在 CPU 和 GPU 上进行Transformer推断的快速且用户友好的运行库。

  • idiap/fast-transformers Pytorch实现的快速Transformer库

  • bytedance/lightseq 高效的序列处理与生成库,提供 Bert, GPT, Transformer,beam search, diverse beam search, topp/topk sampling

  • google-research/bigbird 基于稀疏注意力(随机注意力机制+局部注意力机制+全局注意力机制)的transformer,它将基于transformer的模型(例如 BERT)扩展到更长的序列。 由于能够处理更长的上下文,BigBird 极大地提高了各种 NLP 任务(例如问答和摘要)的性能。

  • lucidrains/performer-pytorch 一个高效的线性广义注意力框架(generalized attention framework),允许基于不同相似性度量(核)的一类广泛的注意力机制。该框架通过谷歌的新算法 FAVOR+(Fast Attention Via Positive Orthogonal Random Features)来实现,后者能够提供注意力机制的可扩展低方差、无偏估计,这可以通过随机特征图分解(常规 softmax-attention)来表达。该方法在保持线性空间和时间复杂度的同时准确率也很有保证,也可以应用到独立的softmax运算。此外,还可以和可逆层等其他技术进行互操作。

  • microsoft/fastformers 实现Transformers在CPU上223倍的推理加速 它能对基于Transformer的模型在各种NLU任务上实现高效的推理时间性能。论文FastFormers的作者表明,利用知识蒸馏、结构化剪枝和数值优化可以大幅提高推理效率。我们表明,这种改进可以达到200倍的加速,并在22倍的能耗下节省超过200倍的推理成本。

  • mit-han-lab/lite-transformer 轻量级Transformer,注意力长短搭配 长依赖和短依赖的剥离,并引入卷积来捕捉短依赖,总体思想和Transformer之自适应宽度注意力有点类似。文章中发现低层次上的注意力都比较短,层次越高,注意力的所关注的依赖越长。

  • ThilinaRajapakse/simpletransformers 用于分类、NER、QA、语言建模、语言生成、T5、多模态和会话AI的transformer

  • cloneofsimo/RealFormer-pytorch 通过在Transformer架构上进行改造来提升BERT训练效果,具体为:使用attention残差机制改造Transformer。1、realformer在标签数量较少的分类任务上有一定的提升效果,提升的幅度与数据集和任务难度有关,一般越难的任务提升的幅度越大。2、realformer在标签数量达到一定的数值时,其效果便会大打折扣,在某些数据集上甚至会无法学习。

  • openai/sparse_attention 稀疏Attention

  • sacmehta/delight 提出了一个更深更轻的Transformer,DeLighT,它的性能与Transformer相似,甚至更好,平均少了2到3倍的参数。

  • BSlience/transformer-all-in-one 记录了学习Transformer过程中的一些疑问和解答,并且实现Transformer的全过程。

  • mlpen/Nystromformer 利用了 Nyström 方法来近似标准的Attention。

  • xuanqing94/FLOATER 基于连续动态系统学习更加灵活的位置编码

  • ELS-RD/transformer-deploy Hugging Face Transformer 亚毫秒推理和部署到生产环境

  • lucidrains/x-transformers 一个简单但完整的全注意力转换器,具有来自各种论文的一组有希望的实验特征 Full encoder / decoder 、Decoder-only (GPT-like) 、Encoder-only (BERT-like) 、Image -> caption 。

  • lucidrains/FLASH-pytorch 线性时间的Transformer变体

  • NVIDIA/FasterTransformer Transformer相关优化,包括BERT、GPT 。提供了一个脚本和配方来运行高度优化的基于转换器的编码器和解码器组件,它由 NVIDIA 测试和维护。可以带来性能加速。

  • HazyResearch/flash-attention 快速且节省内存的精确注意力

  • NetEase-FuXi/EET 针对Transformer-based大模型和长序列场景的高性能pytorch推理插件。高性能:设计高度优化的CUDA内核。灵活:提供包括op api、model api和pipelines应对不同需求。 使用: 几行代码即可完成。适配主流ai框架,包括fairseq和transformers。bert模型整体性能加速1.2x到7.x倍,gpt模型整体性能加速2.x到7.x倍。

  • NVIDIA/transformer-ls 将原始 Transformer 的全部自注意力替换为考虑长期和短期相关性的有效注意力。每个查询都关注分段滑动窗口中的标记以捕获短期相关性,以及动态投影特征以捕获长期相关性。为了对齐原始特征、投影特征向量的范数并提高聚合的效率,使用两组层归一化对原始特征向量和投影特征向量进行归一化。

  • thuml/Flowformer 任务通用的线性复杂度Transformer 。在图论中的经典网络流(Flow network)模型中,“守恒”(Conservation)是一个重要现象,即每个节点的流入量等于流出量。受到“固定资源情况下,必定引起竞争”的启发,通过网络流视角重新分析经典注意力机制中的信息流动,并通过守恒性质将竞争引入注意力机制设计,以避免平凡注意力问题。

  • alipay/Pyraformer 用于长期时间序列建模和预测的低复杂度金字塔注意。

  • NVIDIA/Megatron-LM 由 NVIDIA 的应用DL研究团队开发的大型、强大的transformer。开发了高效、模型并行(张量、序列和流水线)和多节点预训练,基于 Transformer 的模型(例如 GPT、BERT 和 T5)使用混合精度。

  • facebookresearch/bit 鲁棒二值化多次蒸馏Transformer

  • Tongjilibo/bert4torch 优雅的pytorch transformers库

  • cmhungsteve/Awesome-Transformer-Attention 包含视觉转换器和注意力机制(Vision Transformer&Attention)的综合论文列表,包括论文,代码和相关网站。

BERT优化

  • google-research/bert Bidirectional Encoder Representations from Transformers 来自Transformers的双向编码器表示法

  • google-research/ALBERT 用于语言表达自我监督学习的Lite BERT

  • bojone/bert-of-theseus BERT 模型压缩方法 ,theseus(忒修斯之船 如果忒修斯的船上的木头被 逐渐替换,直到所有的木头都不是原来的木头,那这艘船还是原来的那艘船吗?),将原始大模型切分为多个大模块,固定大模型权重,训练时随机替换为小模块,充分训练后,将小模型继续微调。

  • brightmart/albert_zh 使用TensorFlow 进行自我监督学习语言表示的Lite Bert的实现预训练的汉语模型

  • bojone/bert4keras 更清晰、更轻量级的keras版bert,提供丰富的应用例子。

  • codertimo/BERT-pytorch 谷歌AI 2018 BERT pytorch实现。Google AI的BERT论文显示了各种NLP任务(新的17个NLP任务SOTA)的惊人结果,包括在SQuAD v1.1 QA任务上优于人类F1分数。本文证明了基于Transformer(自注意力)的编码器可以作为先前语言模型的替代方法,并采用适当的语言模型训练方法。

  • huawei-noah/Pretrained-Language-Model 华为诺亚方舟实验室开发的预训练语言模型及其相关优化技术NEZHA是一种经过预训练的中文语言模型,可以在多项中文NLP任务上实现最先进的性能TinyBERT是一种压缩的BERT模型,推理时可缩小7.5倍,加快9.4倍

  • ymcui/MacBERT MacBERT是一种改进的BERT,具有新颖的M LM校正预训练任务,它减轻了预训练和微调的差异。我们建议使用类似的词来进行掩蔽,而不是使用在微调阶段从未出现过的 [MASK] 令牌进行掩蔽。通过使用基于 word2vec (Mikolov et al., 2013) 相似度计算的Synonyms 工具包 (Wang and Hu, 2017)获得相似词。如果选择 N-gram 进行掩码,我们将单独找到相似的单词。在极少数情况下,当没有相似词时,我们会降级为使用随机词替换。

  • Lisennlp/TinyBert 基于华为的TinyBert进行修改的,简化了数据读取的过程,方便我们利用自己的数据进行读取操作。

  • epfml/collaborative-attention 整合多头注意力,任何经过预训练的注意力层重新配置为协作注意力层。

  • ZhuiyiTechnology/WoBERT 以词为基本单位的中文BERT(Word-based BERT)

  • autoliuweijie/FastBERT 具有自适应推断时间的自蒸馏BERT pip install fastbert

  • alexa/bort 论文 Optimal Subarchitecture Extraction for BERT. “ BERT的最佳子体系结构提取”的代码。Bort是用于BERT架构的最佳子集,它是通过对神经架构搜索应用完全多项式时间近似方案(FPTAS)提取的。 Bort的有效(即不计算嵌入层)大小是原始BERT大型体系结构的5.5%,是净大小的16%。它在CPU上也比基于BERT的速度快7.9倍,并且比体系结构的其他压缩变体和某些非压缩变体性能更好。与多个公共自然语言理解(NLU)基准上的BERT-large相比,它的平均性能提高了0.3%至31%。

  • valuesimplex/FinBERT 基于 BERT 架构的金融领域预训练语言模型

  • yitu-opensource/ConvBert ConvBERT,通过全新的注意力模块,仅用 1/10 的训练时间和 1/6 的参数就获得了跟 BERT 模型一样的精度。依图研发团队从模型结构本身的冗余出发,提出了一种基于跨度的动态卷积操作,并基于此提出了 ConvBERT 模型。

  • wtma/CharBERT 字符敏感的预训练语言模型 通过结合字符级别和词级别的信息实现了更为全面的输入编码,同时,结合 RNN 和 CNN 的优势,基本上 CNN,RNN,Transformer 都使用上了,体现了新老研究成果的结合在一定程度上能进一步提升方法的性能。

  • Sleepychord/CogLTX 将BERT应用于长文本CogLTX遵循一种特别简单直观的范式,即抽取关键的句子=>通过BERT得到答案的两步流程。

  • ShannonAI/service-streamer 服务流媒体BERT服务,每秒处理1400个句子的BERT服务.

  • Sleepychord/CogLTX 可将当前类似BERT的预训练语言模型应用于长文本。使用动态规划算法将长文本划分为文本块集合;使用MemRecall对原长句中的子句进行打分:从而选择出分数最高的子句组成 再进行训练,这样一来的话,COGLTX相当于使用了了两个bert,MemRecall中bert就是负责打分,另一个bert执行原本的NLP任务。

  • bojone/BERT-whitening 简单的线性变换(白化)操作,就可以达到BERT-flow的效果。

  • thunlp/ERNIE 用知识图谱增强 BERT 的预训练效果

      1. 对于抽取并编码的知识信息,研究者首先识别文本中的命名实体,然后将这些提到的实体与知识图谱中的实体进行匹配。研究者并不直接使用 KG 中基于图的事实,相反他们通过知识嵌入算法(例如 TransE)编码 KG 的图结构,并将多信息实体嵌入作为 ERNIE 的输入。基于文本和知识图谱的对齐,ERNIE 将知识模块的实体表征整合到语义模块的隐藏层中。
      1. 与BERT类似,采用了带Mask的语言模型,以及预测下一句文本作为预训练目标。除此之外,为了更好地融合文本和知识特征,研究者设计了一种新型预训练目标,即随机 Mask 掉一些对
  • ShannonAI/ChineseBert 融合字形与拼音信息的中文Bert预训练模型

  • alibaba/AliceMind/LatticeBERT Leveraging Multi-Granularity Representations in Chinese Pre-trained Language Models 利用多粒度的词格信息(word lattice),相对字级别的模型取得了性能提升。

  • Langboat/Mengzi 孟子预训练模型 轻量级但更强大,对部署和工业落地更友好的模型。

  • huawei-noah/DynaBERT dynamic BERT 可以通过选择自适应宽度和深度来灵活地调整网络大小,从而得到一个尺寸可变的网络。首先通过知识蒸馏的方法将teacher BERT的知识迁移到有自适应宽度的子网络student  DynaBERTw中,然后再对DynaBERTw进行知识蒸馏得到同时支持深度自适应和宽度自适应的子网络DynaBERT。

  • microsoft/LoRA 大型语言模型的低秩适应。 冻结原始权重的同时学习成对的秩分解矩阵来减少可训练参数的数量。降低了适用于特定任务的大型语言模型的存储需求,并在部署期间实现了高效的任务切换,所有这些都不会引入推理延迟。在 GLUE 基准上获得与完全微调相当或更好的结果,同时只训练和存储一小部分参数。

  • guillaume-be/rust-bert Rust-native 最先进的自然语言处理模型和管道。 Hugging Face 的 Transformers 库的端口,使用 tch-rs crate 和 rust-tokenizers 预处理。 支持多线程标记化和GPU推理。 公开了模型基础架构、特定于任务的头和随时可用的管道。

  • volcengine/veGiantModel 字节跳动应用ML团队的基于torch的高效训练库。 使巨型模型(例如GPT、BERT和T5)训练变得简单高效。 建立在 Megatron 和 DeepSpeed 之上,通过集成高效通信库BytePs并提供定制的管道分区来提高通信效率。

  • extreme-bert/extreme-bert 可加速 BERT 在自定义数据集上的预训练和微调。

预训练模型

  • THUDM/GLM 一种预训练的通用语言模型,具有自回归空白填充目标,可以根据各种自然语言理解和生成任务进行微调。

  • dbiir/UER-py 一个用于对通用语料进行预训练并对下游任务进行微调的工具包。提供了非常丰富的模型库。包括:中文RoBERTa、基于词的中文RoBERTa、中文GPT-2预训练模型(通用、古诗词、对联、歌词、文言文)、中文T5预训练模型、中文RoBERTa下游任务微调模型(JD full 情感分类 、JD binary 情感分类 、Dianping 情感分类、Ifeng 新闻主题分类、Chinanews 新闻主题分类 、CLUENER2020 NER 、抽取式问答)等。

  • OpenBMB/BMInf BMInf (Big Model Inference) 是一个用于大规模预训练语言模型(PLM)推理阶段的低资源工具包。最低支持在NVIDIA GTX 1060单卡运行百亿大模型。在此基础上,使用更好的gpu运行会有更好的性能。模型能力覆盖文本补全、文本生成与对话场景。文本生成能力大幅提高。目前支持下列模型:

    • CPM2.1. CPM2.1是CPM2 [1] 的升级版本。拥有110亿参数的通用中文预训练语言模型。基于CPM2,CPM2.1新增了一个生成式的预训练任务并基于持续学习范式进行训练。CPM2.1比CPM2具有更好的生成能力。
    • CPM1. CPM1 [2] 是拥有26亿参数的生成式中文预训练语言模型。CPM1的模型架构与GPT [4] 类似,它能够被应用于广泛的自然语言处理任务,如对话、文章生成、完形填空和语言理解。
    • EVA. EVA [3] 是有着28亿参数的中文预训练对话模型。EVA在很多对话任务上表现优异,尤其是在多轮人机交互对话任务上。
  • CyberZHG/keras-xlnet XLNet的非官方实现。

  • hwchase17/langchain 通过可组合性使用大型语言模型构建应用程序 基于 OPENAI 的 GPT3 等大语言模型设计一系列便于集成到实际应用中的接口,降低了在实际场景中部署大语言模型的难度

  • IDEA-CCNL/Fengshenbang-LM Fengshenbang-LM(封神榜大模型)是IDEA研究院认知计算与自然语言研究中心主导的大模型开源体系,成为中文认知智能的基础设施。包括了自然语言理解(NLU),自然语言生成(NLG)和自然语言转换(NLT)任务。CHID(成语填空)、TNEWS(新闻分类)超过人类,CHID(成语填空)、CSLDCP(学科文献分类)、OCNLI(自然语言推理)单任务第一,刷新小样本学习记录。

  • ymcui/Chinese-XLNet 面向中文的XLNet预训练模型

  • microsoft/unilm UniLM-NLP及更高版本的统一语言模型预训练

    • layoutlm 多模态文档理解预训练模型LayoutLM 2.0,模型首先将文本、图像、布局三种模态的输入转换成向量表示,然后再交给编码器网络,最终输出的表示向量可以供下游任务使用。下游任务:表单理解、票据理解、复杂布局长文档理解、文档图像分类、视觉问答。
  • YunwenTechnology/Unilm UniLM模型既可以应用于自然语言理解(NLU)任务,又可以应用于自然语言生成(NLG)任务。论文来自微软研究院。模型虽然强大,但微软并没有开源中文的预训练模型。因此云问本着开源之前,将我们预训练好的中文unilm_base模型进行开源。

  • ymcui/Chinese-ELECTRA 中文ELECTRA预训练模型 其中ELECTRA-small模型可与BERT-base甚至其他同等规模的模型相媲美,而参数量仅为BERT-base的1/10

  • THUDM/GLM-130B 开放的双语(英汉)双向密集模型,1300亿参数,使用通用语言模型(GLM)进行预训练。 支持单台A100(40G * 8)或V100(32G * 8)服务器上具有130B参数的推理任务。 通过 INT4 量化,降低到 4 * RTX 3090(24G),而性能几乎没有下降。 截至 2022 -7-3 ,已接受了超过 4000 亿个文本标记(中文和英文各 200B)的训练。

  • alibaba/EasyTransfer 自然语言处理的迁移学习工具。主要特性:预训练语言模型工具,丰富且高质量的预训练模型库 BERT, ALBERT, RoBERTa, T5, etc,丰富且易用的NLP应用 如文本匹配、分本分类、机器阅读理解MRC,自动化的知识蒸馏,易用且高效的分布式训练。

  • microsoft/unilm/layoutlm 多模态预训练模型 LayoutLM 2.0,不仅考虑了文本和页面布局信息,还将图像信息融合到了多模态框架内。下游任务微调:表单理解 票据理解 复杂布局长文档理解 文档图像分类 视觉问答

  • google-research/byt5 ByT5:通过预先训练的字节到字节模型迈向无令牌的未来.ByT5 是 mT5 模型的无标记器扩展。 我们的 ByT5 模型不像大多数其他预训练语言模型(BERT、XLM-R、T5、GPT-3)那样使用子词词汇表,而是直接在 UTF-8 字节上运行,无需任何文本预处理。 除了降低系统复杂性之外,我们发现参数匹配的 ByT5 模型在一系列任务中与 mT5 具有竞争力,并且在涉及嘈杂文本或对拼写和发音敏感的任务上优于 mT5。 此 repo 可用于重现 ByT5 论文中的实验。

  • sunyilgdx/NSP-BERT 利用句子级别(sentence-level) 的预训练任务 NSP (下一句预测,Next Sentence Prediction) 来实现不同的NLP下游任务, 例如 单句分类(single sentence classification), 双句分类(sentence pair classification), 指代消解(coreference resolution), 完形填空(cloze-style task), 实体链接(entity linking), 实体类型识别(entity typing).

  • thunlp/OpenPrompt Prompt-learning 是将预训练语言模型应用于下游NLP任务的最新范式,它使用文本模板修改输入文本并直接使用 PLM 执行预训练任务。 该库提供了一个标准、灵活和可扩展的框架来部署即时学习管道。 OpenPrompt支持直接从Huggingface Transformer加载PLM。将来,我们还将支持其他库实现的 PLM。

  • google-research/flan 微调语言模型是零样本学习器

  • PaddlePaddle/ERNIE ERNIE 家族各种预训练模型的官方实现,涵盖语言理解与生成、多模态理解与生成等主题。

  • airaria/TextPruner 用于预训练语言模型的基于 PyTorch 的模型修剪工具包.它提供了低成本免训练的方法,通过去除冗余神经元来减小模型大小并加快模型推理速度。在 TextPruner 中,共有三种剪枝模式:词汇剪枝变压器剪枝管道剪枝

  • Tencent/PatrickStar 提供更大、更快、更环保的预训练模型,并为所有人普及人工智能。PatrickStar 的内存管理支持将模型的当前计算部分以外的所有内容卸载到 CPU 以节省 GPU。此外,在扩展到多个 GPU 时,基于块的内存管理对于集体通信非常有效。通过异构训练(DeepSpeed Zero Stage 3 也使用它),PatrickStar 可以充分利用 CPU 和 GPU 内存,这样您就可以使用更少的 GPU 来训练更大的模型。

  • ymcui/PERT 提出了一种基于乱序语言模型的预训练模型,在不引入掩码标记[MASK]的情况下自监督地学习文本语义信息。PERT在部分中英文NLU任务上获得性能提升,但也在部分任务上效果较差,请酌情使用。

  • THUDM/P-tuning-v2 P-tuning v2 对预训练变压器的每一层输入应用连续提示。深度提示调整增加了连续提示的容量,并缩小了跨各种设置微调的差距,特别是对于小型模型和艰巨的任务。将文本生成的prefix-tuning技术适配到NLU任务。Prompting技术火爆NLP社区,其将预训练模型从Fine-tuning范式带入Prompt-Engineering时代。Promp最初由人工设计,自然语言提示本身十分脆弱,而且从优化角度无法达到最优。为了解决问题发展出了可学习的Prompt,而P-tuning v2在实际上就是Prefix-tuning,在Prefix部分,每一层transformer的embedding输入需要被tuned。在不同规模大小的LM模型上,P-tuning v2能与精调(Fine-tuning)方法的表现比肩,有时甚至更好。

  • EleutherAI/gpt-neox 基于 DeepSpeed 库的 GPU 上模型并行自回归转换器(autoregressive transformers)的实现。目前基于 NVIDIA 的威震天语言模型,并已通过 DeepSpeed 的技术以及一些新颖的优化进行了增强。希望在此过程中训练和开源 175B 参数 GPT-3 复制。

  • OpenBMB/BMTrain 高效的大型模型训练工具包,可用于训练具有数百亿参数的大型模型。 它可以以分布式方式训练模型,同时保持代码像单机训练一样简单。

  • microsoft/CodeBERT 针对编程语言的预训练模型,在Py、Java、JS、PHP、Ruby、Go的 NL-PL 对上进行预训练的多编程语言模型。

  • clue-ai/PromptCLUE 大规模多任务Prompt预训练中文开源模型。千亿中文token上大规模预训练,累计学习1.5万亿中文token,亿级中文任务数据上完成训练,训练任务超过150+。比base版平均任务提升7个点+;具有更好的理解、生成和抽取能力,并且支持文本改写、纠错、知识图谱问答。

  • BlinkDL/RWKV-LM 具有 Transformer 级 LLM 性能的 RNN。它可以像 GPT(可并行化)一样直接训练。因此,它结合了 RNN 和 Transformer 的优点——出色的性能、快速推理、节省 VRAM、快速训练、“无限”ctx_len 和自由句子嵌入。

  • FlagOpen/FlagEmbedding 可以将任何文本映射到低维密集向量,该向量可用于检索、分类、聚类或语义搜索等任务。它也可以用于LLM的矢量数据库。

文本分类

  • kk7nc/Text_Classification 一项文本分类算法的调查

  • cnn_multilabel_classification 基于TextCNN和Attention的多标签分类

  • ilivans/tf-rnn-attention Tensorflow实现文本分类任务的关注机制。

  • skdjfla/toutiao-text-classfication-dataset 中文文本分类数据集 共38.2万条,分布于15类中。

  • xiaoqian19940510/text-classification-surveys 文本分类资源汇总,包括深度学习文本分类模型,如SpanBERT、ALBERT、RoBerta、Xlnet、MT-DNN、BERT、TextGCN、MGAN、TextCapsule、SGNN、SGM、LEAM、ULMFiT、DGCNN、ELMo、RAM、DeepMoji、IAN、DPCNN、TopicRNN、LSTMN 、Multi-Task、HAN、CharCNN、Tree-LSTM、DAN、TextRCNN、Paragraph-Vec、TextCNN、DCNN、RNTN、MV-RNN、RAE等,浅层学习模型,如LightGBM 、SVM、XGboost、Random Forest、C4.5、CART、KNN、NB、HMM等。介绍文本分类数据集,如MR、SST、MPQA、IMDB、Ye…

  • 649453932/Chinese-Text-Classification-Pytorch 中文文本分类,TextCNN,TextRNN,FastText,TextRCNN,BiLSTM_Attention,DPCNN,Transformer,基于pytorch,开箱即用。

  • 649453932/Bert-Chinese-Text-Classification-Pytorch 使用Bert,ERNIE,进行中文文本分类

  • SanghunYun/UDA_pytorch Unsupervised Data Augmentation with BERT 一种半监督学习方法,可在多种语言和视觉任务上实现SOTA结果。仅用20个标记的示例,UDA的性能就优于之前在25,000个标记的示例上训练的IMDb上的SOTA。

  • TextCNN与ALBERT分类效果的实践 详解小样本短文本多分类-对比TextCNN与ALBERT分类效果的实践(附Pytorch代码)

  • GT-SALT/MixText 文本半监督方法MixText 提出一种全新文本增强方式——TMix,在隐式空间插值,生成全新样本。对未标注样本进行低熵预测,并与标注样本混合进行TMix。MixText可以挖掘句子之间的隐式关系,并在学习标注样本的同时利用无标注样本的信息。超越预训练模型和其他半监督方法

  • beyondguo/label_confusion_learning 利用标签之间的混淆关系,提升文本分类效果。利用标签信息时能够充分考虑标签之间的重叠或者依赖关系。

  • AIRobotZhang/STCKA 基于知识图谱的文本分类.将每个短文本与其在KB中的相关概念相关联,将概念信息作为先验知识整合到深度神经网络中。

  • ShannonAI/Neural-Semi-Supervised-Learning-for-Text-Classification 在大规模通用领域预训练的前提下,更好地利用大规模领域内无标注语料与标注语料,从而最大限度地提升模型效果.足量的领域内语料U使模型不需要再在通用领域语料上预训练;无论是采用预训练还是自训练的方式,都可以显著提升模型效果,二者结合可以得到最佳结果;当领域内标注数据D较小的时候,在伪平行数据D'上训练、再在D上微调可以提升更多的效果;当D更大的时候,在D和D'上联合训练取得的效果更好。

  • xmu-xiaoma666/External-Attention-pytorch 17篇注意力机制 PyTorch 实现

  • DunZhang/LM-MLC 基于完型填空(模板)的多标签分类算法.

  • bojone/r-drop 使用r-drop机制实验了中文文本分类、文本生成任务,有提升。

  • BUPT-GAMMA/CompareNet_FakeNewsDetection 与知识比较:使用外部知识进行图神经假新闻检测 (ACL 2021)

  • pangwong/pytorch-multi-label-classifier pytorch 实现的多标签分类分类器

  • xuyige/BERT4doc-Classification 如何微调 BERT 进行文本分类

  • timoschick/pet 该存储库包含“利用小样本文本分类和自然语言推理的完形填空题”的代码.介绍了模式利用训练 (PET),这是一种半监督训练程序,可将输入示例重新表述为完形填空式短语。在低资源环境中,PET 和 iPET 显着优于常规监督训练、各种半监督基线甚至 GPT-3,尽管需要的参数减少 99.9%。PET 的迭代变体 (iPET) 训练多代模型,甚至可以在没有任何训练数据的情况下使用。

  • YerevaNN/warp ACL'2021 论文 WARP Cyclone Word-level Adversarial ReProgramming 的代码。 在 SuperGLUE 少样本文本分类上优于“GPT-3”。提出了一种基于对抗性重编程的替代方法,它是自动扩展提示模板生成的早期工作。而且参数量少了好多个数量级。

  • whatissimondoing/CoG-BART 对比度和生成使BART成为很好的对话情感识别器

  • hiyouga/Dual-Contrastive-Learning 双重对比学习。 通过在同一空间内同时学习输入样本的特征和分类器的参数,为监督分类任务提出了一种新颖的对比学习框架。

  • thunlp/KnowledgeablePromptTuning 将知识整合到 Prompt Verbalizer 中进行文本分类

  • zhouj8553/FlipDA 提供了一种基于 T5 和翻转标签自训练的自动数据增强方法。 我们在 FewGLUE 上对其进行评估,并提高其性能。

文本摘要

  • xcfcode/Summarization-Papers 文本摘要论文总结

  • abisee/pointer-generator 使用指针生成器网络进行汇总

  • AIKevin/Pointer_Generator_Summarizer 指针生成器网络:具有关注,指向和覆盖机制的Seq2Seq,用于抽象性摘要。 tensorflow 2.0

  • kjc6723/seq2seq_Pointer_Generator_Summarizer 中文会话中生成摘要总结的项目 tensorflow 2.0

  • steph1793/Pointer_Transformer_Generator 指针生成器网络 tensorflow 2.0

  • magic282/NeuSum 通过共同学习评分和选择句子进行神经文本摘要

  • dmmiller612/bert-extractive-summarizer BERT易于使用的提取文本摘要

  • nju-websoft/NEST 输入知识图谱的基于联合编码的弱监督神经实体摘要方法

  • bojone/SPACES 端到端的长本文摘要模型(法研杯2020司法摘要赛道)

  • xcfcode/Summarization-Papers 文本摘要论文列表,包括各种主题。

  • yym6472/ms_pointer_network 用多来源Pointer Network的产品标题摘要方法.从两个信息来源:原始商品标题和知识信息knowledge中抽取信息,然后将二者进行综合得到最后的结果。

  • FeiSun/ProductTitleSummarizationCorpus Dataset for CIKM 2018 paper "Multi-Source Pointer Network for Product Title Summarization" 用于产品标题摘要的多源指针网络

  • jiacheng-ye/kg_one2set 解决关键词生成任务,给一篇源文档(比如论文的摘要),关键词预测任务就是预测出一些表达文档重点信息的关键词,或者更准确的说是关键短语。提出了模型SetTrans,其特点是能够预测更多、更准确而且重复率更低的关键词集合。并行预测,在 inference 效率上是Transfomer的6.44倍。

  • MaartenGr/keyBERT 一种最小且易于使用的关键字提取技术,它利用BERT嵌入来创建与文档最相似的关键字和关键字短语。

  • xcfcode/PLM_annotator 探索对话总结的 DialoGPT

  • RowitZou/topic-dialog-summ 具有显着性感知主题建模的客户服务的面向主题的口语对话摘要。数据集是从阿里巴巴客户服务中心收集的。所有对话都是在客户和服务代理之间进行的普通话来电。脱敏数据可在 Google Drive百度盘(提取码:t6nx)上获得。

  • maszhongming/MatchSum 背景: 传统抽取式摘要模型都是基于句子级提取的,即未考虑句子间关系,对所有句子逐个打分,取topN的句子为摘要。主要贡献:考虑句子间的关系,通过候选句间的组合句来抽取摘要;基于摘要与原文档在语义上应该有较大匹配度的考量,本文提出了基于候选句间的组合句与原文档的相似度来判断文档摘要的模型.对六个摘要提取数据集进行分析,验证了句子级得分高的摘要并不是摘要级得分最高的。如果仅以句子级,容易产生pearl-summary, 即虽然句子得分较低,但其实是较好的摘要,作者称为沧海遗珠。

  • nlpyang/PreSumm 基于BERT的文档级编码器,该编码器能够表达文档的语义,并获得文档的句子表示。并分别提出了抽取式和生成式的摘要模型。

  • nlpyang/BertSum BERT的简单变体 用于抽取式文本摘要,主要是选择性抽取文本中的句子作为最后的摘要。这个任务最大的问题是如何获得每个句子向量,然后把向量用于二分类,判断去留。而 BERT 原模型只能生成单句的句子向量,或者句子对的。(1)将文档中每句话前加 [CLS]后加[SEP],然后输入 BERT,而每个[CLS]对应的位置就是每句的句向量。(2)为了进一步增加句之间的互动,在 BERT 之上加了一层 Transformer 的 Summarization Layer,只输入每个[CLS]的向量,最后输出预测当前句是否保留,finetune。

  • OpenSUM/CPSUM 半监督抽取式摘要的噪声注入一致性训练和熵约束伪标签

  • krystalan/ClidSum 一个跨语言对话摘要的基准数据集

文本生成、文本对话

类ChatGPT大语言对话模型及数据

  • Significant-Gravitas/Auto-GPT 使用GPT4来自动完成目标任务。一个实验性开源应用程序,展示了 GPT-4 语言模型的功能。该程序由 GPT-4 驱动,将 LLM 的“思想”链接在一起,以自主实现您设定的任何目标。作为 GPT-4 完全自主运行的首批示例之一,Auto-GPT 突破了 AI 的可能性界限。

  • facebookresearch/llama facebook LLaMA 模型的推理代码。最新版本的 Llama 现在可供各种规模的个人、创作者、研究人员和企业访问,以便他们可以负责任地进行实验、创新和扩展他们的想法。

  • facebookresearch/llama-recipes facebook LLaMA 模型的示例和手册

  • THUDM/ChatGLM2-6B 开源中英双语对话模型 ChatGLM-6B 的第二代版本,在保留了初代模型对话流畅、部署门槛较低等众多优秀特性的基础之上,引入了如下新特性:更强大的性能:全面升级了基座模型。ChatGLM2-6B 使用了 GLM 的混合目标函数,经过了 1.4T 中英标识符的预训练与人类偏好对齐训练,评测结果显示,相比于初代模型,MMLU(+23%)、CEval(+33%)、GSM8K(+571%) 、BBH(+60%)等数据集上的性能取得了大幅度的提升,在同尺寸开源模型中具有较强的竞争力。更长的上下文:基于 FlashAttention 技术,我们将基座模型的上下文长度(Context Length)由 ChatGLM-6B 的 2K 扩展到了 32K,并在对话阶段使用 8K 的上下文长度训练。对于更长的上下文,我们发布了 ChatGLM2-6B-32K 模型。LongBench 的测评结果表明,在等量级的开源模型中,32K 有着较为明显的竞争优势。更高效的推理:基于 Multi-Query Attention 技术,有更高效的推理速度和更低的显存占用:在官方的模型实现下,推理速度相比初代提升了 42%,INT4 量化下,6G 显存支持的对话长度由 1K 提升到了 8K。更开放的协议:权重对学术研究完全开放,在填写问卷进行登记后亦允许免费商业使用。

  • THUDM/ChatGLM-6B 开源的、支持中英双语的对话语言模型,基于 General Language Model (GLM) 架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。 ChatGLM-6B 使用了和 ChatGPT 相似的技术,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答。

  • THUDM/GLM-130B GLM-130B是一个开放的双语(英汉)双向密集模型,具有1300亿个参数,使用通用语言模型(GLM)算法进行预训练。它旨在支持单个 A100 (40G * 8) 或 V100 (32G * 8) 上具有 130B 参数的推理任务。通过 INT4 量化,硬件可以进一步降低到具有 4 * RTX3090 24G 的单个服务器,几乎没有性能下降。

  • QwenLM/Qwen-7B 由阿里云提出的Qwen-7B(通义千问-7B)聊天和预训练大语言模型的官方存储库。使用高质量的预训练数据进行训练。我们已经在超过2.2万亿个代币的自建大规模高质量数据集上预训练了Qwen-7B。该数据集包括纯文本和代码,涵盖广泛的领域,包括一般领域数据和专业领域数据。更好地支持语言。我们的分词器基于超过 150K 个代币的大词汇表,与其他分词器相比更有效。它对多种语言都很友好,并且有助于用户进一步微调Qwen-7B以扩展对某种语言的理解。支持 8K 上下文长度。Qwen-7B和Qwen-7B-Chat都支持8K的上下文长度,这允许输入长上下文。支持插件。Qwen-7B-Chat 是用插件相关的对齐数据训练的,因此它能够使用工具,包括 API、模型、数据库等,并且能够作为代理进行游戏。

  • baichuan-inc/Baichuan2 百川智能推出的新一代开源大语言模型,采用 2.6 万亿 Tokens 的高质量语料训练。在多个权威的中文、英文和多语言的通用、领域 benchmark 上取得同尺寸最佳的效果。本次发布包含有 7B、13B 的 Base 和 Chat 版本,并提供了 Chat 版本的 4bits 量化。所有版本对学术研究完全开放。同时,开发者通过邮件申请并获得官方商用许可后,即可免费商用。

  • baichuan-inc/Baichuan-13B 由百川智能继 Baichuan-7B 之后开发的包含 130 亿参数的开源可商用的大规模语言模型,在权威的中文和英文 benchmark 上均取得同尺寸最好的效果。本次发布包含有预训练 (Baichuan-13B-Base) 和对齐 (Baichuan-13B-Chat) 两个版本。Baichuan-13B 有如下几个特点:更大尺寸、更多数据:Baichuan-13B 在 Baichuan-7B 的基础上进一步扩大参数量到 130 亿,并且在高质量的语料上训练了 1.4 万亿 tokens,超过 LLaMA-13B 40%,是当前开源 13B 尺寸下训练数据量最多的模型。支持中英双语,使用 ALiBi 位置编码,上下文窗口长度为 4096。同时开源预训练和对齐模型:预训练模型是适用开发者的『 基座 』,而广大普通用户对有对话功能的对齐模型具有更强的需求。因此本次开源我们同时发布了对齐模型(Baichuan-13B-Chat),具有很强的对话能力,开箱即用,几行代码即可简单的部署。更高效的推理:为了支持更广大用户的使用,我们本次同时开源了 int8 和 int4 的量化版本,相对非量化版本在几乎没有效果损失的情况下大大降低了部署的机器资源门槛,可以部署在如 Nvidia 3090 这样的消费级显卡上。开源免费可商用:Baichuan-13B 不仅对学术研究完全开放,开发者也仅需邮件申请并获得官方商用许可后,即可以免费商用。

  • imoneoi/openchat 使用不完善的数据推进开源语言模型。OpenChat是一系列基于监督微调(SFT)的开源语言模型。我们利用 ~80k ShareGPT 对话与条件反射策略和加权损失,尽管我们的方法很简单,但仍实现了卓越的表现。我们的最终愿景是开发一个高性能、开源和商用的大型语言模型,并且我们正在不断取得进展。

  • lonePatient/awesome-pretrained-chinese-nlp-models 高质量中文预训练模型集合。包括:基础大模型、对话大模型、多模态对话大模型、大模型评估基准、开源模型库平台、开源数据集库、中文指令数据集。

  • Vision-CAIR/MiniGPT-4 MiniGPT-4:使用高级大型语言模型增强视觉语言理解 提供与 Vicuna-7B 对齐的预训练 MiniGPT-4!演示 GPU 内存消耗现在可以低至 12GB。

  • ggerganov/llama.cpp 纯C/C++中LLaMA模型的CPU推理。2023年FacebookResearch 开源了大规模语言模型LLaMA,包含从 7B 到 65B 的参数范围,训练使用多达 1.4万亿 tokens 语料。LLaMA-13B在大部分基准测评上超过了GPT3-175B,LLaMA可能是目前公开模型权重中效果最好的语言模型。

  • juncongmoo/pyllama LLaMA - 在单个 4GB GPU 中运行 LLM

  • tatsu-lab/stanford_alpaca 斯坦福大学的LLaMA羊驼模型。用2K数据微调模型,构建和共享一个遵循指令的LLaMA模型。

  • LC1332/Chinese-alpaca-lora 在LLaMA、斯坦福大学Alpaca、Alpaca LoRA、Cabrita、Japanese-Alpaca-LoRA的基础上,调试了一个中国LLaMA模型。同时使用ChatGPT API将alpaca_data. json翻译为中文,再进行微调。

  • tloen/alpaca-lora 在消费者硬件上使用指令来微调LLaMA模型。使用低秩自适应(LoRA)重现斯坦福大学Alpaca结果的代码。我们提供了一个与 text-davinci-003质量相似的Instruct模型,可以在Raspberry Pi上运行(用于研究),并且代码很容易扩展到 13b , 30b 和 65b模型。

  • mymusise/ChatGLM-Tuning 平价的chatgpt实现方案, 基于ChatGLM-6B + LoRA

  • OpenLMLab/MOSS 支持中英双语和多种插件的开源对话语言模型,moss-moon系列模型具有160亿参数。开源数据: moss-002-sft-data: 多轮对话数据,覆盖有用性、忠实性、无害性三个层面,包含由text-davinci-003生成的约57万条英文对话和59万条中文对话。moss-003-sft-data: 多轮对话数据,基于MOSS-002内测阶段采集的约10万用户输入数据和gpt-3.5-turbo构造而成,更加符合真实用户意图分布,包含更细粒度的有用性类别标记、更广泛的无害性数据和更长对话轮数,约含110万条对话数据。moss-003-sft-plugin-data: 插件增强的多轮对话数据,包含支持搜索引擎、文生图、计算器、解方程等四个插件在内的约30万条多轮对话数据。moss-003-pm-data: 偏好数据,包含在约18万额外对话上下文数据及使用moss-moon-003-sft所产生的回复数据上构造得到的偏好对比数据。

  • baichuan-inc/baichuan-7B 百川开发的大规模7B预训练语言模型。一个开源可商用的大规模预训练语言模型。基于 Transformer 结构,在大约 1.2 万亿词元上训练的 70 亿参数模型,支持中英双语,上下文窗口长度为 4096。在标准的中文和英文 benchmark(C-Eval/MMLU)上均取得同尺寸最好的效果。

  • InternLM/InternLM InternLM开源了70亿和200亿参数基础模型,以及针对实际场景和训练系统量身定制的聊天模型。开源的轻量级训练框架,旨在支持模型预训练,而无需广泛的依赖关系。通过单个代码库,它支持在具有数千个 GPU 的大规模集群上进行预训练,并在单个 GPU 上进行微调,同时实现卓越的性能优化。InternLM 在 1024 个 GPU 上训练期间实现了近 90% 的加速效率。InternLM-20B选择了更深的架构,深度设置为60层。这超过了使用32或40层的传统7B和13B型号。当参数有限时,增加层数可以增强模型的整体功能。此外,与InternLM-7B相比,InternLM-20B使用的预训练数据经过了更高质量的清理,并补充了丰富的知识数据,旨在增强理解和推理能力。因此,它在理解、推理、数学和编程能力方面表现出显着的改进——所有这些都测试了语言模型的技术熟练程度。

  • InternLM/InternLM-techreport 书生·浦语由上海人工智能实验室和商汤科技(同等贡献)与香港中大、复旦和上海交大联合开发的多语言大语言模型。具有104B参数的多语言基础语言模型。在具有 1.6T 代币的大型语料库上进行预训练,并具有多阶段渐进过程,然后进行微调以符合人类偏好。我们还开发了一个名为Uniscale-LLM的训练系统,用于高效的大型语言模型训练。对多项基准的评估表明,InternLM在知识理解、阅读理解、数学和编码等多个方面都取得了最先进的表现。凭借如此全面的能力,InternLM在综合考试中取得了出色的表现,包括MMLU,AGIEval,C-Eval和高考-Bench,而无需借助外部工具。在这些基准测试中,InternLM 不仅明显优于开源模型,而且与 ChatGPT 相比,还获得了卓越的性能。此外,InternLM在理解中文和中国文化方面表现出出色的能力,这使其成为支持面向中文的语言应用的合适基础模型,并提供了跨各种知识领域和任务的基准和示例。

  • clue-ai/ChatYuan 用于问答、结合上下文做对话、做各种生成任务,包括创意性写作,也能回答一些像法律、新冠等领域问题。它基于PromptCLUE-large结合数亿条功能对话多轮对话数据进一步训练得到。

  • Xwin-LM/Xwin-LM 旨在为大型语言模型开发和开源对齐技术,包括监督微调(SFT),奖励模型(RM),拒绝采样,来自人类反馈的强化学习(RLHF)等。我们的第一个版本建立在Llama2基本模型的基础上,在AlpacaEval上排名TOP-1。值得注意的是,它是第一个在此基准测试上超过 GPT-4 。

  • CStanKonrad/long_llama 一种大型语言模型,能够处理256k个甚至更多的长上下文。建立在OpenLLaMA的基础上,并使用聚焦变压器(FoT)方法进行微调。聚焦转换器:上下文缩放的对比训练 (FoT) 提供了一种简单的方法,使语言模型能够处理可能包含数百万个令牌的上下文,同时在明显更短的输入上进行训练。FoT 允许注意力层的子集访问(键、值)对的内存缓存,以扩展上下文长度。FoT的独特之处在于其训练程序,借鉴了对比学习。具体来说,将内存注意层暴露给相关和不相关的键(如来自不相关文档的负样本)。这种策略激励模型区分与语义上不同的值相关的键,从而增强它们的结构。反过来,这使得推断有效上下文长度远远超出训练中看到的范围成为可能。

  • lm-sys/FastChat 令人印象深刻的 GPT-4 开放式聊天机器人 Vicuna:一个以 90% ChatGPT 质量的开源聊天机器人。

  • project-baize/baize-chatbot 使用 LoRA 训练的开源聊天模型.它使用通过让 ChatGPT 与自己聊天生成的 100k 对话。还使用羊驼的数据来提高其性能。已发布了 7B、13B 和 30B 模型。

  • wenge-research/YaYi 为客户打造安全可靠的专属大模型,基于大规模中英文多领域指令数据训练的 LlaMA 2 & BLOOM 系列模型,由中科闻歌算法团队研发。在百万级人工构造的高质量领域数据上进行指令微调得到,训练数据覆盖媒体宣传、舆情分析、公共安全、金融风控、城市治理等五大领域,上百种自然语言指令任务。

  • AI4Finance-Foundation/FinGPT 以数据为中心的 FinGPT。开源开放金融!革新

  • EleutherAI/gpt-neox 在GPU上训练大规模语言模型。基于 NVIDIA 的威震天语言模型,并已通过 DeepSpeed 的技术以及一些新颖的优化进行了增强。目标是使这个存储库成为一个集中且可访问的地方,以收集用于训练大规模自回归语言模型的技术,并加速对大规模训练的研究。

  • visual-openllm/visual-openllm 文心一言的开源版,基于 ChatGLM + Visual ChatGPT + Stable Diffusion

  • hikariming/alpaca_chinese_dataset 人工精调的中文对话数据集和一段chatglm的微调代码

  • michael-wzhu/Chinese-LlaMA2 META最新发布的LlaMA2的汉化版! (完全开源可商用)

  • ymcui/Chinese-LLaMA-Alpaca 中文LLaMA模型和经过指令精调的Alpaca大模型。这些模型在原版LLaMA的基础上扩充了中文词表并使用了中文数据进行二次预训练,进一步提升了中文基础语义理解能力。同时,在中文LLaMA的基础上,本项目使用了中文指令数据进行指令精调,显著提升了模型对指令的理解和执行能力。

  • Facico/Chinese-Vicuna 一个中文低资源的llama+lora方案,结构参考alpaca

  • lucidrains/PaLM-rlhf-pytorch 在PaLM架构上实现RLHF(人工反馈强化学习),类似ChatGPT

  • liltom-eth/llama2-webui 从任何地方(Linux/Windows/Mac)在GPU或CPU上本地运行任何Llama 2。使用“llama2-wrapper”作为生成代理/应用程序的本地llama2后端。

  • togethercomputer/OpenChatKit 一个强大的开源基础,可以为各种应用程序创建专用和通用聊天机器人。该工具包包括一个指令调优的语言模型,一个审核模型,和一个可扩展的检索系统,用于包括来自自定义存储库的最新响应。

  • LianjiaTech/BELLE 开源中文对话大模型,现阶段基于开源预训练大语言模型(如BLOOM),针对中文做了优化,模型调优仅使用由ChatGPT生产的数据(不包含任何其他数据)。开放了数据集:Stanford Alpaca 生成的中文数据集1M + 0.5M;0.25M数学指令数据集和0.8M多轮任务对话数据集。

  • carbonz0/alpaca-chinese-dataset alpaca中文指令微调数据集

  • cryscan/multilingual-share 为了推进中文AI的发展,促进AI技术公开化、国际化,我们成立了 ShareGPT-90k 项目,希望借助大家的力量推进数据清洗与对齐工作。可能与各位想象的有所不同,GPT模型主要通过预训练数据集赋能,语料的质量对模型最终性能至关重要。然而,百度知道、CSDN、知乎等平台软文过多;小木虫等高质量平台语料过少;个人博客内容质量参差不齐。OpenAI完成数据集的收集花费了巨大成本,以至于需要从微软集资。我们无力承担如此巨大的开销,于是需要各位有志于筹建开放获取语料,并有一定外语基础的网友们献上自己的力量。RWKV-Wiki/MultilingualShareGPT

  • TigerResearch/TigerBot 多语言多任务LLM,在 BLOOM 基础上的模型:TigerBot-7B, TigerBot-7B-base,TigerBot-180B。数据:预训练 100G,从 2TB 过滤后的数据中经过去噪去重清洗而得;监督微调 1G 或 100 万条数据,按比例涵盖用户指令常见的 10 大类 120 小类任务。

  • masa3141/japanese-alpaca-lora 日文指令来微调LLaMA模型

  • nlpxucan/WizardLM 由Evol-Instruct提供支持的遵循指令的LLM系列:WizardLM,WizardCoder和WizardMath。基于GPT-4的自动评估框架来评估聊天机器人模型的性能。WizardLM-30B取得了比Guanaco-65B更好的结果。

  • luban-agi/Awesome-Domain-LLM 本项目旨在收集和梳理垂直领域的开源模型、数据集及评测基准。

  • 22-hours/cabrita 葡萄牙语微调指令LLaMA

  • zilliztech/GPTCache LLM 的语义缓存。 与 LangChain 和 llama_index 完全集成。将您的LLM API成本降低10倍,将速度提高100倍。采用了语义缓存等替代策略。语义缓存识别并存储相似或相关的查询,从而提高缓存命中概率并提高整体缓存效率。采用嵌入算法将查询转换为嵌入,并使用向量存储对这些嵌入进行相似性搜索。此过程允许 GPTCache 从缓存存储中识别和检索类似或相关的查询。

  • Stability-AI/StableLM 稳定性AI语言模型。使用 Stanford Alpaca 的程序对模型进行了微调,结合了五个最近的对话代理数据集:Stanford 的 Alpaca 、Nomic-AI 的 gpt4all 、RyokoAI 的 ShareGPT52K 数据集、Databricks的 Dolly 和 HH 。以 StableLM-Tuned-Alpha 的形式发布这些模型。

  • LC1332/Luotuo-Chinese-LLM 中文大语言模型开源项目,包含了一系列语言模型。Luotuo-Vanilla是骆驼项目的第一个github仓库, 它是在LLaMA-7B上进行微调的。骆驼项目的初始目标,是研究使用跨语言数据在进行微调时,大语言模型发生的相关现象。

  • FreedomIntelligence/LLMZoo 一个为大型语言模型提供数据,模型和评估基准的项目。发布基于BLOOMZ的凤凰Phoenix7B模型、Chimera奇美拉模型。Phoenix-inst-chat-7b 达到85.2% 的ChatGPT效果。

  • openai/evals 一个评估LLM和LLM系统的框架,也是一个开源的基准测试表。

  • pengxiao-song/LaWGPT 基于中文法律知识的大语言模型

  • MediaBrain-SJTU/MedicalGPT-zh 基于ChatGLM的在高质量指令数据集微调的中文医疗对话语言模型

  • mlfoundations/open_flamingo 用于训练大型多模态模型的开源框架。DeepMind Flamingo模型的开源版本。提供了用于训练和评估模型的PyTorch 实现。还提供了在新的多模式 C4 数据集上训练的初始 9B 模型。

  • dandelionsllm/pandallm 海外中文开源大语言模型,基于 Llama-7B, -13B, -33B, -65B 进行中文领域上的持续预训练。

  • OptimalScale/LMFlow 一个可扩展、方便和高效的工具箱,用于微调大型机器学习模型。我们的目标是开发一套用户友好、快速可靠,并对整个社区开放的全流程微调代码库。

  • yangjianxin1/Firefly Firefly(流萤): 中文对话式大语言模型,包括高质量的包含1.1M中文多任务指令微调数据集,包含23种常见的中文NLP任务的指令数据。对于每个任务,由人工书写若干指令模板,保证数据的高质量与丰富度。权重分享:在bloom-1b4-zh 和bloom-2b6-zh 的基础上,进行指令微调,获得如下中文模型:firefly-1b4 、firefly-2b6 、firefly-2b6-v2。开源QLoRA训练流程和模型权重

  • PlexPt/awesome-chatgpt-prompts-zh ChatGPT 中文调教指南。各种场景使用指南。学习怎么让它听你的话。

  • dalinvip/Awesome-ChatGPT ChatGPT资料汇总学习

  • rockbenben/ChatGPT-Shortcut 让生产力加倍的 ChatGPT 快捷指令,按照领域和功能分区,可对提示词进行标签筛选、关键词搜索和一键复制。

  • PhoebusSi/Alpaca-CoT 将CoT数据扩展到Alpaca以提高其推理能力,同时我们将不断收集更多的instruction-tuning数据集,并在我们框架下集成进更多的LLM,打造一个通用的LLM-IFT平台。Alpaca-CoT · Datasets

  • unit-mesh/unit-minions 《AI 研发提效研究:自己动手训练 LoRA》,包含 Llama (Alpaca LoRA)模型、ChatGLM (ChatGLM Tuning)相关 Lora 的训练。训练内容:用户故事生成、测试代码生成、代码辅助生成、文本转 SQL、文本生成

  • microsoft/JARVIS 一个将LLM与ML社区联系起来的系统。该系统由LLM作为控制器和众多专家模型作为协作执行者(来自HuggingFace Hub)组成。我们系统的工作流程包括四个阶段:任务规划:使用ChatGPT分析用户的请求以了解他们的意图,并将其分解成可能解决的任务。模型选择:为了解决计划的任务,ChatGPT 根据他们的描述选择托管在拥抱脸上的专家模型。任务执行:调用并执行每个选定的模型,并将结果返回给 ChatGPT。响应生成:最后,使用 ChatGPT 集成所有模型的预测,并生成响应。

  • mlc-ai/mlc-llm 使每个人都能在每个人的设备上本地开发、优化和部署 AI 模型。解决方案的基石是机器学习编译(MLC),我们利用它来有效地部署AI模型。我们建立在开源生态系统的肩膀上,包括来自Hugging Face和Google的令牌化器,以及Llama,Vicuna,Dolly,MOSS,RWKV等开源LLM。我们的主要工作流程基于 Apache TVM Unity。

  • mlc-ai/web-llm 将大语言模型和聊天引入 Web 浏览器。一切都在浏览器中运行,没有服务器支持。WebLLM是MLC LLM的姊妹项目。它重用了模型工件并构建了MLC LLM的流程。

  • wangzhaode/ChatGLM-MNN 纯C++,易于部署的ChatGLM-6B。

  • vllm-project/vllm 适用于 LLM 的高吞吐量和内存效率推理和服务引擎。在吞吐量方面,vLLM 的性能比拥抱面转换器 (HF) 高出 24 倍,文本生成推理 (TGI) 高出 3.5 倍。使用PagedAttention分页注意力高效管理注意力键和值存储器。

  • yizhongw/self-instruct 一种将预训练语言模型与指令对齐的方法。可帮助语言模型提高其遵循自然语言指令的能力。它通过使用模型自己来创建大量教学数据来实现此目的。通过自导,可以提高语言模型的指令遵循功能,而无需依赖大量的手动注释。

  • adams549659584/go-proxy-bingai用 Vue3 和 Go 搭建的微软 New Bing 演示站点,拥有一致的 UI 体验,支持 ChatGPT 提示词,国内可用。

  • f/awesome-chatgpt-prompts 包含 ChatGPT 提示,以更好地使用 ChatGPT

  • humanloop/awesome-chatgpt ChatGPT和GPT-3的惊人工具、演示和文档

  • encx/ChatGPT ChatGPT 桌面应用程序(Mac、Windows 和 Linux)

  • xtekky/chatgpt-clone 具有更好用户界面的聊天GPT界面

  • wong2/chatgpt-google-extension 浏览器扩展,用ChatGPT增强搜索引擎效果

  • acheong08/ChatGPT 逆向工程 ChatGPT 的API

  • ddiu8081/chatgpt-demo 基于 OpenAI GPT-3.5 Turbo API 的 demo。

  • LAION-AI/Open-Assistant 基于聊天的助理,它理解任务,可以与第三方系统互动,并能动态地检索信息。将提供基于RLHF的大型语言模型,并公开训练数据。

  • acheong08/EdgeGPT 微软必应聊天的逆向工程API

  • yoheinakajima/babyagi 使用GPT3/4来自动完成任务。一个 AI 支持的任务管理系统示例. 该系统使用 OpenAI 和 Pinecone API 创建, 优先级排序和执行任务. 该系统背后的主要思想是基于先前任务的结果和预定义的目标创建任务. 脚本然后使用 OpenAI 的自然语言处理(NLP)能力根据目标创建新任务, 并使用 Pinecone 存储和检索任务结果以获得上下文. 这是原始的任务驱动的自驱代理的简化版本.

  • TransformerOptimus/SuperAGI SuperAGI - 开发优先的开源自主 AI 代理框架。使开发人员能够快速可靠地构建、管理和运行有用的自主代理。

  • StanGirard/quivr 将所有文件和想法转储到您的生成式AI(如chatgpt)的第二大脑中并与之聊天。旨在轻松存储和检索非结构化信息。

  • transitive-bullshit/chatgpt-api OpenAI提供的ChatGPT的Node.js包装器。

  • zhayujie/chatgpt-on-wechat 用ChatGPT搭建微信聊天机器人

  • openai/openai-python OpenAI Python库提供了从用Python语言编写的应用程序对OpenAI API的方便访问。

  • chenking2020/FindTheChatGPTer ChatGPT/GPT4开源“平替”汇总,持续更新

  • madawei2699/myGPTReader 由chatGPT提供支持,Slack上的一个机器人,可以阅读和总结任何网页,包括电子书在内的文档,甚至是YouTube上的视频。它可以通过语音和你交流。

  • JosephusCheung/GuanacoDataset Guanaco 模型的数据集旨在增强多语言能力并解决各种语言任务。以 Alpaca 模型的 175个任务为基础,提供了用不同语言重写的种子任务,并添加了专门为英语语法分析、自然语言理解、跨语言自我意识和显式内容识别设计的新任务。数据集总共包含53万个条目,以6k美元的低成本生成。英语\中文\日语。

  • thunlp/UltraChat 大规模、信息丰富、多样化的多轮聊天数据(和模型)

  • ziliwangnlp/RefGPT 包含5万对中文多轮对话数据。用如下方法自动生成数据。采集优质的事实型文档,reference,来源是电子书、维基百科、优质垂类网站。文档需要涵盖尽量多的主题。利用已有LLM生成多轮对话。输入是一篇reference,prompt类似“请根据这篇文章生成多轮问答”。API输出一段多轮对话(dialogue)。这种方法将原本只适合预训练的文档转化成可供微调的多轮对话。收集到大量的reference-dialogue二元组。将reference和prompt作为输入,dialogue作为目标,微调一个GPT模型。称作Reference-to-Dialogue GPT,缩写RefGPT。有了RefGPT,即可基于reference生成多轮对话,获得海量的数据。需要关注2个要点。Reference的质量、广度。Reference内容质量必须高,比如医疗等优质垂类网站的页面、维基百科上非生僻的词条,且需要对网页做清洗。Reference的广度应当大,不能限制在单个垂类或网站。调用已有LLM时需要写prompt,需要仔细尝试各种prompt,使得LLM生成的多轮对话符合预期。

  • gururise/AlpacaDataCleaned 经过清理和整理的斯坦福的羊驼数据集

  • wangrui6/Zhihu-KOL 知乎对话数据,parquet格式400多MB的大小

  • BAAI/COIG 中文开放教学通才 (COIG) 项目,以维护一套无害、有用且多样化的中文对话语料库。具体包括:人工验证的翻译指令 (67798) 、考试指令 (63532) 、人类价值对齐指令 (34471) 、反事实修正多轮聊天(13653)、Leetcode 指令 (11737)

  • nomic-ai/pyllamacpp 支持 llama.cpp + gpt4all 的 Python 绑定

  • abetlen/llama-cpp-python llama.cpp 的 Python 绑定

  • BlinkDL/ChatRWKV 使用RWKV语言模型(100%RNN)的类ChatGPT开源聊天模型。

  • rawandahmad698/PyChatGPT 非官方 ChatGPT API 的 Python 客户端,具有自动令牌重新生成、对话跟踪、代理支持等功能。

  • qunash/chatgpt-advanced 一种浏览器扩展,可通过网络结果增强您的 ChatGPT 提示。

  • liady/ChatGPT-pdf 用于将 ChatGPT 历史下载为 PNG、PDF 或创建可共享链接的 Chrome 扩展

  • imartinez/privateGPT 使用 LLM 的强大功能,无需互联网连接就可以对您的文档提出问题。 100% 私有,任何时候都没有数据离开您的执行环境。您可以在没有互联网连接的情况下提取文档和提问!

  • xtekky/gpt4free 免费使用GPT4模型 typescript版本

  • saharmor/awesome-chatgpt 精选的 ChatGPT 演示、工具、文章等

  • JushBJJ/Mr.-Ranedeer-AI-Tutor GPT-4 AI 导师提示,用于可定制的个性化学习体验。

  • binary-husky/chatgpt_academic 科研工作专用ChatGPT/GLM拓展,特别优化学术Paper润色体验,模块化设计支持自定义快捷按钮&函数插件,支持代码块表格显示,Tex公式双显示,新增Python和C++项目剖析&自译解功能,PDF/LaTex论文翻译&总结功能,支持并行问询多种LLM模型,支持gpt-3.5/gpt-4/chatglm

  • AetherCortex/Llama-X 关于将LLaMA提高到SOTA LLM的开放学术研究

  • WangRongsheng/ChatGenTitle 使用百万arXiv论文信息在LLaMA模型上进行微调的论文题目生成模型

  • nishiwen1214/ChatReviewer 使用ChatGPT分析论文优缺点,提出改进建议

  • bhaskatripathi/pdfGPT 允许您使用 GPT 功能与 PDF 文件的内容聊天。在聊天机器人中转换您的 pdf 文件的唯一开源解决方案

  • kaixindelele/ChatPaper 全流程加速科研,利用chatgpt进行论文总结+润色+审稿+审稿回复

  • eimenhmdt/autoresearcher 使用 GPT 自动化科学工作流程

  • gragland/chatgpt-chrome-extension ChatGPT Chrome 扩展。将 ChatGPT 集成到互联网上的每个文本框中。

  • vincelwt/chatgpt-mac Mac 版 ChatGPT,就在您的菜单栏中。

  • huggingface/chat-ui 开源模型的聊天界面,例如OpenAssistant或Llama。SvelteKit应用程序,它为 hf.co/chat 上的HuggingChat应用程序提供支持。

  • GaiZhenbiao/ChuanhuChatGPT 为ChatGPT ChatGLM LLaMA StableLM MOSS等多种LLM提供了一个轻快好用的Web图形界面

  • sonnylazuardi/chat-ai-desktop 使用 Tauri 和 Rust 的 Mac 和 Windows 菜单栏的非官方 ChatGPT 桌面应用程序

  • xx025/carrot 准备了众多免费好用的ChatGPT镜像站点,当前100+站点

  • LiLittleCat/awesome-free-chatgpt 免费的 ChatGPT 镜像网站列表,持续更新。

  • yzfly/awesome-chatgpt-zh ChatGPT 中文指南,ChatGPT 中文调教指南,指令指南,精选资源清单,更好的使用 chatGPT 让你的生产力

  • terry3041/pyChatGPT OpenAI的ChatGPT API的非官方Python包装器

  • platelminto/chatgpt-conversation 用你的声音与 ChatGPT 对话,让它回话。

  • 202252197/ChatGPT_JCM OpenAI管理界面,聚合OpenAI的所有接口进行界面操作(所有模型、图片、音频、微调、文件)等,支持Markdown格式(公式、图表,表格)等

  • memochou1993/gpt-ai-assistant 使用 OpenAI API 和 LINE 消息传递 API 实现的应用程序。通过安装过程,您可以使用LINE移动应用程序开始与自己的AI助手聊天。

  • yanqiangmiffy/Chinese-LangChain 小必应,Q.Talk,强聊,QiangTalk,基于ChatGLM-6b+langchain实现本地化知识库检索与智能答案生成

  • cesarhuret/docGPT ChatGPT 直接在 Google Docs 中作为编辑器的插件

  • ConnectAI-E/Feishu-OpenAI 飞书 ×(GPT-3.5 + DALL·E + Whisper)= 飞一般的工作体验 rocket 语音对话、角色扮演、多话题讨论、图片创作、表格分析、文档导出

  • terror/chatgpt.nvim 在 Neovim 中查询 ChatGPT

  • clmnin/summarize.site 浏览器扩展使用ChatGPT总结网页内容

  • Zero6992/chatGPT-discord-bot 将 ChatGPT 集成到您自己的discord机器人中

  • m1guelpf/chatgpt-telegram 运行您自己的GPT电报机器人,只需一个命令

  • transitive-bullshit/chatgpt-twitter-bot ChatGPT API支持的Twitter机器人

  • kxxt/chatgpt-action 让 ChatGPT 为您审查 PR 拉取请求

  • RomanHotsiy/commitgpt 使用 ChatGPT 自动生成git提交消息

  • oceanlvr/ChatGPT-ProBot 基于 ChatGPT 的 GitHub APP,键入 /chatgpt 与机器人 robot 聊天。

  • kazuki-sf/ChatGPT_Extension 非常简单的Chrome扩展(v3),您可以从网络上的任何地方访问OpenAI的ChatGPT。

  • abielzulio/chatgpt-raycast ChatGPT raycast(Mac的快捷启动器) 扩展

  • bupticybee/ChineseAiDungeonChatGPT 中文版的ai地牢,直接使用的openai的ChatGPT api作为讲故事的模型。

  • domeccleston/sharegpt 轻松与您的朋友分享 ChatGPT 对话的永久链接

  • Yidadaa/ChatGPT-Next-Web 一键拥有你自己的 ChatGPT 网页服务。

  • pengzhile/pandora 实现了网页版 ChatGPT 的主要操作。后端优化,绕过 Cloudflare,速度喜人。

  • Chanzhaoyu/chatgpt-web 用Express和Vue3搭建的 ChatGPT 演示网页

  • elyase/awesome-gpt3 关于 OpenAI GPT-3 API 的演示和文章的集合。

  • dair-ai/Prompt-Engineering-Guide 提示工程是一门相对较新的学科,用于开发和优化提示以有效地将语言模型 (LM) 用于各种应用程序和研究主题。即时的工程技能有助于更好地理解大型语言模型 (LLM) 的功能和局限性。研究人员使用提示工程来提高 LLM 在广泛的常见和复杂任务(例如问题回答和算术推理)上的能力。开发人员使用提示工程来设计与 LLM 和其他工具交互的强大且有效的提示技术。

  • reworkd/AgentGPT 在浏览器中组装、配置和部署自治 AI 代理。为您自己的自定义 AI 命名,让它开始任何可以想象的目标。它将尝试通过思考要完成的任务、执行它们并从结果中学习来达到目标。

  • openai/chatgpt-retrieval-plugin ChatGPT 检索插件可让您通过自然语言提问来轻松查找个人或工作文档。

  • kennethleungty/Llama-2-Open-Source-LLM-CPU-Inference 在本地CPU推理上运行Llama 2和其他开源LLM,用于文档问答

  • Bin-Huang/chatbox 开源的 ChatGPT API (OpenAI API) 桌面客户端,Prompt 的调试与管理工具,支持 Windows、Mac 和 Linux

  • openai/openai-cookbook 使用 OpenAI API 的示例和指南

  • smol-ai/developer 随着Anthropic Claude的100k 上下文窗口的出现,现在每个开发人员都可以拥有自己的辅助开发助手

  • e2b-dev/e2b 允​​许您创建和部署虚拟软件开发人员。这些虚拟开发人员由专门的 AI 代理提供支持,这些代理可以根据您的指令构建软件并可以使用工具。

  • csunny/DB-GPT 使用本地 GPT 与您的数据和环境交互,无数据泄漏,100% 私密,100% 安全 目前支持Vicuna(7b, 13b), ChatGLM-6b(int4, int8)

  • acheong08/Bard Google 的 Bard 聊天机器人 API 的逆向工程

  • jtsang4/claude-to-chatgpt 将 Anthropic 的 Claude 模型的 API 转换为 OpenAI Chat API 格式。

  • databrickslabs/dolly dolly-v2-12b是由Databricks创建的120亿参数因果语言模型,该模型源自EleutherAI的Pythia-12b,并在Databricks员工生成的~15K记录指令语料库上进行微调,并在宽松许可证(CC-BY-SA)下发布

  • openlm-research/open_llama 一个在RedPajama数据集上训练的Meta AI的LLaMA 7B的许可开源复制品。

  • mbzuai-nlp/LaMini-LM 来自大规模指令的多样化蒸馏模型群。从ChatGPT提炼出来的小型高效语言模型的集合,并在2.58M指令的大规模数据集上进行训练。我们通过执行句子/离线提炼从大型语言模型中提取知识。我们基于几个现有的提示资源,使用 gpt-3.5-turbo 生成总共 2.58M 对指令和响应。

  • microsoft/TaskMatrix 连接了ChatGPT和一系列Visual Foundation模型,以便在聊天期间发送和接收图像。

  • huggingface/peft 最先进的参数高效微调 (PEFT) 方法,LoRA、Prefix Tuning、P-Tuning、Prompt Tuning、AdaLoRA。参数高效微调 (PEFT) 方法能够将预训练的语言模型 (PLM) 有效地适应各种下游应用程序,而无需微调模型的所有参数。微调大型 PLM 的成本通常高得令人望而却步。在这方面,PEFT方法仅微调少量(额外)模型参数,从而大大降低了计算和存储成本。最近最先进的PEFT技术实现了与完全微调相当的性能。

  • artidoro/qlora 量化LLM的有效微调。QLoRA使用bitsandbytes进行量化。QLoRA是一种高效的微调方法,可减少内存使用量,足以在单个 48GB GPU 上微调 65B 模型,同时保留完整的 16 位微调任务性能。QLoRA 通过冻结的 4 位量化预训练LM将梯度反向传播到低秩适配器 (LoRA) 中。我们最好的模型 Guanaco,在 Vicuna 基准测试中优于之前所有公开的模型,达到了 ChatGPT 性能水平的 99.3%,而只需在单个 GPU 上进行 24 小时的微调。QLoRA 引入了许多创新,以在不牺牲性能的情况下节省内存:(a) 4 位 NormalFloat (NF4),一种理论上最适合正态分布权重的新数据类型 (b) 双重量化,通过量化常量来减少平均内存占用,以及 (c) 分页优化器来管理内存峰值。我们使用QLoRA对1k个模型进行微调,对 8 个指令数据集、多种模型(LLaMA、T5)和模型规模(如33B和65B参数)的指令遵循和聊天机器人性能进行详细分析。结果表明,QLoRA在小型高质量数据集上进行微调可以产生最先进的结果,即使用比以前的SoTA更小的模型也是如此。GPT4评估是人类评估的廉价且合理的替代方案。当前的聊天机器人基准测试不值得信赖,无法准确评估聊天机器人的性能水平。我们发布了所有模型和代码,包括用于 4 位训练的 CUDA 内核。

  • hiyouga/ChatGLM-Efficient-Tuning 基于 PEFT 的高效 ChatGLM 微调

  • ZrrSkywalker/LLaMA-Adapter 在1小时内遵循指令微调LLaMA , 1.2M参数

  • h2oai/h2o-llmstudio 用于微调LLM的框架和无代码GUI。轻松有效地微调LLM,无需任何编码经验。使用专为大型语言模型设计的GUI。使用各种超参数微调任何LLM。使用最新的微调技术,例如低秩适配 (LoRA) 和具有低内存占用的 8 位模型训练。使用强化学习 (RL) 微调模型(实验性)。使用高级评估指标来判断模型生成的答案。直观地跟踪和比较模型性能。

  • stochasticai/xTuring 轻松构建、定制和控制您自己的 LLM。提供快速、高效和简单的LLM微调,如LLaMA,GPT-J,Galactica等。通过提供一个易于使用的界面来微调LLM到您自己的数据和应用程序,xTuring使构建,自定义和控制LLM变得简单。整个过程可以在您的计算机内部或私有云中完成,确保数据隐私和安全。

  • Instruction-Tuning-with-GPT-4/GPT-4-LLM 共享 GPT-4 生成的数据,用于构建具有监督学习和强化学习的指令遵循 LLM。存储库包含:

    • 英语教学 - 遵循数据由 GPT-4 使用 Alpaca 提示进行微调 LLM。
    • 由 GPT-4 使用由 ChatGPT 从羊驼翻译的中文提示生成的中文指令跟踪数据。
    • 按 GPT-4 排名以训练奖励模型的比较数据。
    • 关于非自然指令的答案 来自 GPT-4 的数据,用于大规模量化 GPT-4 和指令调整模型之间的差距。
  • lxe/simple-llm-finetuner 初学者友好的界面,旨在通过商用NVIDIA GPU上的PEFT库,使用LoRA方法微调各种语言模型。使用较小的数据集和 256 的样本长度,您甚至可以在常规的 Colab Tesla T4 实例上运行它。

  • Jittor/JittorLLMs 计图大模型推理库,具有高性能、配置要求低、中文支持好、可移植等特点。成本低:相比同类框架,本库可大幅降低硬件配置要求(减少80%),没有显卡,2G内存就能跑大模型;支持广:目前支持了4种大模型:ChatGLM大模型、鹏程盘古大模型、BlinkDL的ChatRWKV、国外Meta的LLaMA大模型等;可移植:用户不需要修改任何代码,只需要安装Jittor版torch(JTorch);速度快:大模型加载速度慢,Jittor框架通过零拷贝技术,大模型加载开销降低40%,同时,通过元算子自动编译优化,计算性能相比同类框架提升20%以上。

  • RUCAIBox/LLMSurvey 与大型语言模型相关的论文和资源集合。

  • Lunabot 在任何网页为你服务的AI助理,通过快捷指令释放AI工作潜力,无需KEY和ChatGPT账号

  • jerryjliu/llama_index 您的 LLM 应用程序的数据框架。高级 API 允许初学者使用 LlamaIndex 在 5 行代码中摄取和查询他们的数据。我们的低级 API 允许高级用户自定义和扩展任何模块(数据连接器、索引、检索器、查询引擎、重新排名模块)以满足他们的需求。

  • amazon-science/mm-cot 语言模型中的多模式思维链推理。包括两个训练阶段:(i) 基本原理生成和 (ii) 答案推理。这两个阶段共享相同的模型架构,但输入和输出不同。

  • haotian-liu/LLaVA 面向多模态 GPT-4 级别功能构建的大型语言和视觉助手。

  • BradyFU/Awesome-Multimodal-Large-Language-Models 多模态大型语言模型的最新论文和数据集

  • THUDM/VisualGLM-6B 多模态中英双语对话语言模型

  • LC1332/Luotuo-Silk-Road 中文大语言模型的数据。对话与指令数据集:Luotuo-Chinese-Alpaca 骆驼-中国-羊驼、Chinese-Dolly 中国多莉、Chinese-WizardLM 中国巫师LM、阅读理解数据 Chinese-CoQA 、Luotuo-QA-B、图文跨模态数据 Chinese-MMC4-130k 中文-MMC4-130k、Chinese-Coco-Captioning 中文-可可-字幕、Embedding蒸馏数据 CNewSum-Embedding

  • logspace-ai/langflow LangChain(大语言模型链式开发工具,强大的框架,可以简化构建高级语言模型应用程序的过程。) 的 UI,采用反应流设计,提供一种轻松的方式来实验和原型流。

  • liaokongVFX/LangChain-Chinese-Getting-Started-Guide LangChain 的中文入门教程

  • YeungNLP/firefly-train-1.1M 收集了23个常见的中文数据集,对于每个任务,由人工书写若干种指令模板,保证数据的高质量与丰富度,数据量为115万 。

  • togethercomputer/RedPajama-Data 包含用于准备大型数据集以训练大型语言模型的代码。重现LLaMA训练数据集的开源配方。Commoncrawl、C4、GitHub、Books、ArXiv、Wikipedia、StackExchange。合计1.2万亿令牌

  • Voine/ChatWaifu_Mobile 移动版二次元 AI 老婆聊天器 语言大模型来自 GhatGPT\语音推理为客户端本地 VITS - ncnn\图形渲染基于 Native Live2D\语音输入识别为客户端本地 Sherpa - ncnn

  • yizhongw/self-instruct 将预训练的语言模型与自身生成的指令数据对齐。自我指导是一个框架,可帮助语言模型提高其遵循自然语言指令的能力。它通过使用模型自己的代数来创建大量教学数据来实现此目的。通过自导,可以提高语言模型的指令遵循功能,而无需依赖大量的手动注释。自指令过程是一种迭代引导算法,它从一组手动编写的指令种子开始,并使用它们来提示语言模型生成新指令和相应的输入输出实例。然后对这些世代进行过滤以删除低质量或类似的代数,并将生成的数据添加回任务池。此过程可以重复多次,从而产生大量教学数据,可用于微调语言模型以更有效地遵循说明。

  • Timothyxxx/Chain-of-ThoughtsPapers 大型语言模型中的思维链促使引出推理。思想链论文集合

  • zilliztech/GPTCache LLM 的语义缓存。 与 LangChain 和 llama_index 完全集成。

  • pashpashpash/vault-ai 使用 OP Stack(OpenAI + Pinecone Vector Database)为 ChatGPT 提供长期记忆。使用简单的 React 前端上传您自己的自定义知识库文件(PDF、txt、epub 等)。

  • YiVal/YiVal 一个开源的 GenAI-Ops 工具,用于使用可自定义的数据集、评估方法和改进策略来调整和评估提示、配置和模型参数。

  • jerry1993-tech/Cornucopia-LLaMA-Fin-Chinese 聚宝盆(Cornucopia): 基于中文金融知识的LLaMA微调模型;涉及SFT、RLHF、GPU训练部署等

  • THUDM/WebGLM 迈向具有人类偏好的高效网络增强问答系统。WebGLM希望使用100亿参数的GLM,提供高效且具有成本效益的Web增强问答系统。它旨在通过将 Web 搜索和检索功能集成到预先训练的语言模型中来改进实际应用程序部署。

  • FlowiseAI/Flowise 拖放UI以构建自定义LLM流程

  • xcanwin/KeepChatGPT ChatGPT的畅聊与增强插件。开源免费。不仅能解决所有报错不再刷新,还有保持活跃、取消审计、克隆对话、净化首页、展示大屏、展示全屏、言无不尽、拦截跟踪、日新月异等多个高级功能。让我们的AI体验无比顺畅、丝滑、高效、简洁。

  • ShishirPatil/gorilla LLM的API商店 。使 LLM 能够通过调用 API 来使用工具。给定一个自然语言查询,Gorilla 会提出语义和语法上正确的 API 来调用。通过Gorilla,我们是第一个演示如何使用LLM准确调用1,600+(并且不断增长的)API调用,同时减少幻觉的人。

  • microsoft/guidance 指南使你能够比传统的提示或链接更有效、更高效地控制新式语言模型。指导程序允许您将生成、提示和逻辑控制交错到单个连续流中,以匹配语言模型实际处理文本的方式。简单的输出结构,如思维链及其许多变体(例如,ART,Auto-CoT等)已被证明可以提高LLM的性能。像 GPT-4 这样更强大的 LLM 的出现允许更丰富的结构,而 guidance 使该结构更容易、更便宜。

  • fuergaosi233/wechat-chatgpt 通过微信在微信上使用ChatGPT

  • steven-tey/novel Notion风格的所见即所得编辑器,具有 AI 驱动的自动完成功能。

  • h2oai/h2ogpt 私人问答和文档+图像摘要或与本地GPT聊天,100%私人,Apache 2.0。支持 LLaMa2、llama.cpp等。

  • chat2db/Chat2DB 一个智能且通用的通用SQL客户端和数据库报告工具,集成了ChatGPT功能。能够将自然语言转换为SQL。还可以将SQL转换为自然语言,并为SQL提供优化建议,从而大大提高开发人员的效率。

  • Instruction-Tuning-with-GPT-4/GPT-4-LLM 旨在共享 GPT-4 生成的数据,用于构建具有监督学习和强化学习的指令遵循 LLM。

  • akoksal/LongForm 使用语料库提取生成长文本的指令调优数据集和模型。通过利用英语语料库示例和增强指令创建的。从现有的语料库(如C4和维基百科)中选择一组多样化的人类编写的文档,并通过LLM为给定的文档生成指令。然后,用结构化的语料库示例(如Stack Exchange和WikiHow)和任务示例(如问答,电子邮件写作,语法错误更正,故事/诗歌生成和文本摘要)来扩展这些示例。

  • BelleGroup/train_3.5M_CN 约350万条由BELLE项目生成的中文指令数据。

  • BelleGroup/train_2M_CN 约200万条由BELLE项目生成的中文指令数据。

  • BelleGroup/train_1M_CN 约100万条由BELLE项目生成的中文指令数据。

  • BelleGroup/train_0.5M_CN 约50万条由BELLE项目生成的中文指令数据。

  • BelleGroup/generated_chat_0.4M 包含约40万条由BELLE项目生成的个性化角色对话数据,包含角色介绍。

  • BelleGroup/school_math_0.25M 包含约25万条由BELLE项目生成的中文数学题数据,包含解题过程。

  • juletxara/mgsm 多语言小学数学基准(MGSM)是小学数学问题的基准。8.5K高质量语言多样化的小学数学单词问题的数据集。创建该数据集是为了支持对需要多步骤推理的基本数学问题进行问答的任务。

  • XueFuzhao/InstructionWild InstructWild v2,其中包括超过 110K 个基于用户的高质量指令。我们没有使用自导来生成任何指令。我们还用指令类型和特殊标签标记这些指令的子集。

  • sunzeyeah/chinese_chatgpt_corpus 该存储库收集了用于监督微调(SFT)和来自人类反馈的强化学习(RLHF)的中文语料库。

  • PlexPt/chatgpt-corpus ChatGPT 中文语料库 对话语料 小说语料 客服语料 用于训练大模型

  • zxbsmk/webnovel_cn 从12560本网文提取的约21.7M条可用于训练小说生成的中文指令数据

  • QingyiSi/Alpaca-CoT 该存储库将不断收集各种指令调优数据集。并且我们将不同的数据集标准化为相同的格式,可以直接通过羊驼模型的代码加载。

  • datasets/BAAI/COIG 中文开放教学通才(COIG)项目来维护一套无害、有用和多样化的中文教学语料库。BAAI-Zlab/COIG

  • CLUEbenchmark/pCLUE 基于提示的大规模预训练数据集,用于多任务学习和零样本学习,120万训练数据。

  • X-PLUG/CValues 面向中文大模型价值观的评估与对齐研究。邀请中国知名专家学者,每位专家提出100个诱导偏见、歧视回答的刁钻问题,并对大模型的回答进行标注。项目吸引了环境科学、心理学、法理学等多个领域专家参与,并召开了专家研讨会,会后发布业内首个大语言模型治理开源中文数据集100PoisonMpts,包含专家提出的问题、专家自己撰写或认可的答案。

  • DA-southampton/RedGPT 提出一种自动生成事实型对话的方法,并公开我们的部分数据。我们公开的第一批数据(RedGPT-Dataset-V1-CN)共包含5万条中文多轮对话。目标是自动生成海量、高质量、事实型多轮对话,用于训练GPT,提升GPT的事实正确性。我们采用如下方法自动生成数据。1. 采集优质的事实型文档,我们称之为reference,其来源可以是电子书、维基百科、优质垂类网站。文档需要涵盖尽量多的主题,包括但不限于人物、机构、科技、医疗、法律、人文、经济、家居、汽车、出行、美食、时尚、体育、教育、宠物。2. 利用已有的LLM(例如付费API)生成多轮对话。输入是一篇reference,prompt类似“请根据这篇文章生成多轮问答”。API会输出一段多轮对话(dialogue)。这种方法将原本只适合预训练的文档转化成可供微调的多轮对话。3. 第2步收集到大量的reference-dialogue二元组。将reference和prompt作为输入,dialogue作为目标,微调一个GPT模型(可以基于LLaMA或BLOOM的预训练基座)。我们将微调出的模型称作Reference-Enlightened-Dialogue GPT,缩写RedGPT。有了RedGPT,即可基于reference生成多轮对话,获得海量的数据。

  • X-PLUG/ChatPLUG 旨在建立和共享一个中文开放域对话系统。在推理过程中集成外部知识是灵活的,这是一个可选的输入。您可以利用 获取最新信息或使用本地知识库获取 search engine 领域知识。通过设置 bot profiles 或使用 role-paly instructions 来自定义对话和字符的样式很容易。它通过多轮对话展示了其在开放领域对话方面的熟练程度,同时也在广泛的 NLP 任务上表现出色 multi-task abilities 。

  • chathub-dev/chathub 多合一的聊天机器人客户端。在一个应用程序中使用不同的聊天机器人,目前支持ChatGPT,新的Bing Chat,Google Bard,Claude和10 +开源模型,包括Alpaca,Vicuna,ChatGLM等。

  • lencx/nofwl 一个跨平台的桌面应用,它可以让你和一个基于 GPT-3 的聊天机器人进行有趣的对话。

  • songquanpeng/one-api OpenAI 接口管理 & 分发系统,支持 Azure、Anthropic Claude、Google PaLM 2、智谱 ChatGLM、百度文心一言、讯飞星火认知、阿里通义千问以及 360 智脑,可用于二次分发管理 key,仅单可执行文件,已打包好 Docker 镜像,一键部署,开箱即用.

  • labring/FastGPT 基于 LLM 构建的基于知识的 QA 系统,提供开箱即用的数据处理和模型调用功能,允许通过 Flow 可视化进行工作流编排

  • go-skynet/LocalAI 自托管、社区驱动、本地 OpenAI 兼容 API。在消费级硬件上运行LLM的OpenAI的直接替代品。免费的开源OpenAI替代品。LocalAI是一个运行ggml兼容模型的API:llama,gpt4all,rwkv,whisper,vicuna,koala,gpt4all-j,cerebras,falcon,dolly,starcoder和许多其他

  • getumbrel/llama-gpt 一个自托管的、离线的、类似 ChatGPT 的聊天机器人。由骆驼 2 提供动力。100%私密,没有数据离开您的设备。新功能:代码支持

  • sunner/ChatALL 同时与ChatGPT,Bing Chat,Bard,Alpaca,Vicuna,Claude,ChatGLM,MOSS,讯飞星火,文心一言等聊天,发现最佳答案

  • li-plus/chatglm.cpp C++实现ChatGLM-6B和ChatGLM2-6B,以便在MacBook上进行实时聊天。

  • ztxz16/fastllm 纯c++的全平台llm加速库,支持python调用,chatglm-6B级模型单卡可达10000+token / s,支持glm, llama, moss基座,手机端流畅运行

  • gventuri/pandas-ai Python库,它将生成人工智能功能集成到Pandas中,使数据帧成为对话式的。为流行的数据分析和操作工具pandas添加了生成AI功能。

  • howl-anderson/unlocking-the-power-of-llms 使用 Prompts 和 Chains 让 ChatGPT 成为神奇的生产力工具

  • eugeneyan/open-llms 可用于商业用途的开放LLM列表。

  • Mooler0410/LLMsPracticalGuide LLM实用指南资源的精选列表。它基于我们的调查论文:在实践中利用LLM的力量:关于ChatGPT及其他的调查。该调查部分基于本博客的后半部分。我们还构建了现代大型语言模型(LLM)的进化树,以追踪近年来语言模型的发展,并重点介绍一些最著名的模型。

  • imaurer/awesome-decentralized-llm LLM资源的集合,可用于构建您可以“拥有”的产品或进行可重复的研究。

  • Open LLM Leaderboard 开放LLM排行榜旨在跟踪,排名和评估LLM和聊天机器人的发布。

  • EwingYangs/awesome-open-gpt GPT相关开源项目合集

  • botpress/botpress 由 OpenAI 提供支持的下一代聊天机器人和助手的终极平台。开始以闪电般的速度为您的项目或业务构建令人难以置信的助手。

  • dice2o/BingGPT 新必应AI聊天的桌面应用程序(Windows,macOS和Linux)

  • josStorer/chatGPTBox 将 ChatGPT 深度集成到您的浏览器中,您需要的一切都在这里

  • lss233/chatgpt-mirai-qq-bot 一键部署!真正的 AI 聊天机器人!支持ChatGPT、文心一言、讯飞星火、Bing、Bard、ChatGLM、POE,多账号,人设调教,虚拟女仆、图片渲染、语音发送 | 支持 QQ、Telegram、Discord、微信 等平台

  • promptslab/Promptify 使用 LLM 解决 NLP 问题,并使用 Promptify 轻松为流行的生成模型(如 GPT、PaLM 等)生成不同的 NLP 任务提示

  • enricoros/big-agi 由 GPT-4 及更高版本提供支持的个人 AI 应用程序,具有 AI 角色、AGI 功能、文本到图像、语音、响应流、代码突出显示和执行、PDF 导入、开发人员预设等等。使用Next.js,React,Joy。

  • jaymody/picoGPT NumPy实现的一个不必要的微小的GPT-2。40 行代码。

  • bentoml/OpenLLM 用于在生产中操作大型语言模型 (LLM) 的开放平台。轻松微调、服务、部署和监控任何 LLM。

  • karpathy/llama2.c 在一个纯 C 文件中推理Llama 2大型语言模型

  • geekan/MetaGPT 多代理框架:给定一行需求,返回 PRD、设计、任务、存储库。为 GPT 分配不同的角色,以形成用于复杂任务的协作软件实体。

  • ModelTC/lightllm 基于Python的LLM(大型语言模型)推理和服务框架,以其轻量级设计,易于扩展和高速性能而著称。LightLLM利用了许多备受推崇的开源实现的优势,包括但不限于FasterTransformer,TGI,vLLM和FlashAttention。

  • PanQiWei/AutoGPTQ 易于使用的LLM量化包,有用户友好的API,基于GPTQ算法。

  • princeton-nlp/tree-of-thought-llm 正式实现“思想之树:用大语言模型刻意解决问题”

  • thomas-yanxin/LangChain-ChatGLM-Webui 基于LangChain和ChatGLM-6B等系列LLM的针对本地知识库的自动问答

  • ssbuild/chatglm_finetuning Chatglm 6b微调和羊驼微调

  • liucongg/ChatGLM-Finetuning 基于ChatGLM-6B、ChatGLM2-6B模型,进行下游具体任务微调,涉及Freeze、Lora、P-tuning、全参微调等

  • HqWu-HITCS/Awesome-Chinese-LLM 整理开源的中文大语言模型,以规模较小、可私有化部署、训练成本较低的模型为主,包括底座模型,垂直领域微调及应用,数据集与教程等。

  • OpenGVLab/Ask-Anything [视频聊天GPT]聊天GPT与视频理解!还有更多支持的LM,如miniGPT4,StableLM和MOSS。

  • OpenMotionLab/MotionGPT 一个统一且用户友好的运动语言模型,用于学习两种模态的语义耦合,并在多个运动任务上生成高质量的运动和文本描述。

  • Hannibal046/Awesome-LLM 大型语言模型(LLM)已经席卷了NLP社区AI社区的整个世界。以下是关于大型语言模型的精选论文列表,尤其是与 ChatGPT 相关的论文。它还包含LLM培训框架,部署LLM的工具,有关LLM的课程和教程以及所有公开可用的LLM检查点和API。

  • DSXiangLi/DecryptPrompt 总结Prompt&LLM论文,开源数据&模型,AIGC应用

  • GoogleCloudPlatform/generative-ai 包含笔记本、代码示例、示例应用和其他资源,用于演示如何使用 Google Cloud 上的生成式 AI 使用、开发和管理生成式 AI 工作流程,这些工作流由 Vertex AI 和生成式 AI App Builder 提供支持。

  • catqaq/ChatPiXiu 开源chatgpt替代方案/实现的调查,复制和领域/任务适应。

  • DAMO-NLP-SG/LLM-Zoo 本项目收集了以下各种开源和闭源LLM的信息

  • wgwang/LLMs-In-China 旨在记录中国大模型发展情况

  • OpenBMB/BMList 希望使用此列表来显示大模型的最新趋势。

  • nichtdax/awesome-totally-open-chatgpt ChatGPT 的完全开放的替代品列表

  • ikaijua/Awesome-AITools 收藏AI相关的实用工具,大型语言模型

  • datawhalechina/prompt-engineering-for-developers 面向开发者的 LLM 入门教程,吴恩达大模型系列课程中文版

  • datawhalechina/hugging-llm 拥抱LLM,拥抱未来。介绍 ChatGPT 原理、使用和应用,降低使用门槛,让更多感兴趣的非NLP或算法专业人士能够无障碍使用LLM创造价值。

  • promptingguide.ai/zh 提示工程(Prompt Engineering)是一门较新的学科,关注提示词开发和优化,帮助用户将大语言模型(Large Language Model, LLM)用于各场景和研究领域。 掌握了提示工程相关技能将有助于用户更好地了解大型语言模型的能力和局限性。基于对大语言模型的浓厚兴趣,我们编写了这份全新的提示工程指南,介绍了大语言模型相关的论文研究、学习指南、模型、讲座、参考资料、大语言模型能力以及与其他与提示工程相关的工具。

  • phodal/aigc 《构筑大语言模型应用:应用开发与架构设计》一本关于 LLM 在真实世界应用的开源电子书,介绍了大语言模型的基础知识和应用,以及如何构建自己的模型。其中包括Prompt的编写、开发和管理,探索最好的大语言模型能带来什么,以及LLM应用开发的模式和架构设计。

  • prompt-engineering/understand-prompt 理解 Prompt:基于编程、绘画、写作的 AI 探索与总结

  • brexhq/prompt-engineering 使用大型语言模型(如 OpenAI 的 GPT-4)的提示和技巧。

  • mshumer/gpt-prompt-engineer 只需输入任务的描述和一些测试用例,系统就会生成、测试和排名大量提示,以找到性能最佳的提示。

  • km1994/LLMsNineStoryDemonTower 分享 LLMs在自然语言处理(ChatGLM、Chinese-LLaMA-Alpaca、小羊驼 Vicuna、LLaMA、GPT4ALL等)、信息检索(langchain)、语言合成、语言识别、多模态等领域(Stable Diffusion、MiniGPT-4、VisualGLM-6B、Ziya-Visual等)等 实战与经验。

  • iguodongiot/llm-action 本项目旨在分享大模型相关技术原理以及实战经验。

  • hiyouga/LLaMA-Efficient-Tuning 易于使用的LLM微调框架(LLaMA-2,BLOOM,Falcon,Baichuan,Qwen,ChatGLM2)

  • FlagOpen/FlagEval AI大型基础模型的评估工具包。我们的目标是探索和整合科学、公平、开放的基础模型评估基准、方法和工具。FlagEval将在未来支持在不同模态(如NLP,音频,CV和多模态)中/跨基础模型的多维评估(如准确性,效率,鲁棒性等)。我们希望通过对基础模型的评估,加深对基础模型的理解,促进相关的技术创新和产业化应用。

  • InternLM/opencompass LLM评估平台,支持超过50 +数据集的各种模型(LLaMA,LLaMa2,ChatGLM2,ChatGPT,Claude等)。

  • OpenLMLab/GAOKAO-Bench 一个评估框架,利用高考问题作为数据集来评估大型语言模型。

  • mikegu721/xiezhibenchmark 獬豸是语言模型(LMs)的综合评估套件。它由249587道多项选择题组成,涵盖 516 个不同的学科和四个难度级别。希望可以帮助开发人员跟踪进度并分析其LM的重要优势/缺点。

  • haonan-li/CMMLU 综合性的中文评估基准,专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从基础学科到高级专业水平的67个主题。它包括:需要计算和推理的自然科学,需要知识的人文科学和社会科学,以及需要生活常识的中国驾驶规则等。此外,CMMLU中的许多任务具有中国特定的答案,可能在其他地区或语言中并不普遍适用。因此是一个完全中国化的中文测试基准。

  • CLUEbenchmark/SuperCLUElyb SuperCLUE琅琊榜:中文通用大模型匿名对战评价基准

  • Felixgithub2017/MMCU 本评测只是对大模型语义理解能力的测试,并不能代表模型的全面能力评测,评测结果仅供参考。整个评测方式、评测数据集、评测记录都公开,确保可以复现。

  • Felixgithub2017/CG-Eval 此项测试中,受测的中文大语言模型需要对科技与工程、人文与社会科学、数学计算、医师资格考试、司法考试、注册会计师考试这六个大科目类别下的55个子科目的1.1W不同类型问题做出准确且相关的回答。 我们设计了一套复合的打分系统,对于非计算题,每一道名词解释题和简答题都有标准参考答案,采用多个标准打分然后加权求和。对于计算题目,我们会提取最终计算结果和解题过程,然后综合打分。

  • GAIR-NLP/factool 工具增强框架,用于检测由大型语言模型(例如ChatGPT)生成的文本的事实错误。Factool现在支持4个任务:基于知识的QA:Factool检测基于知识的QA中的事实错误。代码生成:Factool检测代码生成中的执行错误。数学推理:Factool检测数学推理中的计算错误。科学文献综述:Factool检测幻觉的科学文献。

  • jeinlee1991/chinese-llm-benchmark 中文大模型能力评测榜单:覆盖文心一言、chatgpt、通义千问、讯飞星火、belle / chatglm 等开源大模型,多维度能力评测。不仅提供能力评分排行榜,也提供所有模型的原始输出结果!

  • CLUEbenchmark/CLUE 中文语言理解测评基准 中文理解评估基准:数据集、基线、预训练模型、语料库和排行榜

  • CLUEbenchmark/SuperCLUE 中文通用大模型综合性基准。superclueai

  • thu-coai/Safety-Prompts 中文安全prompts,评估和提升大模型的安全性。

  • RUCAIBox/HaluEval 大型语言模型的大规模幻觉评估基准。包括 5,000 个带有 ChatGPT 响应的一般用户查询和来自三个任务的 30,000 个特定于任务的示例,即问答、基于知识的对话和文本摘要。

  • Azure-Samples/azure-search-openai-demo 在 Azure 中运行的检索增强生成模式的示例应用,使用 Azure 认知搜索进行检索,并使用 Azure OpenAI 大型语言模型为 ChatGPT 风格和问答体验提供支持。

  • sindresorhus/awesome-chatgpt 基于ChatGPT 开发的应用的列表 — 由 OpenAI 开发的人工智能聊天机器人

  • smol-ai/GodMode AI聊天浏览器:快速,完整的网络应用程序访问ChatGPT / Claude / Bard / Bing / Llama2

  • llm-workflow-engine/llm-workflow-engine 适用于 LLM 的 命令行工具 和工作流管理器(核心包)

  • Yue-Yang/ChatGPT-Siri Siri的快捷方式使用ChatGPT API gpt-3.5-turbo和gpt-4模型,支持连续对话,配置API密钥并保存聊天记录。由 ChatGPT API gpt-3.5-turbo & gpt-4 模型驱动的智能 Siri,支持连续对话,配置API key,配置系统prompt,保存聊天记录。

  • skydoves/chatgpt-android 在 Android 上使用 Stream Chat SDK for Compose 演示 OpenAI 的 ChatGPT。

  • Licoy/ChatGPT-Midjourney 一键拥有自己的 ChatGPT+Midjourney 网页服务

  • JimmyLv/BibiGPT-v1 音视频内容 AI 一键总结 & 对话:哔哩哔哩丨YouTube丨推特丨小红书丨抖音丨快手丨百度网盘丨阿里云盘丨网页丨本地文件等

  • 0xk1h0/ChatGPT_DAN 越狱提示,巧妙的解决方法,使我们能够充分利用 ChatGPT 的全部潜力。

  • waylaidwanderer/node-chatgpt-api ChatGPT 和 Bing AI 的客户端实现。可用作node.js模块、REST API 服务器和 CLI 应用程序。

  • khoj-ai/khoj 第二个大脑的AI副驾驶。在线或离线搜索和聊天您的个人知识库

  • yihong0618/xiaogpt 使用小米AI扬声器播放ChatGPT和其他LLM

  • openai/plugins-quickstart 在 5 分钟内启动并运行 ChatGPT 插件!

  • futantan/OpenGpt 在几秒钟内创建您自己的聊天GPT应用程序。

  • wzpan/wukong-robot 一个简单、灵活、优雅的中文语音对话机器人/智能音箱项目,支持ChatGPT多轮对话能力,还可能是首个支持脑机交互的开源智能音箱项目。

  • openai-translator/bob-plugin-openai-translator 基于 ChatGPT API 的文本翻译、文本润色、语法纠错 Bob 插件,让我们一起迎接不需要巴别塔的新时代

  • ConnectAI-E/Feishu-OpenAI 飞书 ×(GPT-4 + DALL·E + Whisper)= 飞一般的工作体验,语音对话、角色扮演、多话题讨论、图片创作、表格分析、文档导出

  • xiangsx/gpt4free-ts 提供免费的OpenAI GPT-4 API!这是 xtekky/gpt4free 版本的复制项目

  • sashabaranov/go-openai 为 OpenAI API 提供了非官方的 Go 客户端

  • ztjhz/BetterChatGPT OpenAI的ChatGPT(网站+ Windows + MacOS + Linux)的惊人UI。Better ChatGPT 是任何想要体验对话式 AI 无限力量的人的终极目的地。没有限制,完全免费使用,充分利用OpenAI的ChatGPT API的全部潜力,为您提供无与伦比的聊天机器人体验。

  • ramonvc/freegpt-webui GPT 3.5/4 与聊天网页用户界面。无需 API 密钥。

  • reorx/awesome-chatgpt-api 精选的应用程序和工具列表,这些应用程序和工具不仅使用新的 ChatGPT API,还允许用户配置自己的 API 密钥,从而免费和按需使用自己的配额。

  • embedchain/embedchain LLM 的数据平台 - 加载、索引、检索和同步任何非结构化数据,可以在任何数据集上轻松创建LLM驱动的机器人。支持的数据类型:视频、PDF、网页、网站地图、文档等

  • shibing624/textgen 文本生成模型的实现,包括LLaMA,BLOOM,GPT2,BART,T5,SongNet等。文本生成模型,实现了包括LLaMA,ChatGLM,BLOOM,GPT2,Seq2Seq,BART,T5,UDA等模型的训练和预测,开箱即用。

  • wangrui6/Zhihu-KOL 用于训练开放助手的知乎数据

  • JosephusCheung/GuanacoDataset Guanaco模型的数据集旨在增强多语言能力并解决各种语言任务。它以 Alpaca 模型中的 175 个任务为基础,提供不同语言的种子任务重写,并添加专门为英语语法分析、自然语言理解、跨语言自我意识和显式内容识别而设计的新任务。该数据集总共包含 534,530 个条目,以 6K 美元的低成本生成。

  • shawwn/llama-dl 高速下载 LLaMA,Facebook 的 65B 参数 GPT 模型

  • mit-han-lab/streaming-llm 具有注意力接收器的高效流语言模型,可以无限长度地输入LLM进行推理,而不会牺牲效率和性能。在需要长时间交互的多轮对话等流应用程序中部署大型语言模型 (LLM),但存在两个主要挑战。首先,在解码阶段,缓存先前令牌的键和值状态 (KV) 会消耗大量内存。其次,流行的LLM不能推广到比训练序列长度更长的文本。窗口注意,其中仅缓存最新的 KV,是一种自然的方法---但我们表明,当文本长度超过缓存大小时,它会失败。我们观察到一个有趣的现象,即注意力下沉,即保留初始代币的 KV 将在很大程度上恢复窗口注意力的性能。在本文中,我们首先证明了注意力下沉的出现是由于对初始令牌作为“接收器”的强烈注意力得分,即使它们在语义上并不重要。基于上述分析,我们引入了StreamingLLM,这是一个高效的框架,使使用有限长度注意力窗口训练的LLM能够推广到无限序列长度,而无需任何微调。StreamingLLM可以使Llama-2,MPT,Falcon和Pythia使用多达400万个代币或更多代币执行稳定高效的语言建模。此外,发现在预训练期间添加占位符令牌作为专用的注意力接收器可以进一步改进流式处理部署。在流设置中,StreamingLLM 的性能优于滑动窗口重新计算基线高达 22.2 倍的加速。

  • OpenBMB/AgentVerse 提供了一个灵活的框架,简化了为大型语言模型 (LLM) 构建自定义多代理环境的过程。

  • hahnyuan/PB-LLM 提出了部分二值化LLM(PB-LLM)的方法,可以实现极端低比特量化,同时保持量化LLM的语言推理能力。 具体来说,我们的探索首先揭示了现有二值化算法朴素应用的无效性,并强调了显著权重在实现低比特量化中的重要作用。因此,PB-LLM在二值化过程中过滤了一小部分突出权重,将它们分配给更高位的存储,即部分二值化。PB-LLM通过从训练后量化(PTQ)和量化感知训练(QAT)的角度进行分析,扩展以恢复量化LMM的能力。在PTQ下,结合GPTQ的概念,我们重构了以Hessian矩阵为指导的二值化权重矩阵,并成功恢复了PB-LLM在低位的推理能力。在QAT下,我们在训练过程中冻结了显著权重,探索了对最小化量化误差至关重要的最优比例因子的推导,并提出了一种基于该派生的残差二值化权重缩放策略的缩放机制。这些探索和开发的方法大大有助于恢复低比特量化LLM的性能,并在LLM的网络二值化领域取得实质性进展。

  • openai/openai-python OpenAI API 的官方 Python 库。提供了从用 Python 语言编写的应用程序对 OpenAI API 的便捷访问。它包括一组预定义的API资源类,这些类从API响应动态初始化自身,使其与各种版本的OpenAI API兼容。

编程语言大模型及相关项目

  • AntonOsika/gpt-engineer GPT 工程师易于调整、扩展,它根据提示生成整个代码库。指定您希望它构建的内容,AI 要求澄清,然后构建它。

  • THUDM/CodeGeeX2 更强大的多语言代码生成模型。基于 ChatGLM2 架构加入代码预训练实现,得益于 ChatGLM2 的更优性能,CodeGeeX2 在多项指标上取得性能提升(+107% > CodeGeeX;仅60亿参数即超过150亿参数的 StarCoder-15B 近10%)

  • KillianLucas/open-interpreter 终端中的 OpenAI 代码解释器,在本地运行。允许LLM在本地运行代码(Python,Javascript,Shell等)。您可以通过终端中类似 ChatGPT 的界面与开放解释器聊天。

  • THUDM/CodeGeeX 一个具有130亿个参数的大型多语言代码生成模型,在20多种语言的大型代码语料库上进行了预训练。

  • fauxpilot/fauxpilot GitHub Copilot服务器的开源替代品。构建GitHub Copilot的本地托管替代方案的尝试。它在NVIDIA的Triton Inference Server中使用SalesForce CodeGen模型和FasterTransformer后端。

  • Pythagora-io/gpt-pilot 使用GPT 帮助开发人员将构建应用的速度提高 20 倍

  • codefuse-ai/MFTCoder CodeFuse 的一个开源项目,用于多任务处理 Code-LLM(代码任务的大型语言模型),其中包括模型、数据集、训练代码库和推理指南。

  • salesforce/CodeT5 CodeT5的主页:用于代码理解和生成的开放代码LLM

  • mckaywrigley/ai-code-translator 使用 AI 将代码从一种语言翻译成另一种。

  • joshpxyne/gpt-migrate 轻松地将代码库从一种框架或语言迁移到另一种。由于 GPT-Migrate 旨在编写(并可能重写)整个代码库,因此成本可能会迅速增加。

  • microsoft/semantic-kernel 快速轻松地将尖端的LLM技术集成到您的应用程序中。将OpenAI,Azure OpenAI和Hugging Face等大型语言模型(LLM)与C#,Python和Java等传统编程语言集成在一起。语义内核通过允许您定义可以在几行代码中链接在一起的插件来实现这一点。

  • gencay/vscode-chatgpt 一个非官方的Visual Studio Code - OpenAI ChatGPT集成,在编程集成环境中使用GPT-4、3.5、3 或 Codex 模型加速编程开发。

  • shobrook/stackexplain 用 ChatGPT 解释您编程中的错误消息

  • eth-sri/lmql 一种用于类型化、约束引导和高效 LLM 编程的语言。一种基于Python超集的大型语言模型(LLM)的编程语言。LMQL 提供了一种将传统编程与在代码中调用 LLM 的能力交织在一起的新方法。它超越了传统的模板语言,在程序代码级别原生集成LLM交互。

  • ricklamers/gpt-code-ui OpenAI的ChatGPT代码解释器(生成代码、运行代码)的开源实现。

  • leetcode-mafia/cheetah Mac 应用程序,用于粉碎 AI 的远程技术面试。由 AI 驱动的 macOS 应用程序,旨在通过提供实时、谨慎的指导和实时编码平台集成,在远程软件工程面试期间为用户提供帮助。

  • continuedev/continue 软件开发的开源自动驾驶仪——将 ChatGPT 的强大功能引入 VS Code

  • TheR1D/shell_gpt 由 GPT-3 和 GPT-4 提供支持的命令行生产力工具将帮助您更快、更高效地完成任务。作为开发人员,我们可以利用 AI 功能来生成 shell 命令、代码片段、注释和文档等。忘记备忘单和笔记,使用此工具,您可以在终端中获得准确的答案,您可能会发现自己减少了日常Google搜索,从而节省了宝贵的时间和精力。

  • paul-gauthier/aider 命令行工具,可让您将程序与 GPT-3.5/GPT-4 配对,以编辑存储在本地 git 存储库中的代码。可以启动新项目或使用现有存储库。您可以在帮助者聊天(要求 GPT 编辑代码)和您自己的编辑器自己进行更改之间流畅地来回切换。

  • di-sukharev/opencommit 1秒内用AI自动生成令人印象深刻的git commit提交

  • zurawiki/gptcommit 一个 git prepare-commit-msg 钩子,用于使用 GPT-3 创作提交消息。使用此工具,您可以轻松生成清晰、全面和描述性的提交消息,让您专注于编写代码。

  • intitni/CopilotForXcode 一个 Xcode 源代码编辑器扩展,为 Xcode 提供 GitHub Copilot、Codeium 和 ChatGPT 支持。

  • mpociot/chatgpt-vscode 允许您使用 ChatGPT 的 VSCode 扩展

  • sahil280114/codealpaca 在代码生成指令上训练的 Instruction-following LLaMA Model。包括用于微调模型的 20K 数据。

  • ddzipp/AutoAudit 专门针对网络安全领域的大语言模型,其目标是为安全审计和网络防御提供强大的自然语言处理能力。它具备分析恶意代码、检测网络攻击、预测安全漏洞等功能,为安全专业人员提供有力的支持。采用了数据集组织方法Self-Instruct,该方法结合了人工标注和自我生成的数据。数据集主要来自于Github、Kaggle、安全网站、公开的安全漏洞数据集组成,随后经过清洗、数据增强等来构造对话数据。数据集严格按照Alpaca模型数据集格式组织,分为Instruction,input,output三部分,我们规定在output输出中应当包含对具体内容的分析(analysis),安全评级(label),安全风险(risk),以及对应的解决方案(solution)。

  • shroominic/codeinterpreter-api ChatGPT 代码解释器的 LangChain 实现。使用 CodeBox 作为沙盒 python 代码执行的后端。CodeBox是LLM应用程序的最简单的云基础架构。您可以使用自己的OpenAI API密钥在本地运行除LLM之外的所有内容。

  • gofireflyio/aiac 命令行工具,用于通过 OpenAI 的 API 生成 IaC(基础设施即代码)模板、配置、实用程序、查询等。CLI 允许您要求模型为不同的场景生成模板。它将发出请求,并将结果代码存储到文件中,或者只是将其打印到标准输出。

  • anc95/ChatGPT-CodeReview 由 ChatGPT 提供支持的代码审查机器人

  • sqlchat/sqlchat 基于聊天的 SQL 客户端和编辑器。基于聊天的 SQL 客户端,它使用自然语言与数据库通信,实现数据库的查询、修改、添加、删除等操作。

  • CodedotAl/gpt-code-clippy GitHub Copilot的开源版本,这是一种基于GPT-3的语言模型,称为GPT-Codex,根据GitHub公开可用的代码进行微调。

  • kuafuai/DevOpsGPT 用于 AI 驱动软件开发的多智能体系统。将LLM与DevOps工具相结合,将自然语言需求转换为工作软件。支持任何开发语言并扩展现有代码。

  • OpenBMB/ChatDev 使用自然语言创意创建定制软件(通过LLM驱动的多代理协作)

  • pleisto/flappy 适用于每个开发人员的生产就绪型 LLM 代理 SDK

  • https://github.com/TabbyML/tabby 一个自托管的AI编码助手,提供GitHub Copilot的开源和本地替代方案。

健康医学大模型及语料库

  • FreedomIntelligence/HuatuoGPT 华佗GPT,迈向驯服语言模型成为医生。在庞大的中国医学语料库上训练的大型语言模型(LLM)。我们与华拓GPT的目标是为医疗咨询场景构建更专业的“ChatGPT”。demo
  • SCIR-HI/Huatuo-Llama-Med-Chinese 本草(原名:华驼)模型仓库,基于中文医学知识的大语言模型指令微调

  • FreedomIntelligence/HuatuoGPT-sft-data-v1 华驼大语言模型的微调数据集

  • shibing624/medical 医疗数据集,可用于医疗领域大模型训练。共36万条,来自医疗百科数据。共8475条,来自医疗教材的文本数据。共195万条,来自1)中文医疗对话数据集 2)在线医疗百科 3)医疗知识图谱

  • michael-wzhu/PromptCBLUE 面向医学领域多任务少样本学习的中文大规模指令调优数据集

  • UCSD-AI4H/Medical-Dialogue-System 包含医生和患者之间的对话(中文)。它有 110 万次对话和 400 万条话语。数据在不断增长,并将添加更多对话。原始对话来自 haodf.com。数据的所有版权均属于 haodf.com。

  • lemuria-wchen/imcs21 IMCS-21 的新语料库基准,用于自动医疗咨询系统

  • 中文医疗信息处理评测基准CBLUE_数据集-阿里云天池 中国中文信息学会医疗健康与生物信息处理专业委员会在合法开放共享的理念下发起,由阿里云天池平台承办,并由医渡云、腾讯天衍、平安医疗、阿里夸克、北京、郑州、鹏城实验室、哈工大(深圳)、同济、中山、复旦、华东师范等开展智慧医疗研究的单位共同协办,旨在推动中文医学NLP技术和社区的发展。

  • shibing624/MedicalGPT 训练医疗大模型,实现包括二次预训练、有监督微调、奖励建模、强化学习训练。

  • SupritYoung/Zhongjing 基于LLaMa的中国医学ChatGPT,基于大规模训练前语料库和多回合对话数据集的训练。

  • PharMolix/OpenBioMed PharMolix和AI产业研究院(AIR)联合发布的首个商业友好型多模式生物医学基础模型。它将生命语言(分子结构和蛋白质序列)与人类自然语言保持一致,在生物医学QA基准上的表现与人类专家不相上下,并在跨模态分子和蛋白质问答任务中表现出强大的性能。DrugFM是由AIR和北京人工智能研究院(BAAI)联合开发的多模态分子基础模型。它利用UniMAP,一种预先训练的分子模型,可以捕获分子的细粒度属性和表示,并结合了我们的多模态分子基础模型MolFM。DrugFM在跨模态检索上实现了SOTA。

  • datasets/medical_dialog MedDialog数据集(中文)包含医生和患者之间的对话(中文)。它有 110 万次对话和 400 万条话语。数据在不断增长,并将添加更多对话。原始对话来自 haodf.com。MedDialog数据集(英语)包含医生和患者之间的对话(英语)。它有26万次对话。数据在不断增长,并将添加更多对话。原始对话来自 healthcaremagic.com 和 icliniq.com。

  • FreedomIntelligence/huatuo_encyclopedia_qa 该数据集共有 364,420 条医学 QA 数据,其中一些以不同的方式存在多个问题。我们从纯文本(例如,医学百科全书和医学文章)中提取医学QA对。我们在中文维基百科上收集了8,699个疾病百科词条和2,736个药物百科词条。此外,我们还从前文健康网站上抓取了226,432篇高质量的医学文章。

  • BillGPT/Chinese-medical-dialogue-data 中文医疗对话数据

  • FreedomIntelligence/CMB 全方位多层次测评模型医疗知识;测评复杂临床问诊能力;中药科考试;临床项目

  • WangRongsheng/XrayGLM 首个会看胸部X光片的中文多模态医学大模型

  • WangRongsheng/CareLlama 医疗大语言模型,同时它集合了数十个公开可用的医疗微调数据集和开放可用的医疗大语言模型以促进医疗LLM快速发展。

  • michael-wzhu/ChatMed 中文医疗大模型,善于在线回答患者/用户的日常医疗相关问题

  • X-jun-0130/LLM-Pretrain-FineTune 医疗大模型、预训练、微调

  • michael-wzhu/ShenNong-TCM-LLM “神农”大模型,首个中医药中文大模型.

  • michaelwzhu/ShenNong_TCM_Dataset 中医药指令数据集

  • michaelwzhu/ChatMed_Consult_Dataset 来自于互联网上的医疗问诊问题(11W),反映了真实世界的不同用户/患者的医疗问诊需求。目前response都是由OpenAI GPT-3.5引擎回答的。后续会对互联网上的医生回答与患者回答进行筛选甄别,择优选择,构建质量更优的数据集。

  • CMKRG/QiZhenGPT 利用启真医学知识库构建的中文医学指令数据集,并基于此在Chinese-LLaMA-Plus-7B、CaMA-13B、ChatGLM-6B模型上进行指令精调,大幅提高了模型在中文医疗场景下效果,首先针对药品知识问答发布了评测数据集,后续计划优化疾病、手术、检验等方面的问答效果,并针对医患问答、病历自动生成等应用展开拓展。

  • scutcyr/BianQue 中文医疗对话模型扁鹊(BianQue)。实际的医生与用户交谈往往会存在“医生根据用户当前的描述进行持续多轮的询问”。并且医生在最后根据用户提供的信息综合给出建议,如下图所示。我们把医生不断问询的过程定义为 询问链(CoQ, Chain of Questioning) ,当模型处于询问链阶段,其下一个问题通常由对话上下文历史决定。结合当前开源的中文医疗问答数据集(MedDialog-CN、IMCS-V2、CHIP-MDCFNPC、MedDG、cMedQA2、Chinese-medical-dialogue-data),分析其中的单轮/多轮特性以及医生问询特性,结合实验室长期自建的生活空间健康对话大数据,构建了千万级别规模的扁鹊健康大数据BianQueCorpus。对话数据通过“病人:xxx\n医生:xxx\n病人:xxx\n医生:”的形式统一为一种指令格式,训练数据当中混合了大量target文本为医生问询的内容而非直接的建议,这将有助于提升AI模型的问询能力。基于扁鹊健康大数据BianQueCorpus,我们选择了 ChatGLM-6B 作为初始化模型,经过全量参数的指令微调训练得到了新一代BianQue2.0。扩充了药品说明书指令、医学百科知识指令以及ChatGPT蒸馏指令等数据,强化了模型的建议与知识查询能力。BianQue

  • thomas-yanxin/Sunsimiao 孙思邈中文医疗大模型 :提供安全、可靠、普惠的中文医疗大模型

  • scutcyr/SoulChat 中文领域心理健康对话大模型

  • kbressem/medAlpaca 用于医学问答的微调大型语言模型,包括相关数据。

  • llSourcell/DoctorGPT 一种通过了美国医疗执照考试的大型语言模型。使命是为每个人提供自己的私人医生。基于 Meta 的 Llama2 70 亿参数语言模型,该模型在医学对话数据集上进行微调,然后使用强化学习和进一步改进。由于该模型的大小仅为 3 GB,因此它适用于任何本地设备,因此无需 API 即可使用它。免费的,供离线使用,可以保护患者的机密性,并且可以在iOS,Android和Web上使用。

  • itsharex/CareLlama 一个医疗大语言模型,同时它集合了数十个公开可用的医疗微调数据集和开放可用的医疗大语言模型以促进医疗LLM快速发展。

  • FudanDISC/DISC-MedLLM 利用大型语言模型在端到端对话式医疗保健服务中提供准确和真实的医疗响应。它可以满足您的各种医疗保健需求,包括疾病问诊和治疗方案咨询等,为您提供高质量的健康支持服务。构建了一个高质量的数据集Flmc/DISC-Med-SFT,包含超过47万个衍生于现有的医疗数据集重新构建得到的样本。采用了目标导向的策略,通过对于精心选择的几个数据源进行重构来得到SFT数据集。帮助模型学习医疗领域知识,将行为模式与人类偏好对齐,并对齐真实世界在线医疗对话的分布情况。

  • HIT-SCIR-SC/QiaoBan 中文儿童情感陪伴大模型“巧板”。基于通用大模型,使用了通用域人机对话数据、单轮指令数据以及儿童情感陪伴对话数据进行指令微调,训练得到,是通用大语言模型迁移至儿童情感陪伴领域的一次成功实践。三大特点:首先,基于情绪辅导理论构建的儿童情感陪伴对话数据,能够更有效地守护孩子的心理健康。其次,具有儿童心理学背景的志愿者与专家参与完成高质量对话数据的收集。使得能够更加准确地理解和回应儿童的需求,真正与他们建立深入的情感连接。最后,模型与儿童的交互方式更加贴心,让他们能够感受到温暖和认同,成为他们坚实成长道路上的得力伙伴。

  • qiuhuachuan/smile 开源的中文心理健康支持通用模型由 ChatGLM-6B LoRA 16-bit 指令微调得到。数据集通过扩展真实的心理互助 QA为多轮的心理健康支持多轮对话,提高了通用语言大模型在心理健康支持领域的表现,更加符合在长程多轮对话的应用场景。

  • camel-ai/camel 骆驼:大规模语言模型社会“心灵”探索的交际代理。一种名为角色扮演的新型交流代理框架。我们的方法涉及使用开始提示来指导聊天代理完成任务,同时保持与人类意图的一致性。我们展示了如何使用角色扮演来生成对话数据,以研究聊天代理的行为和功能,为研究对话语言模型提供宝贵的资源。我们的贡献包括引入一种新的通信代理框架,为研究多智能体系统的协作行为和能力提供可扩展的方法,以及开源我们的库以支持通信代理及其他方面的研究。演示,展示了两个 ChatGPT 代理之间的对话,扮演 python 程序员和股票交易员的角色,合作开发股票市场的交易机器人。

  • pariskang/CMLM-ZhongJing 首个中医大语言模型——"仲景"。受古代中医学巨匠张仲景深邃智慧启迪,专为传统中医领域打造的预训练大语言模型。有史以来第一个中医大语种模型——“CMLM-中京”。受中国古代医学大师张仲景深邃智慧的启发,是专为中医领域设计的预训练大语言模型。

  • Zlasejd/HuangDI 在 Ziya-LLaMA-13B-V1的基础上加入中医教材、中医各类网站数据等语料库,训练出一个具有中医知识理解力的语言模型(pre-trained ),之后在此基础上通过海量的中医古籍指令对话数据及通用指令数据进行有监督微调(SFT),使得模型具备中医古籍知识问答能力。以《中华医典》数据库为语料来源,约338MB,由两部分组成:①非结构化的“古籍文本”:涵盖了886本标点符号及内容完整的中医古籍。②结构化的“古籍辞典”:包含“名医”、“名言”、“名词”、“名著”等六大类,由中医学界诸多知名学者对中医古籍内容知识进一步系统提炼整理,是中医古籍内容精华最为直接的集中体现。

  • 2020MEAI/TCMLLM 通过大模型方式实现中医临床辅助诊疗(病证诊断、处方推荐等)中医药知识问答等任务,推动中医知识问答、临床辅助诊疗等领域的快速发展。构建的指令微调数据集包含8个数据来源,涵盖4本中医经典教科书《中医内科学》、《中医外科学》、《中医妇科学》和《中医儿科学》(即“内外妇儿”,Internal medicine,Surgery, Gynecology,Pediatrics,简称ISGP)、2020版中国药典(Chinese pharmacopeia,简称CHP)、中医临床经典医案数据(Chinese Medicine Clinical Cases,简称CMCC)、以及多个三甲医院的涵盖肺病(Lung)、中风病(Stroke)、糖尿病(Diabetes)、肝病(Liver)、脾胃病(Splenic and stomach diseases)等多病种的临床病历数据。8个数据集共68k条,token总数约为10M。

  • Kent0n-Li/ChatDoctor 使用医学领域知识在大型语言模型(LLaMA)上进行微调的医学聊天模型。数据集:来自 HealthCareMagic.com 100k的患者和医生之间的真实对话。 来自 ICLiniq-10K 的患者医生之间的 10k 真实对话。 5k从ChatGPT GenMedGPT-5k疾病数据库 生成了患者和医生之间的对话

  • chaoyi-wu/PMC-LLaMA 迈向构建医学开源语言模型”的官方代码。

  • X-D-Lab/MindChat 从心理咨询、心理评估、心理诊断、心理治疗四个维度帮助人们纾解心理压力与解决心理困惑, 提高心理健康水平. 作为一个心理大模型, MindChat通过营造轻松、开放的交谈环境, 以放松身心、交流感受或分享经验的方式, 与用户建立信任和理解的关系

  • FreedomIntelligence/huatuo_knowledge_graph_qa 华佗医疗知识图谱问答数据集

  • hejunqing/webMedQA 从在线健康咨询网站收集的真实中国医学问答数据集。

  • pubmedqa/pubmedqa 生物医学研究问答数据集

  • WENGSYX/CMCQA 中国医学领域庞大的对话问答数据集。收集自中国医学会话问答网站春雨,拥有男科、风暴科、妇产科等45个科室的医学对话资料。具体来说,CMCQA 有 130 万个完整的会话或 1983 万个语句或 6.5 亿个词元。同时,我们进一步开源所有数据,推动医疗领域会话问答相关领域的发展。

  • wangrongsheng/HealthCareMagic-100k-en 从在线医疗咨询网站HealthCareMagic收集了约10万例真实的医生-患者对话。通过手动和自动方式过滤这些数据,删除医生和患者的身份信息,并使用语言工具纠正语法错误。

  • wangrongsheng/icliniq-10k-en icliniq.com的1万例实际患者与医生之间对话

  • FreedomIntelligence/Huatuo-26M 规模最大的中国医学质量保证数据集:包含 2600万个问答对。

  • liyucheng/zhihu_rlhf_3k 知乎3000个用于RLHF(Reinforcement Learning from Human Feedback 基于人类反馈的强化学习)的数据

  • MediaBrain-SJTU/MedicalGPT-zh 基于ChatGLM的在高质量指令数据集微调的中文医疗对话语言模型

  • SCIR-HI/Med-ChatGLM 基于中文医学知识的ChatGLM指令微调

  • xionghonglin/DoctorGLM 基于ChatGLM-6B的中文问诊模型

  • WangRongsheng/MedQA-ChatGLM 基于真实医疗对话数据在ChatGLM上进行LoRA、P-Tuning V2、Freeze、RLHF等微调

  • Toyhom/Chinese-medical-dialogue-data 中文医疗对话数据集:Andriatria_男科 94596个问答对 IM_内科 220606个问答对 OAGD_妇产科 183751个问答对 Oncology_肿瘤科 75553个问答对 Pediatric_儿科 101602个问答对 Surgical_外科115991个问答对 总计 792099个问答对

  • WangRongsheng/IvyGPT 最贴近真实医生问诊效果的医疗大语言模型

  • 189569400/MedicalGPT-zh 基于医疗指令微调的中文医疗问诊模型

法律大模型及语料库

  • PKU-YuanGroup/ChatLaw 中文法律大模型。目前开源的仅供学术参考的版本底座为姜子牙-13B、Anima-33B,我们使用大量法律新闻、法律论坛、法条、司法解释、法律咨询、法考题、判决文书等原始文本来构造对话数据。

  • AndrewZhe/lawyer-llama 中文法律LLaMA,在大规模法律语料上进行了continual pretraining,让它系统的学习中国的法律知识体系。 在此基础上,我们借助ChatGPT收集了一批对中国国家统一法律职业资格考试客观题(以下简称法考)的分析和对法律咨询的回答,利用收集到的数据对模型进行指令微调,让模型习得将法律知识应用到具体场景中的能力。

  • CSHaitao/LexiLaw 经过微调的中文法律大模型,它基于 ChatGLM-6B 架构,通过在法律领域的数据集上进行微调,使其在提供法律咨询和支持方面具备更高的性能和专业性。

  • LiuHC0428/LAW-GPT 中文法律对话语言模型,由ChatGLM-6B LoRA 16-bit指令微调得到。数据集包括现有的法律问答数据集和基于法条和真实案例指导的self-Instruct构建的高质量法律文本问答,提高了通用语言大模型在法律领域的表现,提高了模型回答的可靠性和专业程度。

  • siat-nlp/HanFei 国内首个全参数训练的法律大模型 HanFei-1.0 韩非

  • davidpig/lychee_law 律知, 法律咨询大模型,Law-GLM-10B: 基于 GLM-10B 模型, 在 30GB 中文法律数据上进行指令微调.

  • coastalcph/lex-glue 英语法律语言理解的基准数据集

  • JoelNiklaus/LEXTREME 涵盖24种语言的11个数据集的法律基准测试。

  • zhihaiLLM/wisdomInterrogatory 由浙江大学、阿里巴巴达摩院以及华院计算三家单位共同设计研发的法律大模型。核心思想:以“普法共享和司法效能提升”为目标,从推动法律智能化体系入司法实践、数字化案例建设、虚拟法律咨询服务赋能等方面提供支持,形成数字化和智能化的司法基座能力。

  • pengxiao-song/LaWGPT 基于中文法律知识的大语言模型

  • seudl/JurisLMs 根据不同的场景在法律法规、法律咨询、裁判文书等多种不同的语料上进一步预训练了多个模型。其中,AI Judge是由GPT2在法学语料上进一步预训练之后,结合一个法条适用模型(一个基于BERT的分类器)微调得到的一个可解释法律判决预测模型。基于中文LLaMA的智能法律咨询模型,AI Lawyer。由于缺乏标注法条的咨询语料,我们采用主动学习(Active Learning)在少量数据上进行微调获得一个法律适用模型,使得AI Lawyer可以根据用户咨询适用正确的法律法规回答问题。

  • lvwzhen/law-cn-ai AI 法律助手,使用 pgvector 存储嵌入向量,使用OpenAI GPT 回答用户。

  • LawRefBook/Laws 本项目收集各类法律法规、部门规章、案例等,并将其按照章节等信息进行了处理。

  • FudanDISC/DISC-LawLLM 利用大型语言模型(LLM)提供广泛法律服务的智能法律系统。DISC-Law-SFT 数据集

其他大模型

  • gmftbyGMFTBY/science-llm 科学领域的大规模语言模型,在redpajama arXiv上训练

  • IMOSR/MediaGPT 中文的自媒体大语言模型MediaGPT(曾用名Media LLaMA)

  • ymcui/Chinese-LLaMA-Alpaca-2 中文 LLaMA-2 & Alpaca-2 大模型二期项目 + 本地CPU/GPU训练部署 (Chinese LLaMA-2 & Alpaca-2 LLMs)

  • FlagAlpha/Llama2-Chinese Llama中文社区,最好的中文Llama大模型,完全开源可商用

  • CVI-SZU/Linly 提供中文对话模型 Linly-ChatFlow 、中文基础模型 Chinese-LLaMA (1-2)、Chinese-Falcon 及其训练数据。中文基础模型以 LLaMA 和 Falcon 为底座,使用中文和中英平行语料进行增量预训练,将其在英文上的语言能力扩展到中文上。公开的多语言指令数据,对中文模型进行大规模指令跟随训练,实现了 Linly-ChatFlow。此外,本项目开源了从头训练的 Linly-OpenLLaMA 模型,包含 3B、7B、13B 规模,在 1TB 中英文语料上进行预训练,针对中文优化了字词结合tokenizer。

  • OpenBMB/CPM-Bee 一个完全开源、允许商用的百亿参数中英文基座模型,也是CPM-Live训练的第二个里程碑。它采用Transformer自回归架构(auto-regressive),在超万亿(trillion)高质量语料上进行预训练,拥有强大的基础能力。开发者和研究者可以在CPM-Bee基座模型的基础上在各类场景进行适配来以创建特定领域的应用模型。

  • OpenBMB/VisCPM 基于CPM基础模型的中英双语多模态大模型系列。支持面向图像进行中英双语多模态对话。该模型使用Muffin视觉编码架构,使用CPM-Bee(10B)作为语言基座模型,并通过语言建模训练目标融合视觉和语言模型。模型训练包括预训练和指令精调两阶段:1.预训练:我们使用约100M高质量英文图文对数据对VisCPM-Chat进行了预训练,数据包括CC3M、CC12M、COCO、Visual Genome、Laion等。在预训练阶段,语言模型参数保持固定,仅更新视觉编码器的参数,以支持大规模视觉-语言表示的高效对齐。2.指令精调:采用LLaVA-150K英文指令精调数据,并混合相应翻译后的中文数据对模型进行指令精调,以对齐模型多模态基础能力和用户使用意图。在指令精调阶段,更新全部模型参数,以提升指令精调数据的利用效率。有趣的是,发现即使仅采用英文指令数据进行指令精调,模型也可以理解中文问题,但仅能用英文回答。表明模型的多语言多模态能力已得到良好泛化。在指令精调阶段进一步加入少量中文翻译数据,可以将模型回复语言和用户问题语言对齐。

  • zjunlp/KnowLM 一个开源的知识渊博的大型语言模型框架。以知识和大模型为中心,利用构建的中英文预训练语料库,对LLaMA等大型模型进行全面预训练。基于KG2Instructions的技术,优化了包括NER、RE和IE在内的知识提取任务,可以使用人工指令完成。

  • zjunlp/KnowLM-IE · Datasets at Hugging Face 基于知识图谱构建的,提取实体关系三元组的指令数据集

  • ictnlp/BayLing “百聆”是基于LLaMA的对齐增强的英语/中文大语言模型,具有优越的中英文能力,在多语言和通用任务等测试中取得ChatGPT 90%的性能。

  • AtomEcho/AtomGPT 基于LLaMA的模型架构,从0开始训练,希望能在训练的过程中,将模型能力得到提升的进化过程展示出来,感受到模型学习的过程。

  • FMInference/FlexGen 单个 GPU 上运行大型语言模型,以实现面向吞吐量的方案。

  • bigscience-workshop/petals 在家运行LLM,BitTorrent风格。微调和推理速度比卸载快10 倍。Petals协作运行像Llama和BLOOM这样的大型语言模型 - 你加载模型的一小部分,然后加入为其他部分提供服务的人来运行推理或微调。

  • Anthropic/hh-rlhf Human preference data about helpfulness and harmlessness,有用性和无害性的人类偏好数据,关于有用和无害的人类偏好数据,来自从人类反馈中强化学习训练有用和无害的助手。这些数据旨在为后续的RLHF训练训练偏好(或奖励)模型。这些数据不适用于对话代理的监督训练。就这些数据对对话代理进行培训可能会导致有害的模型,应避免这种情况。来自红队语言模型的人工生成和注释的红队对话,以减少危害:方法、缩放行为和经验教训。这些数据旨在了解众包工人红队模型以及哪些类型的红队攻击成功与否。这些数据不用于微调或偏好建模(使用上面的数据进行偏好建模)。这些数据是从上述无害偏好建模数据派生的对话的完整记录,其中只有选择的响应被合并到整个脚本中。此外,成绩单还带有人工和自动测量的注释,以衡量整体对话的危害程度。

  • RUC-GSAI/YuLan-Chat 基于聊天的大型语言模型,由中国人民大学GSAI的研究人员开发(YuLan,代表玉兰,是中国人民大学的校园花)。最新版本是通过不断预训练和指令调整LLaMA-2开发的,具有高质量的中英文数据。

  • Yu-Yang-Li/StarGLM 整合了司天工程相关的语料数据与知识库资料,训练得到了天文大模型。司天工程是时域天文学所提出的“十五五”天文重大基础设施,一期计划在国内多个优选观测台址布置54台(18组)口径1米级的大视场望远镜,组成多波段同时监测网络,每30分钟完成1万平方度天区的高精度三色“凝视”巡天。司天的采样频率比全球其它巡天项目高近两个量级,将突破目前探测时标的限制,在新的空域和时域下发现大批新天体、新现象,在宇宙极端高能爆发源、引力波电磁对应体、系外行星和太阳系天体等理论和观测研究中形成新的突破,在“两暗一黑三起源”等重大科学问题研究以及地球文明灾难预警等国家空间安全问题方面发挥重要作用。

  • cocktailpeanut/dalai 在本地计算机上运行LLaMA语言模型的最简单方法

  • Neutralzz/BiLLa 开源的推理能力增强的中英双语LLaMA模型。

  • DUOMO/TransGPT 国内首款开源交通大模型,主要致力于在真实交通行业中发挥实际价值。能够实现交通情况预测、智能咨询助手、公共交通服务、交通规划设计、交通安全教育、协助管理、交通事故报告和分析、自动驾驶辅助系统等功能。可以为道路工程、桥梁工程、隧道工程、公路运输、水路运输、城市公共交通运输、交通运输经济、交通运输安全等行业提供通识常识。以此为基础,可以落脚到特定的交通应用场景中。

  • Duxiaoman-DI/XuanYuan 轩辕:首个千亿级中文金融对话模型。在BLOOM-176B的基础上针对中文通用领域和金融领域进行了针对性的预训练与微调,它不仅可以应对通用领域的问题,也可以解答与金融相关的各类问题,为用户提供准确、全面的金融信息和建议。

  • chancefocus/PIXIU 貔貅。第一个开源金融大型语言模型 (LLM)、指令调整数据和评估基准,用于全面评估金融 LLM。我们的目标是不断推动金融人工智能(AI)的开源发展。几个关键组件:FLARE:我们的金融语言理解和预测评估基准。FLARE作为金融LLM的评估套件,重点是理解和预测各种金融环境中的任务。FIT:我们的财务指令数据集。FIT是专门为财务任务量身定制的多任务和多模态指令数据集。它是为这些任务微调LLM的培训基地。FinMA:我们的金融大语言模型(LLM)。FinMA是我们项目的核心,为我们的财务任务提供学习和预测能力。主要特点:开放资源:PIXIU公开提供财务LLM,指令调整数据和评估基准中包含的数据集,以鼓励开放研究和透明度。多任务:PIXIU中的指令调优数据和基准测试涵盖了多种财务任务,包括4个财务NLP任务和1个财务预测任务。多模态:PIXIU的指令调优数据和基准由多模态财务数据组成,包括来自股票运动预测任务的时间序列数据。它涵盖了各种类型的金融文本,包括报告、新闻文章、推文和监管文件。多样性:与以前主要关注财务NLP任务的基准不同,PIXIU的评估基准包括与现实世界场景相一致的关键财务预测任务,使其更具挑战性。以及FLARE 2.0:金融语言理解和预测评估基准。

  • MetaGLM/FinGLM 致力于构建一个开放的、公益的、持久的金融大模型项目,利用开源开放来促进「AI+金融」。旨在深度解析上市公司年报的对话交互智能系统。面对金融文本中的专业术语与暗含信息,我们致力于用AI实现专家级别的金融分析。上市公司年报为投资者呈现了公司的经营状况、财务状况和未来规划。专业知识是解读的关键,而我们的目标是通过AI技术让这一过程变得更简单、更准确。

  • SUFE-AIFLM-Lab/FinEval 包含金融、经济、会计和证书等领域高质量多项选择题的集合。

  • SALT-NLP/FLANG 金融领域的基准测试和大型预训练语言模型

  • blcuicall/taoli 适用于国际中文教育领域的大模型 “桃李”(Taoli)1.0 ,在国际中文教育领域数据上进行了额外训练的模型。基于目前国际中文教育领域流通的500余册国际中文教育教材与教辅书、汉语水平考试试题以及汉语学习者词典等,构建了国际中文教育资源库。 设置了多种形式的指令来充分利用知识,构造了共计 88k 条的高质量国际中文教育问答数据集,并利用收集到的数据对模型进行指令微调,让模型习得将国际中文教育知识应用到具体场景中的能力。

  • icalk-nlp/EduChat 开源中英教育对话大模型。(通用基座模型,GPU部署,数据清理)

  • yongzhuo/chatglm-maths chatglm-6b微调/LORA/PPO/推理, 样本为自动生成的整数/小数加减乘除运算, 可gpu/cpu

  • MineDojo/Voyager 航海家:具有大型语言模型的开放式具身代理。是 Minecraft 中第一个由 LLM 驱动的体现的终身学习代理,它不断探索世界,获得各种技能,并在没有人为干预下做出新的发现。由三个组件组成:1)最大化探索的自动课程,2)不断增长的可执行代码技能库,用于存储和检索复杂行为,以及3)新的迭代提示机制,其中包含环境反馈,执行错误和自我验证以改进程序。Voyager通过黑盒查询与GPT-4交互,这绕过了模型参数微调。从经验上讲,Voyager表现出强大的上下文终身学习能力,并在玩Minecraft方面表现出非凡的熟练程度。它获得的独特物品增加了 3.3×,旅行距离延长了 2.3×,解锁关键科技树里程碑的速度比之前的 SOTA 快了 15.3×。Voyager能够利用在新的Minecraft中学到的技能库从头开始解决新任务,而其他技术则难以概括。

  • DAMO-NLP-SG/Video-LLaMA 为大型语言模型提供视频和音频理解功能。Video-LLaMA建立在BLIP-2和MiniGPT-4之上。它由两个核心组件组成:(1)视觉语言(VL)分支和(2)音频语言(AL)分支。VL 分支(可视编码器:ViT-G/14 + BLIP-2 Q 前置器),引入两层视频Q-Forform和帧嵌入层(应用于每帧的嵌入)来计算视频表示。使用视频到文本生成任务在 Webvid-2M 视频字幕数据集上训练 VL Branch。我们还将图像文本对(来自LLaVA的~595K图像标题)添加到预训练数据集中,以增强对静态视觉概念的理解。在预训练之后,我们使用来自MiniGPT-4,LLaVA和VideoChat的指令调整数据进一步微调我们的VL Branch。AL 分支(音频编码器:ImageBind-Huge): 引入两层音频Q-Forform和音频段嵌入层(应用于每个音频段的嵌入)来计算音频表示。由于使用的音频编码器(即 ImageBind)已经跨多个模态对齐,因此我们仅根据视频/图像指令数据训练 AL Branch,只是为了将 ImageBind 的输出连接到语言解码器。在跨模态训练期间,只有视频/音频、位置嵌入层和线性层可训练。

  • Timothyxxx/Chain-of-ThoughtsPapers 思维链的相关论文。大型语言模型中的思维链促使了推理能力的产生。

  • kyegomez/tree-of-thoughts 即插即用 思想之树的实现:使用大型语言模型进行深思熟虑的问题解决,将模型推理提升至少 70%

  • promptslab/Awesome-Prompt-Engineering 包含用于提示工程的手工策划资源,重点是生成式预训练变压器 (GPT)、ChatGPT、PaLM 等

  • GitHubDaily/ChatGPT-Prompt-Engineering-for-Developers-in-Chinese 《面向开发者的 ChatGPT 提示词工程》非官方版中英双语字幕

  • timqian/openprompt.co OpenPrompt.co 上加星标最多的提示列表。该列表每 24 小时更新一次。

  • thinkingjimmy/Learning-Prompt 免费的快速提示工程在线课程。ChatGPT 和 Midjourney 教程现在包括在内!

  • trigaten/Learn_Prompting 关于快速提示工程的免费开源指南。

  • prompt-engineering/prompt-patterns Prompt 编写模式:如何将思维框架赋予机器,以设计模式的形式来思考 prompt

  • L1Xu4n/Awesome-ChatGPT-prompts-ZH_CN 如何将ChatGPT调教成一只猫娘。

  • prompt-engineering/click-prompt 简化您的提示设计,使用 ClickPrompt,您只需单击一下即可轻松查看、共享和运行这些提示。ClickPrompt 用于一键轻松查看、分享和执行您的 Prompt。

  • mattnigh/ChatGPT3-Free-Prompt-List 学习创建 ChatGPT3 提示的免费指南

  • yzfly/LangGPT 让每个人都能成为及时的专家! 结构化提示词,结构化提示词。

  • OpenMindClub/awesome-chatgpt 关于ChatGPT的一切,精选的应用程序和工具列表。

  • EgoAlpha/prompt-in-context-learning 用于上下文学习和快速工程的出色资源:掌握 ChatGPT、GPT-3 和 FlanT5 等 LLM,并提供最新和前沿的更新。

  • hegelai/prompttools 用于快速测试和实验的开源工具,支持LLM(例如OpenAI,LLaMA)和矢量数据库(例如Chroma,Weaviate,LanceDB)。

  • uptrain-ai/uptrain 一个Python框架,通过允许用户检查正确性,结构完整性,偏见,幻觉等方面来确保您的LLM应用程序可靠地运行。

  • ypwhs/CreativeChatGLM 欢迎来到 ChatGLM 创意世界!你可以使用修订和续写的功能来生成创意内容!

  • KevinWang676/ChatGLM2-Voice-Cloning 和喜欢的角色沉浸式对话吧:ChatGLM2+声音克隆+视频对话

  • melih-unsal/DemoGPT 只需使用句子即可创建 LangChain 应用程序。具有基础模型功能的自动 Gen-AI 应用程序生成器。

  • soulteary/docker-llama2-chat 一起玩LLaMA2 (官方 / 中文版 / INT4 / 骆驼2.cpp) 一起玩!只需3个步骤!( 非 GPU / 5GB vRAM / 8~14GB vRAM)

  • X-PLUG/mPLUG-Owl 模块化赋能多模态大型语言模型,一种针对大型多模态语言模型的模块化设计的新训练范式。学习视觉知识,同时支持由不同形式(图像/视频/文本)组成的多回合对话。观察能力,如多图像关联和场景文本理解,基于视觉的文档理解。发布与视觉相关的指令评估集 OwlEval。

  • homanp/superagent 超级代理 - 构建、部署和管理 LLM 支持的代理。一个强大的工具,可简化 LLM(大型语言模型)代理到生产的配置和部署。它提供了一系列特性和功能,使开发人员能够更轻松地构建、管理和将 AI 代理部署到生产环境,包括通过矢量数据库、强大的工具、Webhook、cron 作业等构建内存和文档检索等功能。

  • airaria/Visual-Chinese-LLaMA-Alpaca 基于中文LLaMA&Alpaca模型开发的多模态中文大模型。VisualCLA在中文LLaMA/Alpaca模型上增加了图像编码等模块,使LLaMA模型可以接收视觉信息。在此基础上,使用了中文图文对数据进行了多模态预训练,对齐图像与文本表示,赋予其基本的多模态理解能力;并使用多模态指令数据集精调,增强其对多模态指令的理解、执行和对话能力。

  • LinkSoul-AI/LLaSM 第一个支持中英文语音-文本多模态对话的开源可商用对话模型。便捷的语音输入将大幅改善以文本为输入的大模型的使用体验,同时避免了基于 ASR 解决方案的繁琐流程以及可能引入的错误。

  • DAMO-NLP-MT/PolyLM 多语言大型语言模型,旨在解决当前LLM研究中的以下空白和局限性,为推进这一领域提供全面和创新的解决方案。涵盖 18 种最常用的语言。PolyLM精通全球主要的非英语语言,如西班牙语,俄语,阿拉伯语,日语,韩语,泰语,印度尼西亚语和中文等。它是对现有开源模型的完美补充,包括:(1)LLaMA,其中英语在整个数据集中占主导地位。(2)BLOOM,未能解决大量人口使用的语言,如日语,韩语和泰语。更好的多语言教学跟踪能力。我们建议MULTIALPACA来补充ALPACA和CHINESEALPACA,使LLM更好地遵循多语言说明,特别是那些来自非英语母语人士的指示。强劲的性能。与具有相似模型大小的流行多语言LLM相比,PolyLM在各种任务(包括QA,理解和生成)上表现出卓越的性能。

  • lyogavin/Anima 第一个开源的基于QLoRA的33B中文大语言模型。基于QLoRA开源的33B guanaco训练了10000 steps。训练使用一个H100 GPU。

  • Alibaba-NLP/EcomGPT 一种面向电子商务的指令调优大语言模型。共有250万条指令数据。使用电子商务基本数据类型(如产品信息,用户评论)构建原子任务来扩展数据大小和任务多样性。原子任务被定义为隐含参与解决最终任务的中间任务,我们也称之为任务链任务。

  • davendw49/k2 一种开源语言模型,首先在收集和清理的地球科学文献(包括地球科学开放获取论文和维基百科页面)上进一步预训练LLaMA,其次使用知识密集型指令调整数据(GeoSignal)进行微调。至于初步评估,我们使用GeoBench(由NPEE和AP地质,地理和环境科学测试组成)作为基准。与具有相似参数的几个基线模型相比,K2 在客观和主观任务上的表现优于基线。

  • neukg/TechGPT “东北大学知识图谱研究组”发布的垂直领域大语言模型。强化了如下任务:以“知识图谱构建”为核心的关系三元组抽取等各类信息抽取任务。以“阅读理解”为核心的各类智能问答任务。以“文本理解”为核心的关键词生成等各类生成任务。

  • microsoft/i-Code 构建集成和可组合的多模态人工智能。“i”代表综合多模态学习。

  • arc53/DocsGPT GPT 支持的文档聊天,与您的文档聊天

  • guangzhengli/ChatFiles 文档聊天机器人 — 多个文件。由 GPT / 嵌入提供支持。

  • whitead/paper-qa 从PDF或文本文件(可以是原始HTML)进行问答。它努力通过文本引用来提供非常好的答案,没有幻觉。使用OpenAI嵌入和称为FAISS的矢量数据库来嵌入和搜索文档。

  • huggingface/text-generation-inference 用于文本生成推理的 Rust、Py 和 gRPC 服务器。在HuggingFace的生产中使用,以支持Hugging Chat,推理API和推理端点。

  • mylxsw/aidea 一款支持 GPT 以及国产大语言模型通义千问、文心一言等,支持 Stable Diffusion 文生图、图生图、 SDXL1.0、超分辨率、图片上色的全能型 APP。

  • jmorganca/ollama 在本地启动并运行 Llama 2 和其他大型语言模型

  • serge-chat/sergellama.cpp运行Alpaca羊驼模型。没有API密钥,完全自托管

  • zetavg/LLaMA-LoRA-Tuner 用于微调和测试您自己的 LoRA 模型的 UI 工具基于 LLaMA, GPT-J 等.一键运行在谷歌Colab上。+ 一个类似 Gradio ChatGPT 的聊天用户界面,用于演示您的语言模型。

  • vercel-labs/ai-chatbot 使用 Next.js、Vercel AI SDK、OpenAI 和 Vercel KV 构建的开源 AI 聊天机器人应用程序模板。

  • RockChinQ/QChatGPT 高稳定性、支持插件、实时联网的 ChatGPT QQ 机器人 | 支持 Claude、Google Bard、gpt4free、One API 的 QQ 机器人平台

  • zhayujie/bot-on-anything 将 ChatGPT、必应、文心一言、谷歌Bard 等对话模型连接各类应用,如微信、公众号、QQ、Telegram、Gmail、Slack、Web、企业微信、飞书、钉钉等。

  • askrella/whatsapp-chatgpt WhatsApp机器人使用OpenAI的GPT和DALL-E 2来响应用户输入。

  • AutumnWhj/ChatGPT-wechat-bot 几步即可获得一个基于 ChatGPT 的微信机器人

  • wangrongding/wechat-bot 基于OpenAi ChatGPT + WeChaty 实现的微信机器人 ,可以用来帮助你自动回复微信消息,或者管理微信群/好友,检测僵尸粉等...

  • OpenGVLab/InternGPT 开源演示平台,您可以在其中轻松展示您的 AI 模型。现在它支持DragGAN,ChatGPT,ImageBind,多模态聊天,如GPT-4,SAM,交互式图像编辑等

  • TBXark/ChatGPT-Telegram-Workers 在Cloudflare Workers上轻松部署您自己的Telegram ChatGPT机器人。

  • leon-ai/leon 您的开源个人助理。Leon的NLU将首先使用自己的模型,而不依赖LLM。重要的是,Leon可以100%离线运行,我相信,通过量化等缩小技术,Leon迟早会以LLM为核心,并且仍然能够在边缘运行。

  • minimaxir/simpleaichat Python 包可轻松与聊天应用程序接口,具有强大的功能和最小的代码复杂性。可轻松与ChatGPT和GPT-4等聊天应用程序接口,具有强大的功能和最小的代码复杂性。

  • josStorer/RWKV-Runner RWKV管理和启动工具,完全自动化,只有8MB。并提供与OpenAI API兼容的接口。RWKV 是一种完全开源的大型语言模型,可用于商业用途。

  • hahahumble/speechgpt 一个Web应用程序,使您能够与ChatGPT交谈。

  • jackMort/ChatGPT.nvim Neovim插件:使用ChatGPT API轻松生成自然语言

  • 869413421/chatgpt-web 基于ChatGPT3.5 API实现的私有化web程序

  • pashpashpash/vault-ai 使用 OP Stack(OpenAI + Pinecone Vector Database)为 ChatGPT 提供长期记忆。使用简单的 React 前端上传您自己的自定义知识库文件(PDF、txt、epub 等)。

  • ourongxing/chatgpt-vercel 优雅而有力的网页ChatGPT界面。由OpenAI和Vercel提供支持。

  • PlexPt/chatgpt-java ChatGPT Java SDK。支持 GPT3.5、 GPT4 API。开箱即用。

  • Chainlit/chainlit 在几分钟内构建Python LLM应用程序

  • gd3kr/BlenderGPT 使用英语命令通过OpenAI的GPT-4控制Blender。

  • varunshenoy/GraphGPT 使用 GPT-3 从非结构化文本推断知识图谱

  • zhaoyingjun/chatbot ChatGPT带火了聊天机器人,主流的趋势都调整到了GPT类模式,本项目也与时俱进,会在近期更新GPT类版本。基于本项目和自己的语料可以训练出自己想要的聊天机器人,用于智能客服、在线问答、闲聊等场景。

  • Significant-Gravitas/Auto-GPT-Plugins 用于自动 GPT 的插件。插件分为两类:第一方和第三方。第一方插件是广泛使用的插件精选列表。它们在安装插件平台时默认安装。第三方插件需要单独添加。它们可能对您的特定需求有用。

  • chatanywhere/GPT_API_free Free ChatGPT API Key,免费ChatGPT API,支持GPT4 API(低价),ChatGPT国内可用免费转发API,直连无需代理。可以搭配ChatBox等软件/插件使用,极大降低接口使用成本。国内即可无限制畅快聊天。

  • PromtEngineer/localGPT 无缝集成各种开源大模型,在本地设备上与您的文档聊天。没有数据离开您的设备,100%私密。

  • shreyashankar/gpt3-sandbox 使用户能够使用新发布的OpenAI GPT-3 API创建很酷的Web演示,只需几行Python。

  • mayooear/gpt4-pdf-chatbot-langchain GPT4 和 LangChain 聊天机器人,适用于大型 PDF 文档

  • whoiskatrin/chart-gpt 基于文本输入GPT构建图表的AI工具

  • nomic-ai/gpt4all 在 CPU 上本地运行的开源助手样式大型语言模型

  • langchain-ai/chat-langchain 本地托管的聊天机器人的实现,专门针对 LangChain 文档的问答。使用 LangChain、FastAPI 和 Next.js 构建。该应用程序利用 LangChain 的流媒体支持和异步 API 为多个用户实时更新页面。

  • PrefectHQ/marvin 构建激发欢乐的 使用生成式 AIAI 界面。一个轻量级的 AI 工程框架,用于构建可靠、可扩展且易于信任的自然语言界面。

  • microsoft/autogen 支持使用多个代理开发LLM应用程序,这些代理可以相互交谈以解决任务。AutoGen 代理是可定制的、可对话的,并且无缝地允许人工参与。它们可以在各种模式下运行,这些模式采用LLM,人力输入和工具的组合。

  • assafelovic/gpt-researcher 基于 GPT 的自主代理,可对任何给定主题进行在线综合研究。可以生成详细、事实和公正的研究报告,并提供自定义选项,以专注于相关资源、大纲和课程。受最近的计划和求解和RAG(检索增强生成)论文的启发,GPT 研究员解决了速度、确定性和可靠性问题,通过并行代理工作提供更稳定的性能和更高的速度,而不是同步操作。

  • GAIR-NLP/abel 数学大语言模型,为了向尼尔斯·亨里克·阿贝尔(Niels Henrik Abel)在代数和分析方面的开创性工作致敬而创建的,我们的模型也相对较好。

  • ray-project/llm-numbers 每个LLM开发人员都应该知道的数字

  • THUDM/MathGLM GPT 可以在没有计算器的情况下解决数学问题

  • thunlp/WebCPM 中文长篇问答的交互式网络搜索的官方代码。使用中文预训练模型进行交互式Web搜索的项目。开发了一个网络搜索界面,它既收集人类又收集网络搜索行为。然后,使用多达 10B 的参数微调 PLM,以模仿人类的网络搜索行为,并根据收集到的事实生成答案。开源了 Web 搜索界面、数据集、实现和模型参数。

其他_文本生成、文本对话

  • Awesome-TOD-NLG-Survey 面向任务的对话系统 (TOD) 中自然语言生成的调查:最新进展和新前沿

  • openai/gpt-3 语言模型是少样本的学习器。最近的工作表明,通过对大量文本语料库进行预训练,然后对特定任务进行微调,在许多NLP任务和基准测试上取得了实质性进展。虽然在架构中通常与任务无关,但这种方法仍然需要特定于任务的数千或数万个示例的微调数据集。相比之下,人类通常只能从几个例子或简单的指令中执行新的语言任务——这是当前NLP系统仍然难以做到的。在这里,我们表明,扩展语言模型可以大大提高与任务无关的少镜头性能,有时甚至可以通过先前最先进的微调方法达到竞争力。具体来说,我们训练 GPT-3,一种具有 1750 亿个参数的自回归语言模型,比之前任何非稀疏语言模型多 10 倍,并在少数镜头设置中测试其性能。对于所有任务,GPT-3 在没有任何梯度更新或微调的情况下应用,任务和少数镜头演示纯粹通过与模型的文本交互来指定。GPT-3 在许多 NLP 数据集上实现了强大的性能,包括翻译、问答和完形填空任务,以及一些需要即时推理或领域适应的任务,例如解密单词、在句子中使用新单词或执行 3 位数算术。同时,我们还确定了 GPT-3 的少数镜头学习仍在挣扎的一些数据集,以及 GPT-3 面临与大型网络语料库训练相关的方法问题的一些数据集。最后,我们发现 GPT-3 可以生成人类评估人员难以区分的新闻文章样本与人类撰写的文章。我们讨论了这一发现和一般 GPT-3 更广泛的社会影响。

  • openai/gpt-2 论文“语言模型是无监督的多任务学习者”中的代码和模型。

  • karpathy/minGPT OpenAI GPT(生成预训练转换器)训练的最小PyTorch 重新实现

  • karpathy/nanoGPT 用于训练/微调中型 GPT(GPT-2) 的最简单、最快的存储库。

  • minimaxir/gpt-2-simple Py包可以轻松地在新文本上重新训练 OpenAI 的 GPT-2 文本生成模型

  • XiangLi1999/PrefixTuning 前缀微调:优化文本生成的连续提示模板。提出一种更好的微调方法,通过加入前缀实现统一模型在不同任务上的微调,实现小样本学习,极大地减少了参数量。目前对于前缀的构造,大致可以分为本文的连续前缀和离散前缀(自动生成或手动设计),对于在摘要任务上加入离散前缀,有点类似于从对话中提取特征或结构,但这种方法的优势就在于它不需要大量的样本,而传统的融入结构的方法仍然需要很多样本。

  • RUCAIBox/TextBox 基于Python和PyTorch开发的,用于在一个统一的、全面的、高效的框架中复现和开发文本生成算法,主要面向研究者使用。我们的库包括16种文本生成算法,涵盖了两个主要任务:无条件(无输入)生成、序列到序列(Seq2Seq)生成,包括机器翻译和摘要生成。模型 无条件:LSTMVAE (Bowman et al., 2016)、CNNVAE (Yang et al., 2017)、HybridVAE (Semeniuta et al., 2017)、SeqGAN (Yu et al., 2017)、TextGAN (Zhang et al., 2017)、RankGAN (Lin et al., 2017)、MaliGAN (Che et al., 2017)、LeakGAN (Guo et al., 2018)、MaskGAN (Fedus et al., 2018)。序列到序列 RNN (Sutskever et al., 2014)、Transformer (Vaswani et al., 2017b)、GPT-2 (Radford et al.)、XLNet (Yang et al., 2019)、BERT2BERT (Rothe et al., 2020)、BART(Lewis et al。,2020)

  • BART Bidirectional and Auto-Regressive Transformers 是以去噪为预训练目标训练的序列间模型, 一种符合生成任务的预训练方法。我们证明了这种预训练目标更为通用,并且证明了我们可以在SQuAD和GLUE上匹配RoBERTa的结果,并在摘要(XSum,CNN数据集)、长形式生成性问答(ELI5)和对话-反应生成(ConvAI2)上获得最新的结果。在生成任务上显著高于BERT, UniLM, XLNet, RoBERTa等模型

  • fastnlp/CPT 中文预训练非平衡转换器 (CPT) ,它是一种非平衡 Transformer 编码器-解码器,联合 MLM 和 DAE 进行预训练。用于汉语理解和生成的预训练.

  • songhaoyu/BoB BERTOverBERT用于从有限的个性化数据训练基于角色的对话模型。分解为了两个子任务,从有限的角色化对话数据中进行学习。

  • YunwenTechnology/QueryGeneration 智能扩充机器人的“标准问”库之Query生成

  • beyondguo/genius 强大的有条件文本生成模型,以草稿为输入,在给定的草稿(文本范围、短语或单词的关键信息)中填充缺失的上下文,在大规模文本语料库上进行预训练,用一种极端和选择性的掩蔽策略从草稿目标进行新的重建,使它能够生成给定素描的多样化和高质量的文本。

  • imcaspar/gpt2-ml GPT2 多语言支持, 15亿参数中文预训练模型

  • EleutherAI/gpt-neo 模型并行GPT2和类似GPT3的模型的实现,能够使用mesh-tensorflow库扩展到完整的GPT3尺寸(甚至可能更多!)。

  • rikdz/GraphWriter 基于图Transformer从知识图谱中生成文本

  • liucongg/GPT2-NewsTitle GPT2.带有超级详细注释的中文GPT2新闻标题生成项目。

  • ZhuiyiTechnology/t5-pegasus 中文生成式预训练模型,以mT5为基础架构和初始权重,通过类似PEGASUS的方式进行预训练。

  • google-research/text-to-text-transfer-transformer T5的理念就是“万事皆可 Seq2Seq”,它使用了标准的 Encoder-Decoder 模型,并且构建了无监督/有监督的文本生成预训练任务,最终将效果推向了一个新高度。

  • google-research/multilingual-t5 T5 的多国语言版

  • Morizeyao/GPT2-Chinese GPT2中文文生模型,包括散文、诗词、对联、通用中文、中文歌词、文言文

  • bojone/t5_in_bert4keras 在keras中使用T5模型 ,用mT5 small版本finetune出来的 CSL 标题生成模型,BLEU 指标能持平基于 WoBERT 的 UniLM 模型,并且解码速度快 130%;而用 mT5 base 版本 finetune 出来的 CSL 标题生成模型,指标能超过基于 WoBERT 的 UniLM 模型 1% 以上,并且解码速度也能快 60%。

  • PENS-Personalized-News-Headline-Generation 新闻头条生成数据集和通用框架

  • Aristotle609/Medium-Title-Generator 生成数据科学文章标题的模型

  • yangjianxin1/GPT2-chitchat 用于中文闲聊的GPT2文本对话模型

  • EssayKillerBrain/WriteGPT 基于开源GPT2.0的初代创作型人工智能 | 可扩展、进化

  • RUCAIBox/MVP 自然语言生成的多任务监督预训练。遵循标准的转换器编码器-解码器架构。使用标记数据集进行监督预训练。还具有特定于任务的软提示,以刺激模型执行特定任务的能力。专为自然语言生成而设计,可以适应各种生成任务。我们的模型也可以适应自然语言理解任务。收集了7种代表性生成任务的45个有标签数据集,共计3200千万条样本(23GB),来作为预训练语料。第一阶段,使用这些语料训练一个标准的Transformer,即MVP;第二阶段,冻结住MVP,利用每个任务的数据训练任务特定的连续型提示(即7组提示)。

  • RUCAIBox/Context-Tuning 上下文调优:学习上下文提示用于自然语言生成

  • samueldobbie/markup 基于Web的文档注释工具,由GPT-3  提供支持

  • deeppavlov/DeepPavlov 用于深度学习端到端对话系统和聊天机器人的开源库。

  • bentrevett/pytorch-seq2seq 使用 PyTorch 和 TorchText 实现一些序列到序列 (seq2seq) 模型的教程。

  • RasaHQ/rasa 开源机器学习框架,用于自动化基于文本和语音的对话:NLU、对话管理、连接到 Slack、Facebook 等 - 创建聊天机器人和语音助手

  • gunthercox/ChatterBot 一个机器学习的对话对话引擎,用于创建聊天机器人

  • howdyai/botkit 一个开源开发人员工具,用于为主要消息传递平台构建聊天机器人、应用程序和自定义集成。

  • 0hq/WebGPT 使用 WebGPU 在浏览器上运行 GPT 模型。在不到 ~1500 行的原版 Javascript 中实现 GPT 推理。

文本匹配 文本相似度

  • princeton-nlp/SimCSE SimCSE:句子嵌入的简单对比学习 。提供无监督或有监督的对比学习。是目前文本相似度更好的方法。

  • UKPLab/sentence-transformers 句子转换器:使用BERT RoBERTa XLM-RoBERTa&Co.和PyTorch的多语言句子嵌入

  • bojone/CoSENT 比Sentence-BERT更有效的句向量方案.优化cos值的新方案CoSENT(Cosine Sentence)。实验显示,CoSENT在收敛速度和最终效果上普遍都比InferSent和Sentence-BERT要好。

  • shawroad/CoSENT 比Sentence-BERT更有效的句向量方案 Pytorch版

  • shuxinyin/SimCSE-Pytorch 中文SimCSE+ESimCSE的无监督 + 有监督实现

  • wangyuxinwhy/uniem 统一嵌入模型,目标是创建中文最好的通用文本嵌入模型。202306发布 M3E models ,在中文文本分类和文本检索上均优于 openai text-embedding-ada-002。

  • thunlp/OpenMatch 总体架构包括两大部分:一是相关文档检索,即根据用户检索词,从大规模文档集合中返回最相关的Top-K(K通常为100或1000)文档。二是文档重排序,即将各神经网络模型和非神经网络模型的排序特征整合,对Top-K文档重排序,进一步提升排序效果。OpenMatch提供了融合外部知识图谱信息的知识增强模型,和筛选大规模数据的数据增强模型。

  • NTMC-Community/MatchZoo-py 通用的文本匹配工具包,旨在方便大家快速的实现、比较、以及分享最新的深度文本匹配模型。MatchZoo 的 PyTorch 版本。

  • voidism/DiffCSE 用于学习句子嵌入的无监督对比学习框架。DiffCSE学习对原始句子和编辑句子之间的差异敏感的句子嵌入,其中编辑的句子是通过随机屏蔽原始句子,然后从屏蔽语言模型中采样来获得的。我们表明 DiffSCE 是等变对比学习的一个实例(Dangovski 等人,2021 年),它概括了对比学习并学习对某些类型的增强不敏感而对其他“有害”类型的增强敏感的表征。我们的实验表明,DiffCSE在无监督句子表示学习方法中取得了最先进的结果,在语义文本相似性任务上比SimCSE高出2.3个绝对点。

  • shibing624/text2vec 文本向量表征工具,把文本转化为向量矩阵,实现了Word2Vec、RankBM25、Sentence-BERT、CoSENT等文本表征、文本相似度计算模型,开箱即用。

  • terrifyzhao/text_matching 常用文本匹配模型tf版本,数据集为QA_corpus模型:DSSM ConvNet ESIM ABCNN BiMPM DIIN DRCN

  • Brokenwind/BertSimilarity 基于Google的BERT模型来进行语义相似度计算。

  • bohanli/BERT-flow 基于流式生成模型,将BERT的表示可逆地映射到一个均匀的空间,文本表示、语义文本相似性任务的SOTA。

  • DataTerminatorX/Keyword-BERT 带关键词的BERT语义匹配

  • bojone/BERT-whitening 简单的向量白化改善句向量质量,可以媲美甚至超过BERT-flow的效果。

  • autoliuweijie/BERT-whitening-pytorch Pytorch version of BERT-whitening

  • nilboy/gaic_track3_pair_sim 短文本语义匹配,2021年全球人工智能技术创新大赛-赛道三-冠军方案

  • yym6472/ConSERT 基于对比学习的句子语义表示迁移框架。包含三部分,数据增强,BERT 编码层,对比损失层。

  • amazon-research/sccl 利用对比学习促进更好地基于距离的短文本聚类实现。

  • ZhuiyiTechnology/roformer-sim 融合检索和生成的RoFormer-Sim模型.应用于相似句生成、相似句扩增、语义相似度问题。

  • allenai/macaw Macaw(Multi-angle c(q)uestion answering 多角度 c(q) 问题回答)是一种即用型模型,能够进行一般问题回答,在训练的领域之外表现出稳健性。 它以“多角度”方式进行了训练,这意味着它可以处理一组灵活的输入和输出“槽”(如问题、答案、解释)。Macaw 建立在 T5 之上,有不同的尺寸:macaw-11b、macaw-3b 和 macaw-large,以及各种排行榜上的以答案为重点的版本:macaw-answer-11b。

  • Decem-Y/sohu_text_matching_Rank2 2021搜狐校园文本匹配算法大赛Top2。使用了预训练模型(如NEZHA、MacBert、ROBERTA、ERNIE等),设计了选择了两种技术路线(通过[SEP]拼接source与target作为输入、类似SBERT的句子向量编码比较),并尝试多种上分策略(在给定语料上继续mlm预训练、focal loss损失函数、不同的pooling策略、加入TextCNN、fgm对抗训练、数据增强等)。选取多组差异较大的模型的输出,通过投票的方式进行集成,得到最好成绩。

  • shuxinyin/SimCSE-Pytorch 中文数据集下SimCSE+ESimCSE的实现

  • wakafengfan/simcse-pytorch pytorch版simcse无监督语义相似模型

  • bojone/SimCSE SimCSE在中文任务上的简单实验

  • yangjianxin1/SimCSE SimCSE有监督与无监督实验复现 一种简单但是很巧妙的NLP对比学习方法,创新性地引入Dropout的方式,对样本添加噪声,从而达到对正样本增强的目的。 该框架的训练目的为:对于batch中的每个样本,拉近其与正样本之间的距离,拉远其与负样本之间的距离,使得模型能够在大规模无监督语料(也可以使用有监督的语料)中学习到文本相似关系。

  • vdogmcgee/SimCSE-Chinese-Pytorch SimCSE在中文上的复现,有监督+无监督

  • GeekDream-x/SemEval2022-Task8-TonyX 在 Semeval-2022 Task8 —— Multilingual News Article Similarity 中提供了我们获胜系统的实现。这是一项关于评估多语言和跨语言新闻文章相似性的竞赛,涵盖 18 个语言对。

  • JohnGiorgi/DeCLUTR 无监督文本表示的深度对比学习

  • huggingface/setfit 使用 Sentence Transformers 进行高效的少样本学习. 高效且无提示的框架,用于对句子转换器进行少量微调。 它用很少的标记数据实现了高精度,特点:没有提示或语言表达器:当前的少量微调技术需要手工提示或语言表达器将示例转换为适合底层语言模型的格式。 SetFit 通过直接从文本示例生成丰富的嵌入来完全免除提示。训练速度快、多语言。

  • epidemic-sentence-pair 新冠疫情相似句对判定大赛 线上第一名方案。BERT模型融合、数据对称扩充、数据传递扩充、对抗训练、伪标签。

  • KKenny0/sohu2021 2021搜狐校园文本匹配算法大赛方案,基于BERT的交互模型,通过BERT来得到source-target pair的向量表示。任务:短短、短长和长长匹配。

  • DMetaSoul/chinese-semantic-textual-similarity 为了对 like-BERT 预训练模型进行 fine-tune 调优和评测以得到更好的文本表征模,对业界开源的语义相似(STS)、自然语言推理(NLI)、问题匹配(QMC)以及相关性等数据集进行了搜集整理

机器阅读理解

  • imClumsyPanda/langchain-ChatGLM 利用 ChatGLM-6B + langchain 实现的基于本地知识的 ChatGLM 应用。建立了全部基于开源模型实现的本地知识问答应用。

  • l15y/wenda 闻达:一个LLM调用平台。目前支持chatGLM-6B、chatRWKV、chatYuan和chatGLM-6B模型下自建知识库查找。

  • GanymedeNil/document.ai 基于向量数据库与GPT3.5的通用本地知识库方案

  • basketballandlearn/MRC_Competition_Dureader 基于大规模MRC数据再训练的机器阅读理解预训练模型(包括roberta-wwm-large、macbert-large),可以使用transformers库

  • wptoux/albert-chinese-large-webqa 基于百度webqa与dureader数据集训练的Albert Large QA模型

  • bojone/dgcnn_for_reading_comprehension 基于膨胀门卷积的阅读理解式问答模型(Keras实现)

  • cooelf/AwesomeMRC 对MRC的研究摘要和参考资料

  • nlpdata/c3 中文机器阅读理解数据集 multiple-Choice Chinese machine reading Comprehension dataset.

  • qiufengyuyi/event_extraction 百度aistudio事件抽取比赛 使用机器阅读理解来尝试解决。

  • liuhuanyong/MiningZhiDaoQACorpus 百度知道问答语料库,包括超过580万的问题,938万的答案,5800个分类标签。基于该问答语料库,可支持多种应用,如闲聊问答,逻辑挖掘。

  • xv44586/ccf_2020_qa_match CCF2020问答匹配比赛 任务是:给定IM交流片段,片段包含一个客户问题以及随后的经纪人若干IM消息,从随后的经纪人消息中找出一个是对客户问题的回答。

  • lgw863/LogiQA-dataset 数据集包含8,678个QA实例

  • HIT-SCIR/Molweni 提出了构建于多人对话的英文机器阅读理解(MRC)数据集—Molweni,并覆盖了对话语篇结构。Molweni源自于Ubuntu聊天语料库,包括10,000个对话,共计88,303条话语(utterance)。我们共标注了30,066个问题,包括可回答和不可回答的问题。Molweni独特地为其多人对话提供了语篇结构信息,共标注了78,245个语篇关系实例,为多人对话语篇结构分析(Discourse parsing)贡献了大规模数据。

  • danqi/acl2020-openqa-tutorial 本教程对开放域问答 (QA) 的前沿研究进行了概述,QA 是使用大量不同主题的文档来回答问题的任务。首先简要介绍历史背景,讨论研究问题的基本设置和核心技术挑战,然后描述具有通用评估指标和基准的现代数据集。然后,是在开放域QA中提出的前沿模型,包括两阶段检索器-阅读器方法、密集检索器和端到端训练以及无检索器方法。最后,介绍使用文本和大型知识库的混合方法,并以重要的开放性问题结束本教程。

  • zhoujx4/DuReader-Checklist-BASELINE 百度2021年语言与智能技术竞赛机器阅读理解torch版baseline

  • google-research/tapas 端到端的神经表格文本理解模型。表格 QA 模型。

  • PaddlePaddle/RocketQA 信息检索和问答的密集检索,包括中英文最先进的模型。

知识图谱问答KBQA、多跳推理

  • RUCAIBox/KBQAPapers 知识图谱问答KBQA论文集

  • shijx12/TransferNet An Effective and Transparent Framework for Multi-hop Question Answering over Relation Graph 多跳问题解答关系图的有效透明框架,通过每一跳都预测当前关系得分,并更新实体得分,直到最大跳数。预测该问题的跳数,按跳数的概率加权每一跳得分作为实体的最终得分。

  • malllabiisc/EmbedKGQA 基于知识图谱嵌入的链路预测处理多跳问答。首先训练实体嵌入,随后利用实体嵌入学习问题嵌入,预测时对所有实体,构建(head entity, question)并评分,并选择评分最高的头实体作为答案。能很好地处理知识图谱中的不完整和稀疏的问题。

  • BDBC-KG-NLP/QA-Survey 北航大数据高精尖中心研究张日崇团队对问答系统的总结。包括基于知识图谱的问答(KBQA),基于文本的问答系统(TextQA),基于表格的问答系统(TabletQA)和基于视觉的问答系统(VisualQA),每类系统分别对学术界和工业界进行总结。

  • xianghuisun/Chinese_KGQA 实现基于知识图谱的中文问答系统

  • cdjhz/multigen Language Generation with Multi-hop Reasoning on Commonsense Knowledge Graph 基于常识知识图的多跳推理语言生成 本研究关注一类条件文本生成任务,即给定输入源文本X,目标是生成一段目标文本 Y。研究员们额外增加了一个知识图谱 G=(V,E) 的输入为模型在生成时提供常识知识的信息。

  • INK-USC/MHGRN 基于知识库的多跳关系推理 本篇文章提出了multi-hop relational reasoning module(多跳关系推理模型)叫做MHGRN多跳推理网络。该模型在额外的多跳知识图谱中抽取的子网络中进行推理。本文提出的方法将已有的基于路径的常识推理以及GCN融合在了一起,并在CommonsenseQA和OpenbookQA上取得了良好的效果。

  • lanyunshi/Multi-hopComplexKBQA 查询图生成,用于回答知识库中的多跳复杂问题.提出了一种改进的分阶段查询图生成方法,该方法具有更灵活的生成查询图的方式。在查询图生成的每一步,包含三种预定义的操作:扩展、连接、聚合。

  • nju-websoft/SPARQA 基于知识库的问题解答,提出了一种新颖的骨架语法来表示一个复杂问题的高级结构。骨架语法本质上是依赖语法的一个选定子集,用于专门表示复杂问题的高级结构。这种专用的粗粒度表示形式由于其简单性而可能具有准确的解析算法,有助于提高下游细粒度语义解析的准确性。

  • mori97/JKNet-dgl 跳跃知识网络的dgl实现

  • THUDM/CogQA 基于认知图谱实现多跳阅读.从人类的认知过程中受到启发。双过程理论认为,我们的大脑思考过程由两套系统构成: System1 和 System 2。System 1: 我们的大脑首先通过System 1隐式的、无意识的和凭借直觉的过程来检索相关信息。System 2: 在System 1过程的基础上,再进行一个显式的、有意识的、可控的推理过程,即System 2。作者使用BERT模型构建System 1,使用GNN模型构建System 2。

  • michiyasunaga/qagnn GNN 在融合 QA 上下文与 KG 的一个尝试,在问答任务上相比现有的预训练语言模型、以及预训练 +KG 模型,都有不小的提升。同时,使用 attention-base GNN,能够可视化知识图谱中节点之间的注意力关系,有助于提高 QA 可解释性和结构化推理的能力。

  • WenRichard/KBQA-BERT 基于知识图谱的问答系统,BERT做命名实体识别和句子相似度,分为online和outline模式

  • RichardHGL/WSDM2021_NSM KBQA 的神经状态机器 ComplexWebQuestions

  • UKPLab/coling2018-graph-neural-networks-question-answering 用门图形神经网络建模语义,用于知识库问题解答

  • THU-KEG/KoPL KoPL全称 Knowledge oriented Programing Language, 是一个为复杂推理问答而设计的编程语言。可以将自然语言问题表示为由基本函数组合而成的KoPL程序,程序运行的结果就是问题的答案。目前,KoPL的27个基本函数覆盖对多种知识元素(如概念、实体、关系、属性、修饰符等)的操作,并支持多种问题类型(如计数、事实验证、比较等)的查询。KoPL提供透明的复杂问题推理过程,易于理解和使用。KoPL面向知识库、文本等不同形式的知识资源,可扩展性强。

  • PaddlePaddle/PGL/erniesage 使用PGL实现ERNIESage。在很多工业应用中,往往出现如下图所示的一种特殊的图:Text Graph。顾名思义,图的节点属性由文本构成,而边的构建提供了结构信息。如搜索场景下的Text Graph,节点可由搜索词、网页标题、网页正文来表达,用户反馈和超链信息则可构成边关系。ERNIESage 由PGL团队提出,是ERNIE SAmple aggreGatE的简称,该模型可以同时建模文本语义与图结构信息,有效提升 Text Graph 的应用效果。其中 ERNIE 是百度推出的基于知识增强的持续学习语义理解框架。ERNIESage 是 ERNIE 与 GraphSAGE 碰撞的结果,是 ERNIE SAmple aggreGatE 的简称,它的结构如下图所示,主要思想是通过 ERNIE 作为聚合函数(Aggregators),建模自身和邻居节点的语义与结构关系。ERNIESage 对于文本的建模是构建在邻居聚合的阶段,中心节点文本会与所有邻居节点文本进行拼接;然后通过预训练的 ERNIE 模型进行消息汇聚,捕捉中心节点以及邻居节点之间的相互关系;最后使用 ERNIESage 搭配独特的邻居互相看不见的 Attention Mask 和独立的 Position Embedding 体系,就可以轻松构建TextGraph中句子之间以及词之间的关系。使用ID特征的GraphSAGE只能够建模图的结构信息,而单独的ERNIE只能处理文本信息。通过PGL搭建的图与文本的桥梁,ERNIESage能很简单的把GraphSAGE以及ERNIE的优点结合一起。TextGraph场景,效果能够比单独的ERNIE以及GraphSAGE都要好。

  • BshoterJ/awesome-kgqa 知识图谱问答部分资料合集

  • RUCKBReasoning/SubgraphRetrievalKBQA 多跳知识库问答子图检索增强模型的pytorch实现 WebQuestionSP CWQ

  • google-research/smore 多功能的框架,它可以在KG上扩展多跳查询嵌入。SMORE可以轻松地在Freebase KG上训练查询嵌入,在一台机器上拥有超过8600万个节点和33800万条边。

知识图谱

  • CLUEbenchmark/KgCLUE KgCLUE: 大规模中文开源知识图谱问答数据集。实体数量 3121457,关系数量 245838,高频关系(>100) 3833,三元组数量 20559652,知识库来源于百科类数据,由百科类搜索的事实性三元组构成。

  • autoliuweijie/K-BERT Enabling Language Representation with Knowledge Graph ,已被AAAI2020所录取,是较早的考虑将知识图谱中的边关系引入预训练模型的论文。主要通过修改Transformer中的attention机制,通过特殊的mask方法将知识图谱中的相关边考虑到编码过程中,进而增强预训练模型的效果。

  • npubird/KnowledgeGraphCourse 东南大学《知识图谱》研究生课程

  • AutoML-Research/AutoSF 用于知识图谱学习的双线性评分函数(SFs)搜索。知识图(KG)是一种以实体为节点、以关系为边的特殊图结构,对数据挖掘和机器学习都很重要,并启发了各种下游应用,如结构化搜索、问答、推荐。在KGs中,每条边都被表示为一个具有形式(头实体、关系、尾实体)的三元组,表示为(h, r, t),一个基本问题是如何量化三元组(h, r, t)s的合理性。KG嵌入(KGE)是近年来出现并发展起来的一种很有前途的方法。基本上,给定一组观察到的三元组,KGE试图学习实体和关系的低维向量表示,以便三元组的可信性能够被量化。得分函数(SF)根据嵌入值返回(h, r, t)的分数,用于度量可信性。SF一般是人为设计和选择的,对嵌入的质量有显著影响。

  • THU-KEG/KEPLER 主要通过添加类似于TransE的预训练机制来增强对应文本的表示,进而增强预训练模型在一些知识图谱有关任务的效果。

  • txsun1997/CoLAKE 使用知识图谱以增强预训练模型的效果 首先将上下文看作全连接图,并根据句子中的实体在KG上抽取子图,通过两个图中共现的实体将全连接图和KG子图融合起来;最终本文将文本上下文和知识上下文一起用MLM进行预训练,将mask的范围推广到word、entity和relation;为训练该模型,本文采用cpu-gpu混合训练策略结合负采样机制减少训练时间;最终本文提出的方法在知识图谱补全和若干NLP任务上均带来了增益。然后本文将该图转化为序列,使用Transformer进行预训练,并在训练时采用特殊的type embedding来表示实体、词语与其他子图信息

  • JanKalo/KnowlyBERT 提出了一种混合的语言知识模型查询系统,该系统使用语言模型来应对现实世界中知识图谱的不完整性问题。作为KnowlyBERT的输入,用户可以向系统提出以实体为中心的SPARQL查询。首先,查询语言模型(a);然后,对不完整的知识图谱进行查询,并获得结果(b);另外SPARQL查询被翻译成多种自然语言语句,这些语言语句在“关系模板生成”步骤中由语言模型完成;语言模型返回多个单词列表以及每个单词(c)的置信度值;然后将这些列表合并为一个列表(d),并根据知识图谱类型信息(e)使用我们的语义过滤步骤进行过滤。此外,执行阈值处理,削减不相关的结果(f);将语言模型和知识图谱的结果合并(g)并返回给用户。

  • yeliu918/KG-BART 知识图谱增强的预训练模型的生成式常识推理.可利用图上的注意力来聚集丰富的概念语义,从而增强对看不见的概念集的模型泛化。

  • bernhard2202/intkb 一种交互式知识图谱补全框架

  • husthuke/awesome-knowledge-graph 整理知识图谱相关学习资料

  • wangbo9719/StAR_KGC Structure-Augmented Text Representation Learning for Efficient Knowledge Graph Completion 结构增强文本表示学习,实现高效知识图完成.知识图谱补全

  • Everglow123/MAKG 移动app知识图谱

  • openconcept 基于自动化知识抽取算法的大规模中文概念图谱。440万概念核心实体,以及5万概念和1200万实体-概念三元组。数据包括了常见的人物、地点等通用实体。

  • OpenKG-ORG/OpenEA 基于知识图谱嵌入的开源实体融合工具。本体匹配、实体对齐、真值验证、冲突消解。

  • seukgcode/MELBench. 多模态实体链接 (MEL) 旨在利用多模态信息将提及项映射到知识库中定义的相应实体。 我们发布了三个 MEL 数据集:Weibo-MEL、Wikidata-MEL 和 Richpedia-MEL,分别包含来自社交媒体、百科全书和多模态知识图谱的 25,602、18,880 和 17,806 个样本。

  • OpenKG-ORG/OpenRichpedia 东南大学多模态知识图谱-OpenRichpedia工程文件

  • csdqa 计算机科学领域示意图问答数据集

  • HKUST-KnowComp/FKGE 差异私有联合知识图嵌入

  • totogo/awesome-knowledge-graph 知识图相关学习材料、数据库、工具和其他资源的精选列表

  • BrambleXu/knowledge-graph-learning 精选的知识图谱教程、项目社区列表。

  • liuhuanyong/PersonGraphDataSet 人物图谱数据集,近十万的人物关系图谱事实数据库,通过人物关系抽取算法抽取+人工整理得出,可用于人物关系搜索、查询、人物关系多跳问答,以及人物关系推理等场景提供基础数据。

  • husthuke/awesome-knowledge-graph 整理知识图谱相关学习资料

  • ownthink/KnowledgeGraph 史上最大规模1.4亿知识图谱数据免费下载,知识图谱,通用知识图谱,融合了两千五百多万实体,拥有亿级别的实体属性关系。

  • liuhuanyong/AbstractKnowledgeGraph 抽象知识图谱,目前规模50万,支持名词性实体、状态性描述、事件性动作进行抽象。目标于抽象知识,包括抽象实体,抽象动作,抽象事件。基于该知识图谱,可以进行不同层级的实体抽象和动作抽象,这与人类真实高度概括的认知是一致的。

  • songjiang0909/awesome-knowledge-graph-construction 很棒的知识图构建

  • ZihengZZH/awesome-multimodal-knowledge-graph 多模态知识图谱的精彩阅读列表或其他资源(数据集、教程等)。

  • thunlp/KB2E 知识图谱嵌入,包括 TransE、TransH、TransR 和 PTransE

  • powerycy/DeepKg: Knowledge Graph 知识图谱的构建 实体识别\语义标准化\向量召回

  • zjunlp/deepke 基于深度学习的开源中文知识图谱抽取框架,支持cnSchema、低资源、长篇章、多模态的知识抽取工具,可以基于PyTorch实现命名实体识别、关系抽取和属性抽取功能。

  • 面向事件时序因果关系识别的17类开源标注数据集总结

  • iuhuanyong/TextGrapher 输入一篇文档,将文档进行关键信息提取,进行结构化,并最终组织成图谱组织形式,形成对文章语义信息的图谱化展示。 采用了高频词,关键词,命名实体识别,主谓宾短语识别等抽取方式,并尝试将三类信息进行图谱组织表示,这种表示方式是一种尝试。

  • liuhuanyong/ChainKnowledgeGraph 产业链知识图谱包括A股上市公司、行业和产品共3类实体,包括上市公司所属行业关系、行业上级关系、产品上游原材料关系、产品下游产品关系、公司主营产品、产品小类共6大类。 上市公司4,654家,行业511个,产品95,559条、上游材料56,824条,上级行业480条,下游产品390条,产品小类52,937条,所属行业3,946条。

  • zjukg/NeuralKG 支持多种知识图谱表示学习/知识图谱嵌入(Knowledge Graph Embedding)模型的Python工具包,其中实现了多种传统知识图谱嵌入、基于图神经网络的知识图谱嵌入以及基于规则的知识图谱嵌入方法。

  • zjunlp/DeepKE 开源知识图谱抽取与构建工具,支持cnSchema、低资源、长篇章、多模态的知识抽取工具,基于PyTorch实现命名实体识别、关系抽取和属性抽取功能。

  • migalkin/NodePiece 大型知识图谱的复合和参数高效表示 (ICLR'22)。NodePiece是一个“分词器”,用于减少知识图中的实体词汇量。不是将每个节点浅层嵌入到向量中,而是首先在其关系上下文中通过 K 个锚节点和 M 关系类型“标记”每个节点。然后,通过任何注入函数(例如MLP或Transformer)对生成的哈希序列进行编码。NodePiece可以使用相同的锚点和关系词汇表标记附加到所见图的看不见的节点,这允许NodePiece在归纳设置中使用经典KG完成中的所有众所周知的评分函数(如TransE或RotatE)开箱即用。NodePiece在OGB WikiKG 2排行榜上名列前茅,以大幅降低的参数预算(7M与500-1500M)为模型提供动力。当前配置只需要 20K 个锚节点,而不是学习 2.5M 实体嵌入。关系预测\节点分类\样本外链路预测

  • liuhuanyong/ChineseSemanticKB 面向中文处理的12类、百万规模的语义常用词典,包括34万抽象语义库、34万反义语义库、43万同义语义库等,可支持句子扩展、转写、事件抽象与泛化等多种应用场景。

  • lemonhu/stock-knowledge-graph 利用网络公开数据构建一个小型证券知识图谱

  • OpenBGBenchmark/OpenBG 大规模开放业务知识图谱.开放的商业知识图,它使用统一的Schema覆盖大规模的多模态数据集,包含了浙江大学ZJUKG实验室和阿里巴巴知识引擎团队提供的数百万个产品和消费者需求。

  • DeqingYang/CKBC 使用关系图注意力网络和预训练语言模型完成常识知识库。常识在各种语料库中很少被明确表达,但对于机器理解自然语言非常有用。与传统的知识库(KG)不同,常识库(CKG)中的节点通常由自由格式的文本表示,并且比传统的 KG 规模更大,更稀疏。因此,这对传统的知识库补全(KBC)方法造成了挑战。

  • JavaStudenttwo/ccks_kg ccks2020基于本体的金融知识图谱自动化构建技术评测第五名方法总结

NLP语料和数据集

  • thu-coai/CrossWOZ 中文跨域任务导向对话数据集.它包含5个领域的6K对话会话和102K语音,包括酒店,餐厅,景点,地铁和出租车。

  • goto456/stopwords 中文常用停用词表

  • chatopera/Synonyms 用于自然语言处理和理解的中文同义词。

  • RUCAIBox/TG-ReDial 电影领域的对话推荐数据集TG-ReDial (Recommendation through Topic-Guided Dialog)。包含1万个完整对话和近13万条语句,加入了话题线索以实现将用户引导至推荐场景这一语义的自然转移,并采用半自动的方式构建,保留了用户真实的个性化信息(如交互历史,偏好主题),使得人工标注过程更加合理可控。

  • fighting41love/funNLP NLP民工的乐园: 中英文敏感词、语言检测、中外手机/电话归属/运营商查询、名字推断性别、手机号抽取、身份证抽取、邮箱抽取、中日文人名库、中文缩写库、拆字词典、词汇情感值、停用词、反动词表、暴恐词表、繁简转换、英文模拟中文发音、汪峰歌词生成器、职业名称词库、同义词库、反义词库、否定词库、汽车品牌词库、汽车零件、连续英文切割、各种中文词向量、公司大全、古诗、IT、财经、成语、地名、历史名人、诗词、医学、饮食、法律、汽车、动物词库、中文聊天语料、中文谣言数据、百度中文问答数据集、句子相似度、bert资源、文本生成&摘要相关工具、cocoNLP信息抽取、国内电话号码正则匹配、清华中英文跨语言百科知识图谱

  • brightmart/nlp_chinese_corpus 大规模中文自然语言处理语料 维基百科json版(wiki2019zh) 新闻语料json版(news2016zh) 百科类问答json版(baike2018qa) 社区问答json版(webtext2019zh) :大规模高质量数据集 翻译语料(translation2019zh)

  • msra-nlc/ChineseKBQA NLPCC-ICCPOL 2016 Shared Task: Open Domain Chinese Question Answering 开放域中文问答数据集

  • jkszw2014/bert-kbqa-NLPCC2017 A trial of kbqa based on bert for NLPCC2016/2017 Task 5 (基于BERT的中文知识库问答实践)

  • wavewangyue/NLPCC-MH 中文多跳问答数据集 基于 NLPCC 所包含的单跳问题,通过扩充问句内容的方式,构建了专注多跳问题的中文 KBQA 数据集

  • BERT-CCPoem 是完全基于一个囊括了几乎所有中国古典诗词的语料库CCPC-Full v1.0训练而成的,该语料库共计926,024首诗词及8,933,162个诗词句子。THUNLP-AIPoet/BERT-CCPoem 中国古典诗词预训练模型

  • liucongg/NLPDataSet 数据集包括:DRCD、cmrc2018、chinese-squad、中医数据集、法研杯2019、莱斯杯机器阅读理解、疫情QA、WebQA、Dureader等9个数据集。

  • C-Eval 数据集是一个全面的中文基础模型评测数据集,涵盖了 52 个学科和四个难度的级别。

  • Gaokao 是一个以中国高考题作为评测大语言模型能力的数据集,用以评估模型的语言能力和逻辑推理能力。 我们只保留了其中的单项选择题,随机划分后对所有模型进行统一 5-shot 测试。

  • MMLU 是包含 57 个多选任务的英文评测数据集,涵盖了初等数学、美国历史、计算机科学、法律等,难度覆盖高中水平到专家水平,是目前主流的LLM评测数据集。

  • microsoft/AGIEval 以人为本的基准,专门用于评估基础模型在与人类认知和解决问题相关的任务中的一般能力。该基准源自 20 项针对普通人类考生的官方、公共和高标准入学和资格考试,例如普通大学入学考试(例如,中国高考(高考)和美国 SAT)、法学院入学考试、数学竞赛、律师资格考试和国家公务员考试。

  • thunlp/Few-NERD 一个大规模的人工标注的用于少样本命名实体识别任务的数据集。该数据集包含8种粗粒度和66种细粒度实体类型,每个实体标签均为粗粒度+细粒度的层级结构,共有18万维基百科句子,460万个词,每个词都被注释为上下文(context)或一个实体类型的一部分。

  • CLUEbenchmark/CLUECorpus2020 通过对Common Crawl的中文部分进行语料清洗,最终得到100GB的高质量中文预训练语料。实验产出的模型见:高质量中文预训练模型,大号、超小和相似度预训练模型。

  • esbatmop/MNBVC Massive Never-ending BT Vast Chinese corpus超大规模中文语料集。对标chatGPT训练的40T数据。MNBVC数据集不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。

  • oscar-corpus/OSCAR-2201 通过使用 unoliant 架构对通用爬网语料库进行语言分类和过滤而获得的一个巨大的多语言语料库。数据以原始形式和重复数据删除形式按语言分发。

  • festvox/datasets-CMU_DoG CMU 文档基础对话数据集 该数据集包含 4112 个对话,每个对话平均 21.43 轮。这使该数据集可以在生成响应的同时提供相关的聊天历史记录。

  • doc2dial/sharedtask-dialdoc2021 doc2dial是IBM发布的基于文档的对话数据集,包含两个任务:1)从文档中检索和问题相关的句子(information-seeking);2)基于上一步结果生成合理答复(response generation) 数据集共有4个不同领域的480篇文档,4800个多轮对话,每个对话平均有14次交互。

  • chin-gyou/MovieChats MovieChats:在封闭域中像人类一样聊天,电影内容的聊天对话数据集

  • projects/personachat Persona-Chat 数据集人物聊天对话数据

  • krystalan/SGSum 一个面向体育赛事摘要的人工标注数据集

  • IceFlameWorm/NLP_Datasets 中文NLP数据集,ATEC语义相似度学习赛数据集、CCKS 2018 微众银行智能客服问句匹配大赛数据集、ATEC + CCKS 2018 组合数据集(互金客服场景)、哈工大BQ_corpus数据集(语义相似度)、哈工大LCQMC数据集(语义相似度)。

  • nlpcc2018 选择task7 Open Domain Question Answering,即可下载数据集。数据集包含知识图谱和问答数据

  • pkumod/CKBQA ccks2018 ccks2019 包含简单问题和复杂问题的中文 KBQA 数据集。对于每个中文问题,我们都提供了黄金答案和黄金 SPARQL 查询,因此该数据集也可以应用于语义解析任务。

  • Marsan-Ma-zz/chat_corpus 来自各种开源的聊天语料库集合 open_subtitles 英文电影字幕解析, movie_subtitles_cn 康奈尔电影对话语料库, 歌词_zh 来自 PTT 论坛的歌词,witter_en 来自 twitter 的语料库(700k 行),twitter_en big更大尺寸的 twitter 语料库(5M 行)

  • rkadlec/ubuntu-ranking-dataset-creator 从 Ubuntu 语料库对话框中为排名任务创建训练、有效和测试数据集的脚本。

  • codemayq/chinese_chatbot_corpus 对目前市面上已有的开源中文聊天语料的搜集和系统化整理工作。包含chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料、小黄鸡语料,共8个公开闲聊常用语料和短信,白鹭时代问答等语料。

  • NiuTrans/Classical-Modern 非常全的文言文(古文)-现代文平行语料

  • CLUEbenchmark/SimCLUE 大规模语义理解与匹配数据集。可用于无监督对比学习、半监督学习等构建中文领域效果最好的预训练模型。可用于语义理解、语义相似度、召回与排序等检索场景等。整合了以上9个数据集:哈工大 LCQMC 数据集、AFQMC 蚂蚁金融语义相似度数据集、OPPO 小布对话文本语义匹配数据集、北大中文文本复述数据集 PKU-Paraphrase-Bank、Chinese-STS-B 数据集、Chinese-MNLI 自然语言推理数据集、Chinese-SNLI 自然语言推理数据集、 OCNLI 中文原版自然语言推理数据集、CINLID 成语语义推理数据集

  • GuocaiL/nlp_corpus open_ner_data网上开放的ner数据集、boson数据集、clue细粒度实体识别数据集、微软实体识别数据集、人民网实体识别数据集(98年)、中药说明书实体识别数据集(“万创杯”中医药天池大数据竞赛)、视频_音乐_图书数据集、微博数据集

  • zejunwang1/CSTS: 中文自然语言推理与语义相似度数据集

    • 哈工大 LCQMC 数据集
    • AFQMC 蚂蚁金融语义相似度数据集
    • OPPO 小布对话文本语义匹配数据集
    • 谷歌 PAWS-X 数据集
    • 北大中文文本复述数据集 PKU-Paraphrase-Bank
    • Chinese-STS-B 数据集
    • Chinese-MNLI 自然语言推理数据集
    • Chinese-SNLI 自然语言推理数据集
    • OCNLI 中文原版自然语言推理数据集
    • CINLID 中文成语语义推理数据集
  • sailxuOvO/CC-Riddle 汉字谜语问答数据集

  • CLUEbenchmark/DataCLUE 数据为中心的NLP基准和工具包。以数据为中心(Data-centric)的AI,是一种新型的AI探索方向。它的核心问题是如何通过系统化的改造你的数据(无论是输入或者标签)来提高最终效果。 传统的AI是以模型为中心(Model-centric)的,主要考虑的问题是如何通过改造或优化模型来提高最终效果,它通常建立在一个比较固定的数据集上。 最新的数据显示超过90%的论文都是以模型为中心的,通过模型创新或学习方法改进提高效果,即使不少改进影响可能效果并不是特别明显。有些人认为当前的人工智能领域, 无论是自然语言处理(如BERT) 或计算机视觉(ResNet), 已经存在很多成熟高效模型,并且模型可以很容易从开源网站如github获得;而与此同时,工业界实际落地 过程中可能有80%的时间用于 清洗数据、构建高质量数据集,或在迭代过程中获得更多数据,从而提升模型效果。正是看到了这种巨大的差别,在吴恩达等人的推动下这种 以数据为中心 (Data-centric)的AI进一步的系统化,并成为一个有具有巨大实用价值方法论。

  • ydli-ai/CSL 首个中文科学文献数据集(CSL),包含 396,209 篇中文核心期刊论文元信息 (标题、摘要、关键词、学科、门类)。CSL 数据集可以作为预训练语料,也可以构建许多NLP任务,例如文本摘要(标题预测)、 关键词生成和文本分类等。取自 国家科技资源共享服务工程技术研究中心, 包含 2010-2020 年发表的期刊论文元信息(标题、摘要和关键词)。根据中文核心期刊目录进行筛选, 并标注学科和门类标签,分为 13 个门类(一级标签)和 67 个学科(二级标签)。 数据总量为 396,209 条。

  • pluto-junzeng/CNSD 中文自然语言推理数据集(A large-scale Chinese Nature language inference and Semantic similarity calculation Dataset) 本数据及通过翻译加部分人工修正的方法,从英文原数据集生成,可以一定程度缓解中文自然语言推理和语义相似度计算数据集不够的问题。

  • victorsungo/MMDialog 面向多模态开放域会话的大规模多轮对话数据集。

  • lupantech/ScienceQA 通过思维链进行多模态推理的科学问题回答。提出了科学问答(ScienceQA),这是一个新的基准,包括21,208个多模态多项选择题,有一套不同的科学主题和注释,他们的答案与相应的讲座和解释。讲座和解释分别提供了一般的外部知识和具体的原因,以获得正确的答案。拥有更丰富的领域多样性:自然科学语言科学社会科学。ScienceQA包含26个主题、127个类别和379个技能,涵盖了广泛的领域。我们进一步设计语言模型,学习生成演讲和解释作为思维链(CoT),以模拟回答ScienceQA问题时的多跳推理过程。ScienceQA证明了CoT在语言模型中的实用性,CoT在少样例GPT-3中将问题回答性能提高了1.20%,在微调的UnifiedQA中将问题回答性能提高了3.99%。

  • benywon/ChiQA 用于多模态理解的大规模基于图像的真实世界问答数据集。ChiQA中的问题是向搜索引擎发出的开放域用户查询。ChiQA中的图像也是从搜索引擎中收集的真实世界图像,与问题相关但不一定能回答问题。我们的数据众包包括两个阶段的主动学习过程。在第一阶段,我们从网络上随机收集样本。在第二阶段中,我们首先基于来自第一阶段的数据训练模型,然后使用训练好的模型在剩余数据上选择硬示例并继续标记。这两个阶段的设置使得数据更具挑战性,并且从本质上消除了对数据中某些属性或语言模式的不合理偏爱。

  • qkaren/Counterfactual-StoryRW “虚构故事推理和生成”的数据集和代码

  • eecrazy/CausalBank 非常大规模、开放的领域、句子级、平行的因果语料库。按照句子中出现的因果顺序分为两部分:because_mode(结果,然后是原因)和therefore_mode(原因,然后是结果)。使用预处理的英语通用爬网语料库 (5.14 TB) 中的细粒度因果模板匹配获得的,完全自动,无需任何人工注释。里面或多或少有噪音。

  • InsaneLife/ChineseNLPCorpus 中文自然语言处理数据集,阅读理解、任务型对话数据、文本分类、实体识别&词性标注&分词、句法&语义解析、推荐系统、百科数据、指代消歧、预训练:(词向量or模型)、中文完形填空数据集、中华古诗词数据库、保险行业语料库、汉语拆字字典。

  • pengxiao-song/awesome-chinese-legal-resources 中国法律数据集和相关资源的精彩集合。致力于收集全面的中文法律数据源

  • xglue 由11个任务组成,跨越19种语言。对于每个任务,训练数据仅以英语提供。这意味着要在XGLUE上取得成功,模型必须具有强大的零镜头跨语言迁移能力,以从特定任务的英语数据中学习并将其学到的内容转移到其他语言中。与其并发工作XTREME相比,XGLUE有两个特点:首先,它同时包含跨语言NLU和跨语言NLG任务;其次,除了包括5个现有的跨语言任务(即NER,POS,MLQA,PAWS-X和XNLI)之外,XGLUE还从Bing场景中选择了6个新任务,包括新闻分类,查询广告匹配,网页排名,QA匹配,问题生成和新闻标题生成。语言、任务和任务来源的这种多样性为量化跨语言自然语言理解和生成的预训练模型的质量提供了全面的基准。

  • yhavinga/ccmatrix 该语料库是使用 CCMatrix 中所述的基于边缘的双文本挖掘技术从网络爬虫中提取的语言对。

  • ywjawmw/TCM_KG 中医TCM-neo4j 知识图谱

  • ydli-ai/CSL 首个中文科学文献数据集(CSL),包含 396,209 篇中文核心期刊论文元信息 (标题、摘要、关键词、学科、门类)。CSL 数据集可以作为预训练语料,也可以构建许多NLP任务,例如文本摘要(标题预测)、 关键词生成和文本分类等。

  • WuDaoCorpora Text文本预训练数据集 北京智源人工智能研究院(智源研究院)构建的大规模、高质量数据集,用于支撑大模型训练研究。目前由文本、对话、图文对、视频文本对四部分组成,分别致力于构建微型语言世界、提炼对话核心规律、打破图文模态壁垒、建立视频文字关联,为大模型训练提供坚实的数据支撑。采用20多种规则从100TB原始网页数据中清洗得出最终数据集,注重隐私数据信息的去除,源头上避免GPT-3存在的隐私泄露风险;包含教育、科技等50+个行业数据标签,可以支持多领域预训练模型的训练。

  • beyond/chinese_clean_passages_80m 包含8千余万纯净中文段落,不包含任何字母、数字。文本长度大部分介于50~200个汉字之间。数据是基于CLUE中文预训练语料集进行处理、过滤得到的。

关系抽取、信息抽取

  • roomylee/awesome-relation-extraction 专门用于关系提取的精选资源列表,关系提取是自然语言处理 (NLP) 中最重要的任务之一。

  • weizhepei/CasRel 用于关系三重提取的新颖级联二进制标记关系抽取框架.

  • loujie0822/DeepIE 基于深度学习的信息抽取技术,实体抽取\实体关系联合抽取\属性抽取\实体链接/标准化\事件抽取\摘要抽取

  • OpenKG-ORG/OpenUE 一个从文本中通用提取的开放工具包

  • universal-ie/UIE 统一的文本到结构生成框架UIE,它可以对不同的IE任务进行统一建模,自适应地生成目标结构,并且可以从不同的知识源中学习通用的IE能力。实验结果表明,UIE在有监督和低资源环境下都取得了非常有竞争力的性能,验证了其通用性、有效性和可转移性。

  • 131250208/TPlinker-joint-extraction 联合抽取模型 实体关系联合抽取标注关系抽取方案

  • bojone/GPLinker 基于GlobalPointer的实体/关系/事件抽取

  • xhw205/GPLinker_torch CMeIE/CBLUE/CHIP/实体关系抽取/SPO抽取

  • TanyaZhao/MRC4ERE_plus 基于机器阅读理解的联合实体关系提取框架

  • cuhksz-nlp/RE-TaMM 于词依存信息类型映射记忆神经网络的关系抽取

  • PaddleNLP/DuIE LIC2021 DuIE 关系抽取基线 .信息抽取旨在从非结构化自然语言文本中提取结构化知识,如实体、关系、事件等。关系抽取的目标是对于给定的自然语言句子,根据预先定义的schema集合,抽取出所有满足schema约束的SPO三元组。schema定义了关系P以及其对应的主体S和客体O的类别。 本基线系统基于预训练语言模型ERNIE设计了结构化的标注策略,可以实现多条、交叠的SPO抽取。

  • princeton-nlp/PURE PURE:从文本中提取实体和关系,包含 PURE(普林斯顿大学关系提取系统)的 (PyTorch) 代码和预训练模型,如论文所述:一种令人沮丧的实体和关系提取的简便方法。

  • xiaoqian19940510/Event-Extraction 近年来事件抽取方法总结,包括中文事件抽取、开放域事件抽取、事件数据生成、跨语言事件抽取、小样本事件抽取、零样本事件抽取等类型,DMCNN、FramNet、DLRNN、DBRNN、GCN、DAG-GRU、JMEE、PLMEE等方法

  • 231sm/Reasoning_In_EE 利用本体表示学习实现低资源的事件抽取

  • zjunlp/openue 开源的通用文本信息抽取工具 三元组抽取 事件抽取 槽填充和意图检测

  • thunlp/OpenNRE 开源的神经网络关系抽取工具包,包括了多款常用的关系抽取模型,CNN、BERT、bag-level PCNN-ATT。

  • thunlp/NREPapers 神经网络关系抽取必读论文列表,覆盖了较为经典的神经网络关系抽取领域的已发表论文、综述等。

  • zjunlp/DocED 跨句事件抽取旨在研究如何同时识别篇章内多个事件。提出多层双向网络Multi-Layer Bidirectional Network融合跨句语义和关联事件信息,从而增强内各事件提及的判别。

  • cuhksz-nlp/RE-AGCN 使用注意力图卷积网络的依赖驱动关系提取的实现。

  • XueFuzhao/GDPNet 构建一个潜在的多视图图来捕获令牌之间的各种可能关系。然后细化这个图来选择重要的词进行关系预测。最后,将细化图的表示和基于 BERT 的序列表示连接起来以进行关系提取。提出的 GDPNet(高斯动态时间扭曲池化网络)中,利用高斯图生成器 (GGG) 来生成多视图图的边。然后通过动态时间扭曲池 (DTWPool) 对图形进行细化。在 DialogRE 和TACRED上,表明在对话级 RE 上实现了最佳性能,并且在句子级 RE 上与最先进的性能相当。

  • dair-iitd/OpenIE-standalone 华盛顿大学 (UW) 和德里印度理工学院 (IIT 德里) 的主要开放信息提取 (Open IE) 系统。一个开放的系统提取文本中的关系。

  • zjunlp/KnowPrompt 把关系标签之间的知识整合到关系提取的prompt-tuning中,并提出了一种使用协同优化的Knowledge-aware Prompt-tuning方法。

  • yao8839836/kg-bert 知识库补全的工作,结合BERT可以将更丰富的上下文表示结合进模型中,在三元组分类、链接预测以及关系预测中达到了SOTA。

  • dolphin-zs/Doc2EDAG 中国金融事件提取的端到端文档级框架 。基于实体的有向无环图(EDAG), 以自回归方式生成一个 EDAG。这样,一个硬表填充任务被分解为几个更易于处理的路径扩展子任务。

  • liuhuanyong/EventTriplesExtraction 基于依存句法与语义角色标注的事件三元组抽取,可用于文本理解如文档主题链,事件线等应用。

  • percent4/knowledge_graph_demo 展示三元组抽取后形成的知识图谱,包括几本小说的实体关系

  • lemonhu/open-entity-relation-extraction 基于依存句法分析,实现面向开放域文本的知识三元组抽取(实体和关系抽取)及知识库构建。

  • lancopku/Chinese-Literature-NER-RE-Dataset 中文文学文本语篇级命名实体识别与关系抽取数据集

  • tonytan48/Re-DocRED 广泛使用的文档级关系抽取基准。然而,DocRED数据集包含很大比例的假阴性示例(注释不完整)。我们修订了DocRED数据集中的4,053个文档并解决了其问题。

实体识别NER、意图识别、槽位填充

  • LeeSureman/Flat-Lattice-Transformer 中文NER 基于Transformer设计了一种巧妙position encoding来融合Lattice结构,可以无损的引入词汇信息。基于Transformer融合了词汇信息的动态结构,支持并行化计算,可以大幅提升推断速度。

  • ljynlp/W2NER 通过将统一的 NER 建模为词-词关系分类,提出了一种新颖的替代方案。该架构通过有效地建模实体词与 Next-Neighboring-Word (NNW) 和 Tail-Head-Word-* (THW-*) 关系之间的相邻关系,解决了统一 NER 的内核瓶颈。在 14 个广泛使用的基准数据集上针对平坦、重叠和不连续的 NER(8 个英语和 6 个中文数据集)进行了广泛的实验,击败了所有当前表现最好的基线,推动了最先进的表现统一的NER。

  • MiuLab/SlotGated-SLU 意图识别和槽位填充(slot filling)联合模型,提出槽位门控机制(slot-gated mechanism)来解决没有明确建立槽位和意图之间联系的缺陷,达到较好的效果。

  • monologg/JointBERT 意图识别和槽位填充(slot filling)联合训练模型,使用了BERT来进行语义编码,然后做序列标注任务和多分类任务的联合训练。

  • z814081807/DeepNER 天池中药说明书实体识别挑战冠军方案;中文命名实体识别;NER; BERT-CRF & BERT-SPAN & BERT-MRC;Pytorch

  • liuwei1206/LEBERT Lexicon Enhanced BERT模型来解决中文序列标注NER任务。相比于 FLAT,Lattice LSTM 等方法,它把词汇信息融入到了 BERT 底层的编码过程中。相比于 Lex-BERT,它无需包含词汇类型信息的词典,只需要普通的词向量即可。

  • kangbrilliant/DCA-Net 用于插槽填充和意图检测的协同互感器。数据集ATIS上,意向Acc 97.7 插槽填充F1 95.9 。

  • yizhen20133868/Awesome-SLU-Survey 口语语言理解(Spoken Language Understanding,SLU)作为任务型对话系统的核心组件,目的是为了获取用户询问语句的框架语义表示(semantics frame)信息,进而将这些信息为对话状态追踪模块(DST)以及自然语言生成模块(NLG)所使用。SLU任务通常包含以下两个任务:意图识别(intent detection)和槽位填充(slot filling)。

  • wuba/qa_match 58同城推出的一款基于深度学习的轻量级问答匹配工具,它融合领域识别与意图识别,对问答意图进行精确理解。

  • qiufengyuyi/sequence_tagging 用bilstm-crf,bert等方法进行序列标记任务

  • panchunguang/ccks_baidu_entity_link CCKS&百度 2019中文短文本的实体链指 第一名解决方案

  • ShannonAI/mrc-for-flat-nested-ner 命名实体识别的统一 MRC 框架

  • AdvPicker 通过对抗性判别器有效利用未标记数据进行跨语言 NER

  • jiesutd/LatticeLSTM 使用 Lattice LSTM 的中文 NER。ACL2018论文的代码。

  • Lynten/stanford-corenlp 为文本处理任务提供了一个简单的 API,例如标记化、部分语音标记、命名实体识别、选区解析、依赖解析等。

  • thunlp/PL-Marker 用于实体和关系提取的打包悬浮标记。提出了一种新的跨度表示方法,称为 Packed Levitated Markers,通过在编码器中策略性地打包标记来考虑跨度(对)之间的依赖关系。

  • v-mipeng/LexiconAugmentedNER 拒绝为中文 NER 合并词典的复杂操作。在中文 NER 中加入词典可以非常简单,同时也很有效。

  • lonePatient/BERT-NER-Pytorch Chinese NER(Named Entity Recognition) using BERT(Softmax, CRF, Span)

  • gaohongkui/GlobalPointer_pytorch 全局指针统一处理嵌套与非嵌套NER的Pytorch实现

其他_NLP自然语言处理

  • nltk/nltk 支持自然语言处理研究和开发的开源 Python 模块、数据集和教程。

  • keon/awesome-nlp 专用于自然语言处理 (NLP) 的资源精选列表

  • graykode/nlp-tutorial 面向深度学习研究人员的自然语言处理教程

  • stanfordnlp/stanza Stanford NLP Group 的官方 Python NLP 库。 它支持在 60 多种语言上运行各种准确的自然语言处理工具。

  • huseinzol05/NLP-Models-Tensorflow 抽象总结 聊天机器人依赖解析器 实体标记 提取摘要 发电机 语言检测 神经机器翻译 光学字符识别 POS标签 问题答案 句子对 语音转文字 拼写校正 小队问题答案 抽干 文字扩充 文字分类 文字相似度 文字转语音 主题生成器 主题建模 无监督提取摘要 矢量化器 老少少的声码器 可视化 注意Attention

  • CLUEbenchmark/FewCLUE FewCLUE 小样本学习测评基准,中文版 小样本学习(Few-shot Learning)正是解决这类在极少数据情况下的机器学习问题。结合预训练语言模型通用和强大的泛化能力基础上,探索小样本学习最佳模型和中文上的实践,是本课题的目标。FewCLUE:中文小样本学习测评基准,基于CLUE的积累和经验,并结合少样本学习的特点和近期的发展趋势,精心设计了该测评,希望可以促进中文领域上少样本学习领域更多的研究、应用和发展。模型有5种不同的方式做任务,分别是使用预训练模型直接做下游任务微调、PET\RoBERTa为基础的Ptuning方式、GPT类模型为基础的Ptuning方式、使用RoBERTa或GPT做零样本学习。

  • deepset-ai/haystack 开源的NLP框架,可以使用Transformer模型和LLM(GPT-3等)与数据交互。Haystack提供了生产就绪的工具来快速构建类似ChatGPT的问题回答、语义搜索、文本生成等。

  • sebastianruder/NLP-progress 它旨在涵盖传统和核心NLP任务,如依赖解析和词性标记,以及最近的任务,如阅读理解和自然语言推理。主要目的是为读者提供基准数据集的快速概述以及他们感兴趣的任务的最新技术,这是进一步研究的垫脚石。为此,如果有一个地方已经发布并定期维护任务的结果,例如公共排行榜。

  • PKU-TANGENT/nlp-tutorial NLP新手入门教程

  • yuanzhoulvpi2017/zero_nlp 中文nlp解决方案(大模型、数据、模型、训练、推理)

  • bojone/attention Attention机制的实现tensorflow/keras

  • 425776024/nlpcda 中文数据增强工具,随机实体替换\近义词\近义近音字替换\随机字删除\NER类 BIO 数据增强\随机置换邻近的字\百度中英翻译互转\中文等价字替换

  • wac81/textda Python3中文文本的数据增强

  • zhanlaoban/EDA_NLP_for_Chinese 适合中文语料的数据增强EDA的实现

  • akkarimi/aeda_nlp 一种更简单的文本分类数据增强技术.插入符号。

  • rz-zhang/SeqMix 数据增强⽅法,通过序列混合增强活动序列标记。

  • clovaai/ssmix 数据增强⽅法,SSMix⽅法在⽂本input上通过巧妙的⽅法进⾏mixup,⽽不像前⾯⼤部分使⽤在 hidden层上。该⽅法在保留⼤部分重要token的前提下基于⼀些信息替换⼀个新的 span进来。

  • ShomyLiu/Neu-Review-Rec Pytorch的基于评论文本的深度推荐系统模型库。DeepCoNN(WSDM'17)、D-Attn(RecSys'17)、ANR(CIKM'18)、NARRE(WWW'18)、MPCN(KDD'18)、TARMF(WWW'18)、CARL(TOIS'19)、CARP(SIGIR'19)、DAML(KDD'19)

  • squareRoot3/Target-Guided-Conversation 目标指导的开放域对话,开放域聊天中目标引导.

  • flairNLP/flair 最先进的NLP框架。由柏林洪堡大学开发。将先进的NLP模型应用于文本,如NER、词性标记 (PoS)、对生物医学的特殊支持、感知消歧和分类。Flair具有简单的界面,允许不同的单词和文档嵌入,包括Flair嵌入,BERT嵌入和ELMo嵌入。

  • NVIDIA/NeMo 对话式 AI 工具包,专为从事ASR\TTS\语言模型和NLP的研究人员而构建。NeMo的主要目标是帮助来自工业界和学术界的研究人员重用以前的工作(代码和预训练模型),并更轻松地创建新的对话AI模型。所有 NeMo 模型都使用 Lightning 进行训练,训练可自动扩展到 1000 多个 GPU。此外,NeMo 威震天 LLM 模型可以使用张量和管道模型并行性训练多达 1 万亿个参数。NeMo 模型可以针对推理进行优化,并使用 NVIDIA Riva 针对生产用例进行部署。

  • lancopku/pkuseg-python 多领域中文分词工具

  • JasonForJoy/MPC-BERT 一种预训练的多方会话理解语言模型.多方会话(MPC)的各种神经模型在收件人识别、说话人识别和反应预测等方面取得了显著的进展。

  • airaria/TextBrewer 基于PyTorch的NLP任务知识蒸馏工具包,适用于多种模型结构,支持自由组合各种蒸馏策略,并且在文本分类、阅读理解、序列标注等典型NLP任务上均能获得满意的效果。

  • czhang99/SynonymNet 基于多个上下文双向匹配的同义实体发现

PRADO 用于文档分类的投影注意网络 性能媲美BERT,但参数量仅为1/300 tensorflow/models/tree/master/research/sequence_projection

  • stanford-futuredata/ColBERT 基于上下文(contextualized)的后期交互的排序模型 Efficient and Effective Passage Search via Contextualized Late Interaction over BERT 兼顾匹配的效率和doc中的上下文信息

  • salesforce/pytorch-qrnn 准循环神经网络Quasi-Recurrent Neural Network,基于使用实例可以比高度优化的 NVIDIA cuDNN LSTM 实现2到17倍快

  • ChenghaoMou/pytorch-pQRNN pQRNN 结合一个简单的映射和一个quasi-RNN编码器来进行快速并行处理。pQRNN模型表明这种新的体系结构几乎可以达到BERT级的性能,尽管只使用1/300的参数量和有监督的数据。

  • RUCAIBox/TG_CRS_Code TG-ReDial相应的推荐、回复生成、主题预测功能实现。

  • Qznan/QizNLP 快速运行分类、序列标注、匹配、生成等NLP任务的Tensorflow框架 (中文 NLP 支持分布式)

  • salesforce/WikiSQL 用于为关系数据库开发NLP界面的大型众包数据集。 WikiSQL 是与Seq2SQL 一起发布的数据集。使用强化学习从自然语言生成结构化查询。

  • toizzy/tilt-transfer 运行TILT迁移学习实验的代码 让语言模型先在乐谱上进行训练,再在自然语言上训练可以有效的提升语言模型的性能。

  • XiaoMi/MiNLP/minlp-tokenizer 小米 AI NLP 团队的平台 MiNLP 开源了中文分词功能

  • explosion/spaCy 工业级强度的NLP工具包,被称为最快的工业级自然语言处理工具。支持多种自然语言处理的基本功能,主要功能包括分词、词性标注、词干化、命名实体识别、名词短语提取等。

  • RUCAIBox/CRSLab 用于构建会话推荐系统(Conversational Recommender System CRS)的开源工具包。 对话推荐任务主要拆分成三个任务:推荐任务(生成推荐的商品),对话任务(生成对话的回复)和策略任务(规划对话推荐的策略)。模型 CRS 模型 ReDial、KBRD、KGSF、TG-ReDial、推荐模型 Popularity、GRU4Rec、SASRec、TextCNN、R-GCN、BERT、对话模型 HERD、Transformer、GPT-2 策略模型 PMI、MGCG、Conv-BERT、Topic-BERT、Profile-BERT

  • RUCAIBox/CRSPapers 选取了近年来基于深度学习的对话推荐系统相关论文(共 62 篇),并根据工作的类型进行分类,以供参考。

  • nlp-uoregon/trankit 用于多语言自然语言处理的基于轻型变压器的Python工具包 支持以下任务:句子分割。标记化。多字令牌扩展。词性标记。形态特征标记。依赖性解析。命名实体识别。

  • yizhen20133868/NLP-Conferences-Code 记录NLP相关顶会(如ACL、EMNLP、NAACL、COLING、AAAI、IJCAI)的论文开源项目合集

  • cuhksz-nlp/DGSA 基于方向建模图卷积网络的联合方面提取和情感分析.输入:由句子生成的依存句法分析树得到的图;句子(词序列).输出表示为一个标签序列.可用于序列标注、ER 和情感分析。

  • FedML-AI/FedNLP FedNLP:自然语言处理中的联合学习研究平台

  • graph4ai/graph4nlp 一个易于使用的NLP图形神经网络库。应用:文本分类、神经机器翻译、摘要、KG补全:预测konwledge图中两个现有实体之间的缺失关系。数学问题解决:自动解决数学习题,用易懂的语言提供问题的背景信息。名称实体识别、问题生成。

  • PaddlePaddle/PaddleNLP 简单易用且易于开发的强大功能。开发的简单易用的自然覆盖处理模型并提供开发者的简单易用的自然覆盖处理模型,并提供NLP 多场景的语言库供灵活使用的需求。

  • huybery/r2sql Dynamic Hybrid Relation Network for Cross-Domain Context-Dependent Semantic Parsing 跨域上下文相关语义分析的动态混合关系网络 应用于:多轮text-to-SQL 任务(通过多轮对话的方式生成最终的查询语句, Text-to-SQL 任务:给定一个自然语言查询和数据库的作为输入,产生一个SQL语句作为输出。)

  • facebookresearch/GENRE 首创生成式实体检索,通过seq2seq方法(BART)生成有意义的实体名称从而实现实体链接,而且还可以取得SOTA结果。

  • sebastian-hofstaetter/intra-document-cascade IDCM模型: 文档内部级联选择段落服务于文档排序。采用文档内部级联策略,在运行复杂并且高效果的排序模型(ETM,Effective Teacher Model)之前,使用高效率的模型(ESM,Efficient Student Model)进行候选文档中多余段落的删除。相比bert,具有基本相同的效果,而且查询延迟降低400%以上。

  • jingtaozhan/DRhard 通过难负例优化稠密向量文档检索模型训练,利用动态难负例抽样提高模型效果,以及将随机抽样结合静态难负例抽样提高模型稳定性。

  • yechens/NL2SQL Text2SQL 语义解析数据集、解决方案、paper资源整合项。Text to SQL( 以下简称Text2SQL),是将自然语言文本(Text)转换成结构化查询语言SQL的过程,属于自然语言处理-语义分析(Semantic Parsing)领域中的子任务。

  • destwang/CTCResources 中文文本纠错(Chinese Text Correction, CTC)相关论文、数据集。

  • fushengwuyu/chinese_spelling_correction 中文文本纠错模型:bert语言模型+字音字形相似度 、MLM、seq2seq

  • grammarly/gector ”GECToR – Grammatical Error Correction: Tag, Not Rewrite”,使用给序列打标签来替代主流的Seq2Seq模型。本文采取了一种迭代的方法,也就是通过多次(其实最多也就两三次)序列打标签。

  • destwang/CTC2021 本赛题主要选择互联网上中文母语写作者撰写的网络文本作为校对评测数据,从拼写错误、语法错误、语病错误等多个方面考察机器的认知智能能力。

  • Jingjing-NLP/VOLT 借鉴边际效用通过最优转移学习词表。

  • thunlp/OpenAttack 文本对抗攻击工具包,可以用于文本对抗攻击的全过程,包括文本预处理、受害模型访问、对抗样本生成、对抗攻击评测以及对抗训练等。

  • thunlp/TAADpapers 文本对抗攻击和防御必读论文列表。

  • lupantech/InterGPS 基于符号推理的几何数学题求解器。建立了一个新的大规模基准数据集,称为 Geometry3K。这些数据从两本中学教材收集,涵盖了北美 6 到 12 年级的几何知识。每道题收集了 LaTeX 格式的问题文本、几何图形、四个选项和正确答案。为了模型的精细评估,每个数据标注了问题目标和几何图形的类型。Inter-GPS 将几何关系集 R 和定理集 KB 作为输入,应用定理预测器预测适用的定理序列,逐步对关系集进行符号推理,从而输出问题目标的答案。

  • Helsinki-NLP/Tatoeba-Challenge 这是一个机器翻译的挑战集,包含 29G 翻译单元在 3,708 位ext 覆盖 557 种语言。该包包括从涵盖 134 种语言的 Tatoeba.org 衍生的 631 套测试集的版本。此包提供以多种语言进行机器翻译的数据集,并提供从 Tatoeba 获取的测试数据。

  • princeton-nlp/LM-BFF 更好的Few-shot小样本微调语言模型.包括:1.基于提示(prompt)进行微调,关键是如何自动化生成提示模板; 2.将样本示例以上下文的形式添加到每个输入中,关键是如何对示例进行采样.

  • thunlp/PromptPapers 关于基于提示的预先训练语言模型的必读论文。

  • linzehui/mRASP 通过利用对齐信息预训练多语言神经机器翻译. 代表多语言随机对齐替换预训练,是一种预训练的多语言神经机器翻译模型。 它在包含 32 个语言对的大规模多语言语料库上进行了预训练。 获得的模型可以在下游语言对上进一步微调。 为了有效地使具有相似含义的单词和短语在多种语言的表示中更接近,我们引入了随机对齐替换 (RAS) 技术。

  • soft-prompt-tuning The Power of Scale for Parameter-Efficient Prompt Tuning 用于参数高效的即时调整的规模的力量

  • facebookresearch/ParlAI 在各种公开可用的对话数据集上训练和评估 AI 模型的框架。

  • CAMTL/CA-MTL 条件自适应多任务学习:使用更少的参数和更少的数据改进 NLP 中的迁移学习

  • thunlp/WantWords 一个开源的在线反向词典。

  • pcyin/tranX 用于将自然语言查询映射到机器可执行代码的通用神经语义解析器

  • hooman650/SupCL-Seq 下游优化序列表示的监督对比学习

  • openai/grade-school-math 包含 8.5K 高质量语言多样化小学数学单词问题的数据集。对于每个测试问题,我们提供从 6B 微调、6B 验证、175B 微调和 175B 验证生成的解决方案。

  • makcedward/nlpaug NLP 的数据增强

  • hankcs/pyhanlp 中文分词、依存句法分析

  • shibing624/pycorrector 中文文本纠错工具。支持中文音似、形似、语法错误纠正。实现了Kenlm、ConvSeq2Seq、BERT、MacBERT、ELECTRA、ERNIE、Transformer等多种模型的文本纠错,并在SigHAN数据集评估各模型的效果。

  • HillZhang1999/MuCGEC MuCGEC中文纠错数据集及文本纠错SOTA模型开源

  • PengheLiu/Cn_Speck_Checker 通过统计方法对中文单词进行自动纠错

  • taozhijiang/chinese_correct_wsd 简易中文纠错消歧 用户输入语句的同音自动纠错.

  • beyondacm/Autochecker4Chinese 中文文本错别字检测以及自动纠错

  • iqiyi/FASPell 2019-SOTA简繁中文拼写检查工具:FASPell Chinese Spell Checker ( 中文拼写检错 / 中文拼写纠错 / 中文拼写检查)

  • hiyoung123/SoftMaskedBert 中文文本纠错模型。使用两个网络模型,一个用于错误检测;另一个基于BERT进行纠错。

  • ACL2020SpellGCN/SpellGCN 将语音学和视觉相似性结合到汉语拼写检查\文本纠错

  • MuCGEC/scorers/ChERRANT 借鉴了英文上主流的GEC(Grammatical Error Correction 语法纠错)评估工具ERRANT,搭建了中文GEC评估工具ChERRANT(Chinese ERRANT)。ChERRANT的主要功能是通过对比预测编辑和标准编辑,计算预测结果的精确度、召回度、F值指标,从而评估语法纠错模型的性能。应用:搜索query纠错、语音纠错、舆情文本纠错

  • liushulinle/CRASpell 使用复制机制改进中文拼写纠正的上下文错字稳健方法

  • thunlp/OpenBackdoor 文本后门攻防开源工具包(NeurIPS 2022 D&B)

  • xueyouluo/ccks2021-track2-code “英特尔创新大师杯”深度学习挑战赛 赛道2:CCKS2021中文NLP地址要素解析 。基于BERT的Biaffine结构,直接预测文本构成的所有span的类别。相比单纯基于span预测和基于MRC的预测,Biaffine的结构可以同时考虑所有span之间的关系,从而提高预测的准确率。

  • kpu/kenlm 高效统计语言模型kenlm:新词发现、分词、智能纠错

  • ryanzhumich/Contrastive-Learning-NLP-Papers NLP 对比学习是一种学习嵌入空间的技术,使得相似的数据样本对具有接近的表示,而不同的样本彼此相距很远。 它可以在有监督或无监督的设置中使用,使用不同的损失函数来生成特定于任务或通用的表示。 在各种 NLP 任务中提供了有希望的性能改进,而且还提供了所需的特性,例如与任务无关的句子表示、忠实的文本生成、零样本和少样本设置中的数据高效学习、可解释性和可解释性 .

  • textstat/textstat 用于计算文本对象(段落、句子、文章)的可读性统计数据。

  • nonebot/nonebot2 跨平台 Python 异步聊天机器人框架

  • mit-han-lab/smoothquant 对大语言模型的准确和高效的训练后量化

  • causaltext/causal-text-papers 因果推理和自然语言处理的交叉研究。

  • zhijing-jin/Causality4NLP_Papers 关于自然语言处理因果关系的论文阅读列表

  • DaDaMrX/ReaLiSe 多模态模型中文拼写检查器。包括:文字语义、文字发音、文字图形。

  • dbohdan/structured-text-tools 用于操作结构化文本数据的命令行工具列表

  • huggingface/tokenizers 提供当今最常用的分词器的实现,重点关注性能和多功能性。

  • jessevig/bertviz 在NLP模型中可视化注意力(BERT,GPT2,BART等)

  • lutzroeder/netron 用于神经网络、深度学习和机器学习模型的可视化工具

  • sebastianruder/NLP-progress 用于跟踪自然语言处理 (NLP) 进展的存储库,包括数据集和最常见 NLP 任务的最新技术水平。

  • DengBoCong/nlp-paper 自然语言处理领域下的相关论文(附阅读笔记),复现模型以及数据处理等

  • ssut/py-googletrans (非官方)Googletrans:免费且无限制的 Google 翻译 API for Python。翻译完全免费。

  • jgm/pandoc 通用标记转换器。一个Haskell库,用于从一种标记格式转换为另一种标记格式,以及使用该库的命令行工具。

  • shibing624/bart4csc-base-chinese BART中文拼写纠错模型,训练使用了SIGHAN + Wang271K 中文纠错数据集,在SIGHAN2015的测试集上达到接近SOTA水平。

网络与前后端开发

JavaScript框架

  • twbs/bootstrap 最流行的 HTML、CSS 和 JavaScript 框架,用于在 Web 上开发响应式、移动优先的项目。

  • nodejs/node Node.js JavaScript 运行时

  • denoland/deno JavaScript 和 TypeScript 的现代运行时。

  • microsoft/TypeScript JavaScript 的一个超集,它编译为干净的 JavaScript 输出。

  • sindresorhus/awesome-nodejs 令人愉快的 Node.js 包和资源

  • getify/You-Dont-Know-JS 一系列深入探讨 JavaScript 语言核心机制的书籍。

  • vercel/next.js Next.js 被一些世界上最大的公司使用,能够通过最新的 React 扩展来创建全栈 Web 应用程序,并集成强大的基于 Rust 的 Js 工具以实现最快的构建。

  • vitejs/awesome-vite 与 Vite 相关的精彩事物的精选列表

  • vuejs/core 一个渐进的、可增量采用的 JavaScript 框架,用于在 Web 上构建 UI。

  • vuejs/vue 这是 Vue 2 的存储库。一个用于构建用户界面的渐进式框架。它从头开始设计为可增量采用,并且可以根据不同的用例在库和框架之间轻松扩展。它由一个仅关注视图层的平易近人的核心库和一个由支持库组成的生态系统组成,可帮助您解决大型单页应用程序中的复杂性。

  • cuixiaorui/mini-vue 实现最简 vue3 模型,帮助你更高效地学习 vue3 源代码

  • axios/axios 用于浏览器和 node.js 的基于 Promise 的 HTTP 客户端

  • remix-run/remix 建立更好的网站。使用 Web 基础创建现代、有弹性的用户体验。全栈 Web 框架,可让您专注于用户界面并通过 Web 基础知识进行工作,以提供快速、流畅且有弹性的用户体验,可部署到任何 Node.js 服务器甚至非 Node.js 环境像 Cloudflare Workers 一样的边缘。

  • oven-sh/bun 多合一快速且易于使用的工具。 不需要 1,000 个用于开发的 node_modules,你只需要 bun。令人难以置信的快速 JavaScript 运行时、捆绑器、测试运行器和包管理器 - 合二为一

  • denoland/fresh 下一代 Web 框架,专为速度、可靠性和简单性而构建。一些突出的特点:边缘实时渲染。在客户端上无缝渲染某些组件,以实现最大的交互性。零运行时开销:默认情况下不向客户端发送 JS。没有构建步骤。无需配置。TypeScript 支持。文件系统路由 à la Next.js。

  • nestjs/nest 用于在 TypeScript 和 JavaScript(ES6、ES7、ES8)之上构建高效、可扩展和企业级服务器端应用程序的渐进式 Node.js 框架

  • chartjs/Chart.js 使用 标签的简单 HTML5 图表

  • juliangarnier/anime 轻量级的JS动画库,具有简单但功能强大的 API。

  • mrdoob/three.js 易于使用、轻量级、跨浏览器的通用 3D 库。当前仅包含 WebGL 渲染器,但 WebGPU(实验性)、SVG 和 CSS3D 渲染器也可作为插件使用。

  • slidevjs/slidev 面向开发人员的演示幻灯片

  • TheAlgorithms/JavaScript 在 JavaScript 中为初学者实现的算法和数据结构,遵循最佳实践。

  • parallax/jsPDF 面向所有人的客户端 JavaScript PDF 生成。

  • cheeriojs/cheerio 用于解析和操作 HTML 和 XML 的快速、灵活且优雅的库。

  • videojs/video.js 视频.js - 开源HTML5视频播放器

  • showdownjs/showdown Js 编写的双向 Markdown 到 HTML 到 Markdown 转换器

  • shadcn/taxonomy 使用新路由器、服务器组件和 Next.js 13 中的所有新功能构建的开源应用程序。

  • xgrommx/awesome-redux JS 应用的状态容器,提供可预测的状态管理

  • wasp-lang/wasp 使用 React 和 Node.js 开发全栈 Web 应用程序的最快方法。

  • Asabeneh/30-Days-Of-JavaScript 30 天的 JavaScript 编程挑战是在 30 天内学习 JavaScript 编程语言的分步指南。

  • trekhleb/javascript-algorithms 用 JavaScript 实现的算法和数据结构,带有解释和进一步阅读的链接

  • purescript/purescript 一种小型的强类型编程语言,具有表达类型,编译为 JavaScript,由 Haskell 编写并受其启发。

  • vercel/pkg 将 Node.js 项目打包到可执行文件中,该可执行文件甚至可以在未安装 Node.js 的设备上运行。

  • v8/v8 V8 是 Google 的开源 JavaScript 引擎。V8 实现了 ECMA-262 中指定的 ECMAScript。V8 实现了 ECMA-262 中指定的 ECMAScript。V8是用C++编写的,用于谷歌的开源浏览器谷歌浏览器。V8 实现了 ECMA-262 中指定的 ECMAScript。

  • AssemblyScript/assemblyscript 类似 TypeScript 的 WebAssembly 语言。

  • chakra-core/ChakraCore 一个带有 C API 的 JavaScript 引擎,您可以使用它向任何 C 或 C 兼容项目添加对 JavaScript 的支持。它可以在Linux macOS和Windows上为x64处理器编译。x86 和 ARM 仅适用于 Win。未来的目标是在Linux上支持x86和ARM处理器,在macOS上支持ARM。

  • jerryscript-project/jerryscript 用于物联网的超轻量级 JS 引擎。适用于资源受限的设备,如微控制器。它可以在 RAM 小于 64 KB 且闪存小于 200 KB 的设备上运行。

  • svaarala/duktape 可嵌入的Js引擎,专注于可移植性和紧凑的占地面积.Duktape 很容易集成到 C/C++ 项目中:将 duktape.h 和 duk_config.h 添加到 duktape.c 您的构建中,并使用 Duktape API 从 C 代码调用 ECMAScript 函数,反之亦然。

  • boa-dev/boa 用Rust编写的可嵌入的实验性Js引擎。目前,它支持某些语言。

  • quickjs-zh/QuickJS 小型并且可嵌入的Js引擎,支持ES2020规范,包括模块,异步生成器和代理器。

  • GoogleChromeLabs/jsvu jsvu 可以轻松安装各种 JavaScript 引擎的最新版本,而无需从源代码编译它们。

  • cesanta/elk 用于嵌入式系统的低占用空间 JavaScript 引擎。它实现了 ES6 的一个小但可用的子集。它专为微控制器开发而设计。Elk 不是完全用 C/C++ 编写固件代码,而是允许将 JavaScript 自定义添加到用 C 开发的固件中 - 这是让客户扩展/自定义设备功能的好方法。

  • kaluma-project/kaluma RP2040(Raspberry Pi Pico) 的微型 JavaScript 运行时

  • Taritsyn/JavaScriptEngineSwitcher JavaScript 引擎切换器确定了访问流行 JavaScript 引擎基本功能的统一接口。此库允许您快速轻松地切换到使用另一个 JavaScript 引擎。

  • webpack/webpack JavaScript和相关资源的捆绑器。将许多模块打包到几个捆绑资产中。代码拆分允许按需加载应用程序的各个部分。通过“加载器”,模块可以是CommonJs,AMD,ES6模块,CSS,Images,JSON,Coffeescript,LESS,...和你的定制东西。

  • ryanmcdermott/clean-code-javascript 适用于 JavaScript 的干净代码概念

  • babel/babel 用于编写下一代 JavaScript 的编译器。一个帮助你用最新版本的 JavaScript 编写代码的工具。当您支持的环境本身不支持某些功能时,Babel 将帮助您将这些功能编译为受支持的版本。

  • goldbergyoni/nodebestpractices node.js最佳实践列表

  • sahat/hackathon-starter node.js Web 应用程序的样板

  • sorrycc/awesome-javascript 很棒的浏览器端 JavaScript 库、资源。

  • leonardomso/33-js-concepts: 每个开发人员都应该知道的 33 个 JavaScript 概念。

  • 30-seconds/30-seconds-of-code 满足您所有开发需求的简短 JavaScript 代码片段

  • saghul/txiki.js 使用 QuickJS、libuv 构建的微型 JavaScript 运行时

  • gpujs/gpu.js GPU 加速的 JavaScript

  • nvm-sh/nvm node版本管理器 - 符合 POSIX 标准的 bash 脚本,用于管理多个活动node.js版本

  • NativeScript/NativeScript 通过原生平台 API 为 JavaScript 提供支持。世界上最好的(TypeScript,Swift,Objective C,Kotlin,Java)。使用你喜欢的Angular,Capacitor,Ionic,React,Solid,Svelte,Vue:SwiftUI,Jetpack Compose,Flutter,你的名字兼容。

  • MostlyAdequate/mostly-adequate-guide javascript指南

  • reasonml/reason 利用JavaScript和OCaml生态系统的简单,快速和类型的安全代码。OCaml是Caml的继承者,CAML的缩写最初代表Categorical Abstract Machine Language,分类抽象机语言,不过后来,将这个抽象机淘汰掉了。OCaml有一个巨大并强悍的标准库,这使得她可以像Py或者Perl一样可以方便地开发各种应用程序,健壮的模块化与面向对象编程结构又使得她可以胜任大规模软件工程项目。

前端开发框架及项目

  • facebook/react Web 和本机用户界面的库。用于构建用户界面的 JavaScript 库。声明式:React 使创建交互式 UI 变得轻松。为应用程序中的每个状态设计简单的视图,React 将在数据更改时有效地更新和渲染正确的组件。声明性视图使代码更可预测、更易于理解且更易于调试。基于组件:构建管理其自身状态的封装组件,然后组合它们以创建复杂的 UI。由于组件逻辑是用 JavaScript 而不是模板编写的,因此您可以轻松地通过应用传递丰富的数据,并将状态排除在 DOM 之外。一次学习,随处编写:我们不会对您的技术堆栈的其余部分做出假设,因此您可以在 React 中开发新功能,而无需重写现有代码。React 还可以使用 Node 在服务器上渲染,并使用 React Native 为移动应用程序提供支持。

  • facebook/create-react-app 通过运行一个命令来设置新式react Web 应用。

  • facebook/react-native 使用 React 构建本机应用程序的框架

  • enaqx/awesome-react 关于 React 生态系统的精彩内容的集合

  • mui/material-ui 即用型基础 React 组件,永久免费。它包括 Material UI,它实现了 Google 的 Material Design。

  • airbnb/javascript JavaScript 风格指南。

  • bolshchikov/js-must-watch 关于javascript的必看视频

  • google/material-design-icons 来自谷歌两个不同的官方图标集,使用相同的底层设计。材质图标是经典套装,材质符号于 2022 年 4 月推出,基于可变字体技术构建。

  • google/material-design-lite Material Design Lite 允许您为静态内容网站添加 Material Design 外观。它不依赖于任何JavaScript框架或库。针对跨设备使用进行了优化,在较旧的浏览器中优雅地降级,并提供从一开始就可以访问的体验。

  • ant-design/ant-design 企业级 UI 设计语言和 React UI 库

  • electron/electron使用 JavaScript、HTML 和 CSS 构建跨平台桌面应用程序

  • angular/angular 用于构建移动和桌面 Web 应用程序的开发平台,使用 TypeScript/ JavaScript 和其他语言。

  • gatsbyjs/gatsby 无头网络的最快前端。用 React 构建现代网站。Gatsby 是基于 React,可帮助开发人员构建速度极快的网站和应用程序。它将动态渲染网站的控制和可扩展性与静态网站生成的速度相结合,创造了一个全新的可能性网络。

  • vuejs/awesome-vue 与 Vue 相关的精彩事物的精选列表

  • vuetifyjs/awesome-vuetify Vuetify 是一个不需要设计技能的 UI 库,其中包含精美的手工制作的 Vue 组件。您将在下面找到一系列应用程序和工具,这些应用程序和工具有助于展示 Vuetify 所提供的最佳功能

  • nestjs/awesome-nestjs 与NestJS 相关的精彩事物的精选列表

  • layui/layui 一套遵循原生态开发模式的 Web UI 组件库,采用自身轻量级模块化规范,易上手,可以更简单快速地构建网页界面。

  • dcloudio/uni-app 使用 Vue.js`开发小程序、H5、App的统一前端框架。使用 Vue 语法编写代码,uni-app 框架将其编译到 小程序(微信/支付宝/百度/字节跳动/QQ/快手/钉钉/小红书)、App(iOS/Android)、H5等平台,保证正确并达到优秀体验。

  • MrXujiang/h5-Dooring 让H5制作像搭积木一样简单, 轻松搭建H5页面, H5网站, PC端网站,LowCode平台.

  • qianguyihao/Web 千古前端图文教程,超详细的前端入门到进阶知识库。从零开始学前端,做一名精致优雅的前端工程师。

  • PatrickJS/awesome-angular 令人敬畏的 Angular 资源的精选列表

  • hexojs/hexo 一个快速,简单和强大的博客框架,由Node.js提供支持。

  • statelyai/xstate 现代 Web 的状态机和状态图。状态图是用于对有状态、反应性系统进行建模的形式。这对于以声明方式描述应用程序的行为(从各个组件到整个应用程序逻辑)非常有用。

  • akveo/blur-admin : AngularJS Bootstrap Admin 管理面板前端框架

  • ColorlibHQ/gentelella 免费Bootstrap4 管理仪表板模板

  • akveo/ngx-admin 基于Angular 10 +的可定制管理仪表板模板

  • tabler/tabler 建立在Bootstrap上的HTML Dashboard UI 工具包

  • coreui/coreui-free-bootstrap-admin-template 基于由专业人士创建和支持的企业级手工制作的 UI 组件库构建的开源 Bootstrap 管理仪表板模板。CoreUI 管理模板可帮助您比以前更快地构建可靠的 Web 应用。CoreUI提供4个版本:Angular,Bootstrap,React.js和Vue.js。

  • puppeteer/puppeteer Node.js 库,提供了一个高级 API 来控制 DevTools 协议上的 Chrome/Chromium。Puppeteer默认以无头模式运行,但可以配置为在完整(“有头”)Chrome / Chromium中运行。示例:生成页面的屏幕截图和 PDF。对 SPA(单页应用程序)进行爬网并生成预呈现的内容(即“SSR”(服务器端呈现))。自动化表单提交、UI 测试、键盘输入等。使用最新的 JavaScript 和浏览器功能创建自动化测试环境。捕获站点的时间线跟踪,以帮助诊断性能问题。测试Chrome扩展程序。

  • ant-design/ant-design-pro React企业应用程序的全新 UI 解决方案。

  • ColorlibHQ/AdminLTE 基于 Bootstrap 4 的免费管理仪表板模板

  • chuzhixin/vue-admin-better vue后台管理

  • vbenjs/vue-vben-admin 免费开放源码的中间端和后端模板,使用最新的 vue3,vite2,TypeScript 和其他主流技术开发,可作为学习参考。

  • lyt-Top/vue-next-admin 基于 vue3.x + CompositionAPI setup 语法糖 + typescript + vite + element plus + vue-router-next + pinia 技术,适配手机、平板、pc 的后台开源免费模板,实现快速开发。

  • PanJiaChen/vue-element-admin 后台前端解决方案,基于 vue 和 element-ui

  • cool-team-official/cool-admin-vue 很酷的后台权限管理框架,模块化、插件化、CRUD极速开发,基于midway.js 3.0、typeorm、mysql、jwt、element-ui、vuex、vue-router、vue等构建

  • flipped-aurora/gin-vue-admin 基于vite+vue3+gin搭建的开发基础平台(支持TS,JS混用),集成jwt鉴权,权限管理,动态路由,显隐可控组件,分页封装,多点登录拦截,资源权限,上传下载,代码生成器,表单生成器。

  • biubiubiu01/vue3-bigData 基于vue的大数据分析系统,包含各种echarts和vue

  • RainManGO/vue3-composition-admin 基于vue3 的管理端模板

  • pure-admin/vue-pure-admin Vue3+Vite4+Element-Plus+TypeScript编写的一款后台管理系统(兼容移动端)

  • macrozheng/mall-swarm 一套微服务商城系统,采用了 Spring Cloud 2021 & Alibaba、Spring Boot 2.7、Oauth2、MyBatis、Docker、Elasticsearch、Kubernetes等核心技术,同时提供了基于Vue的管理后台方便快速搭建系统。mall-swarm在电商业务的基础集成了注册中心、配置中心、监控中心、网关等系统功能。文档齐全,附带全套Spring Cloud教程。

  • YunaiV/yudao-cloud 基于 Spring Cloud Alibaba + MyBatis Plus + Vue & Element 实现的后台管理系统 + 用户小程序,支持 RBAC 动态权限、多租户、数据权限、工作流、三方登录、支付、短信、商城等功能。

  • macrozheng/mall-learning mall学习教程,架构、业务、技术要点全方位解析。mall项目(50k+star)是一套电商系统,使用现阶段主流技术实现。涵盖了SpringBoot 2.3.0、MyBatis 3.4.6、Elasticsearch 7.6.2、RabbitMQ 3.7.15、Redis 5.0、MongoDB 4.2.5、Mysql5.7等技术,采用Docker容器化部署。

  • jaywcjlove/icongo 搜索 SVG 图标。轻松地在 React 项目中包含流行的图标,并提供一个简单的工具将 SVG 转换为 React 组件。icongo

  • Lissy93/dashy 为您构建的自托管个人仪表板。包括状态检查,小部件,主题,图标包,UI编辑器等等!

  • DataV-Team/DataV Vue数据可视化组件库(类似阿里DataV,大屏数据展示),提供SVG边框及装饰、图表、水位图、飞线图等组件,React版已发布

  • youzan/vant-weapp 轻量、可靠的小程序 UI 组件库

  • lsqy/taro-music 基于taro + taro-ui + redux + react-hooks + typescript 开发的网易云音乐小程序

  • element-plus/element-plus Element 团队制作的 Vue.js 3 UI 库

  • newbee-ltd/newbee-mall-vue3-app Vue3 + Vant 搭建大型单页面商城项目。

  • woniudiancang/bee 微信小程序-餐饮点餐外卖-开箱即用

  • iamxjb/winxin-app-watch-life.net 微慕小程序开源版-WordPress版微信小程序

  • nslogx/Gitter 可能是目前颜值最高的GitHub微信小程序客户端

  • mark420524/question 小程序,微信答题小程序,可以进行答题,模拟考试。增加了词典查询,汉字成语查询等功能

  • ecomfe/echarts-for-weixin Apache ECharts 的微信小程序版本

  • TalkingData/iview-weapp 一套高质量的微信小程序 UI 组件库

  • mageslr/weapp-library “在线借书平台”微信小程序

  • kesixin/QuestionWechatApp 微信小程序,考试小程序,答题小程序,刷题小程序。毕业设计小程序,有前后端完整源码和数据库,易于二次开发。还可用于考试活动,企业内部考核,内部培训等职业考试刷题。

  • Tencent/wepy 小程序组件化开发框架

  • iv-org/invidious YouTube 的前端替代

  • pipipi-pikachu/PPTist 基于 Vue3.x + TypeScript 的在线演示文稿(幻灯片)应用,还原了大部分 Office PowerPoint 常用功能,支持 文字、图片、形状、线条、图表、表格、视频、音频、公式 几种最常用的元素类型,每一种元素都拥有高度可编辑能力,同时支持丰富的快捷键和右键菜单,支持导出本地 PPTX 文件,支持移动端基础编辑和预览,支持 PWA。您可以在此基础上搭建自己的在线幻灯片应用。

  • vercel/swr 用于数据获取的 React Hooks 库。“SWR”来源于 stale-while-revalidate ,由HTTP RFC 5861推广的缓存失效策略。SWR先从缓存中返回数据(过时),然后发送请求(重新验证),最后再次附带最新数据。

  • animate-css/animate.css 跨浏览器的 CSS 动画库。就像容易的事一样容易使用。

  • vercel/vercel Vercel的前端云为开发人员提供了框架、工作流程和基础设施,以构建更快、更个性化的网络。面向前端开发人员的平台,提供创新者在灵感瞬间创建所需的速度和可靠性。

  • Cveinnt/LiveTerm 在几分钟内构建终端风格的网站!

  • woocommerce/woocommerce 基于WordPress构建的可定制的开源电子商务平台。构建您能想象到的任何商务解决方案。

  • wpscanteam/wpscan WPScan WordPress安全扫描程序。为安全专业人员和博客维护人员编写,以测试其WordPress网站的安全性。

  • roots/bedrock WordPress样板,更轻松的配置和改进的文件夹结构

  • timber/timber 使用漂亮的OOP代码和Twig模板引擎创建WordPress主题

  • wp-cli/wp-cli WordPress的命令行界面。您可以更新插件,配置多站点安装等等,而无需使用Web浏览器。

  • postlight/headless-wp-starter WordPress + React 入门套件:一步启动 WordPress 驱动的 React 应用程序

  • WordPress/gutenberg WordPress及其他版本的块编辑器项目。插件可从官方存储库获得。

  • Automattic/wp-calypso 新的 WordPress.com 前端 - 使用单页 Web 应用程序对 WordPress 仪表板进行了漂亮的重新设计,由 WordPress.com REST API 提供支持。Calypso 是为在一个地方阅读、写作和管理所有 WordPress 网站而构建的。

  • roots/sage WordPress入门主题,带有Laravel Blade组件和模板,Tailwind CSS和现代开发工作流程

  • aniftyco/awesome-tailwindcss 实用工具优先的 CSS 框架,用于快速构建自定义用户界面。

  • SmallRuralDog/vue3-music VUE3+TS开发的音乐播放器,模仿mac QQ音乐。

  • tw93/Pake 很简单的用 Rust 打包网页生成很小的桌面 App

  • tauri-apps/tauri 使用 Web 前端构建更小、更快和更安全的桌面应用程序。

  • Tencent/weui 微信官方设计团队的UI库,收录了移动Web应用中最实用的widgets modules。

  • bvaughn/react-virtualized 用于高效呈现大型列表和表格数据的 React 组件

  • fyne-io/fyne 受材质设计启发的 Go 中的跨平台 GUI 工具包。它旨在使用单个代码库构建在桌面和移动设备上运行的应用程序。

  • SergioBenitez/Rocket Rust 的异步 Web 框架,专注于可用性、安全性、可扩展性和速度。

  • parcel-bundler/parcel 适用于 Web 的零配置构建工具。它将出色的开箱即用开发体验与可扩展的体系结构相结合,可以将您的项目从刚开始转变为大规模生产应用程序。

  • zhaoolee/ChromeAppHeroes 谷粒-Chrome插件英雄榜, 为优秀的Chrome插件写一本中文说明书, 让Chrome插件英雄们造福人类

  • daybrush/moveable 可拖动、可调整大小、可缩放、可旋转、可扭曲、可捏、可分组、可捕捉

  • Blazity/next-enterprise 企业级 Next.js 样板,适用于高性能、可维护的应用。包含 Tailwind CSS、TypeScript、ESLint、Prettier、测试工具等功能,可加速您的开发。

  • jgraph/drawio JavaScript的绘图和白板编辑器

  • ToolJet/ToolJet 用于构建业务应用程序的可扩展低代码框架。连接到数据库、云存储、GraphQL、API 端点、Airtable 等,并使用拖放式应用程序构建器构建应用程序。使用 JavaScript/TypeScript 构建。

  • givanz/VvvebJs 拖放构建网站的javascript 库 。

  • strapi/strapi 领先的开源无头 CMS。100% JScript,完全可定制且开发人员优先。

  • midoks/mdserver-web 一款简单Linux面板服务

  • janishar/nodejs-backend-architecture-typescript Node.js的学习为生产就绪的博客平台(如Medium和FreeCodeCamp)构建后端服务器。主要功能:基于角色,Express.js,Mongoose,Redis,Mongodb,Joi,Docker,JWT,单元集成测试。

  • iview/iview 基于 Vue.js 2.0 构建的高质量 UI 工具包

  • sveltejs/svelte 一种构建Web应用程序的新方法。它是一个编译器,它采用声明性组件并将它们转换为高效的JavaScript,通过外科手术更新DOM。

  • kriasoft/react-starter-kit Web 上最受欢迎的 Jamstack 前端模板(样板),用于使用 React 构建 Web 应用程序

  • cobiwave/simplefolio 面向开发人员的最小的个人介绍模板

  • storybookjs/storybook 前端用于单独构建UI组件和页面。专为 UI 开发、测试和文档编制而设计。组件驱动开发环境。它通过隔离组件使开发更快更容易,它可以一次只处理一个组件。在 web 应用程序中构建小的原子组件和复杂的页面,使用 Storybook 可以让你专注于组件开发,无需去关注 API 文档的编写。

  • Semantic-Org/Semantic-UI 基于自然语言有用原则的 UI 组件框架。允许开发人员通过简洁的 HTML、直观的 JavaScript 和简化的调试快速构建漂亮的网站,帮助使前端开发成为一种愉快的体验。语义采用响应式设计,允许您的网站在多个设备上扩展。

  • markedjs/marked markdown解析器和编译器。为速度而生。

  • recharts/recharts 使用 React 和 D3 重新定义的图表库

  • palantir/blueprint 基于 React 的 Web UI 工具包

  • react-native-elements/react-native-elements 跨平台 React Native UI 工具包

  • SortableJS/Sortable 适用于现代浏览器和触摸设备的可重新排序的拖放列表。不需要jQuery或框架。

  • doczjs/docz Docz 使您的代码编写和发布漂亮的交互式文档变得容易。创建展示代码的 MDX 文件,Docz 将它们转换为实时重新加载、生产就绪的网站。

  • docsifyjs/docsify 一个神奇的文档站点生成器。Docsify将一个或多个Markdown文件转换为网站,无需构建过程。

  • vuetifyjs/vuetify 不需要设计技能的 UI 库,其中包含精美的手工制作的 Vue 组件。无需设计技能 — 创建令人惊叹的应用程序所需的一切触手可及。

  • verekia/js-stack-from-scratch 构建现代 JavaScript 堆栈的分步教程。

  • TanStack/table 用于为 TS/JS 构建功能强大的表和数据网格的无头 UI - React-Table、Vue-Table、Solid-Table、Svelte-Table

  • shadcn-ui/ui 使用Radix UI和Tailwind CSS构建的精美设计的组件。

  • t4t5/sweetalert JavaScript的“alert警报”的漂亮替代品

  • react-hook-form/react-hook-form 用于表单状态管理和验证的 React Hooks

  • typescript-cheatsheets/react 为有经验的 React 开发人员准备的备忘单,开始使用 TypeScript

  • brillout/awesome-react-components React 组件和库的精选列表。

  • nextauthjs/next-auth Auth.js 是一组基于 Web 标准 API 构建的开源包,用于在现代应用程序中使用任何 JS 运行时中任何平台上的任何框架进行身份验证。

  • ionic-team/ionic-framework 一个强大的跨平台 UI 工具包,用于使用 HTML、CSS 和 JavaScript 构建原生质量的 iOS、Android 和渐进式 Web 应用程序。

  • chakra-ui/chakra-ui 为您的 React 应用程序提供简单、模块化和可访问的 UI 组件

  • alexpate/awesome-design-systems 一系列令人敬畏的设计系统。设计系统是有关原则和最佳实践的文档集合,有助于指导团队构建数字产品。它们通常体现在 UI 库和模式库中。

  • saadeghi/daisyui 流行、最免费、最开源的顺风CSS组件库

  • Leaflet/Leaflet 用于移动友好型交互式地图的 JavaScript 库

  • date-fns/date-fns 现代 JavaScript 日期实用程序库

  • amsul/pickadate.js 移动友好,响应迅速且轻量级的jQuery日期和时间输入选择器。

  • iamkun/dayjs 不可变日期时间库替代 Moment.js具有相同的现代 API

  • rebassjs/rebass 使用风格化系统构建的 React 基元 UI 组件。

  • enzymejs/enzyme React 的 JavaScript 测试实用程序,可以更轻松地测试 React 组件的输出。您还可以操作、遍历和以某种方式模拟给定输出的运行时。

  • ill-inc/biomes-game Biomes是一个开源沙盒MMORPG,使用Next.js,Typescript,React和WebAssembly等Web技术为Web构建。

  • reagent-project/reagent 提供了一种编写高效 React 组件的方法,(几乎)只使用普通的 ClojureScript 函数。

  • meteor/meteor 一个用于构建现代 Web 应用程序的超简单环境。

  • dexteryy/spellbook-of-modern-webdev 现代 JavaScript Web 开发的大图景、同义词库和分类法

  • elm/compiler Elm的编译器,一种用于可靠Web应用程序的函数式语言。

  • mixmark-io/turndown 用JavaScript编写的HTML到Markdown转换器

  • pdf2htmlEX/pdf2htmlEX 将PDF转换为HTML,而不会丢失文本或格式。

后端开发框架及项目

  • django/django 高级Python Web框架,它鼓励快速开发和干净、实用的设计。

  • swoole/swoole-src 一个事件驱动、异步、基于协程的高性能并发库,适用于 PHP。

  • celery/celery 分布式任务队列。通过消息进行通信,通常使用代理在客户端和工作线程之间进行调解。为了启动任务,客户端将消息放入队列,然后代理将消息传递给工作线程。

  • tiangolo/fastapi 现代、快速(高性能)的 Web 框架,用于基于标准 Python 类型提示使用 Python 3.7+ 构建 API。

  • humiaozuzu/awesome-flask 精选的 Flask 资源和插件列表

  • expressjs/express 快速,无配置,极简主义的node Web框架。

  • doocs/source-code-hunter 从源码层面,剖析挖掘互联网行业主流技术的底层实现原理,为广大开发者 “提升技术深度” 提供便利。目前开放 Spring 全家桶,Mybatis、Netty、Dubbo 框架,及 Redis、Tomcat 中间件等

  • withastro/astro 现代web网站构建工具 — 强大的开发人员经验,轻量级输出。

  • Tencent/mars 微信开发的跨平台网络组件。跨平台,如果您正在开发多平台或多业务应用程序,则易于部署。适用于小容量数据传输。移动平台友好,低功耗和流量消耗。适合移动应用的网络解决方案。

  • pocketbase/pocketbase 集数据库、用户管理、UI和API等工具的后端开发框架。

  • oatpp/oatpp 轻巧而强大的 C++ Web 框架,用于高度可扩展和资源高效的 Web 应用程序。它是零依赖且易于携带的。

  • codegangsta/gin Go Web 服务器的实时重新加载实用程序

  • zhoutaoo/SpringCloud 基于SpringCloud2.1的微服务开发脚手架,整合了spring-security-oauth2、nacos、feign、sentinel、springcloud-gateway等。服务治理方面引入elasticsearch、skywalking、springboot-admin、zipkin等,让项目快速进入业务开发,而不需过多时间花费在架构搭建上。

  • humiaozuzu/awesome-flask 精选的 Flask ( python web 框架) 资源和插件列表

  • chiraggude/awesome-laravel 来自Laravel生态系统的书签,软件包,教程,视频和其他酷炫资源的精选列表

  • ninenines/cowboy 用 Erlang/OTP 的小型、快速、现代的 HTTP 服务器。

  • openfaas/faas 使开发人员可以轻松地将事件驱动的函数和微服务部署到 Kubernetes,而无需重复的样板编码。将代码或现有二进制文件打包在与 OCI 兼容的映像中,以获得具有自动缩放和指标的高度可扩展的终结点。

  • ossrs/srs SRS是一个简单,高效,实时的视频服务器,支持RTMP,WebRTC,HLS,HTTP-FLV,SRT,MPEG-DASH和GB28181。

  • JeffLi1993/springboot-learning-example spring boot 实践学习案例,是 spring boot 初学者及核心技术巩固的最佳实践。

  • logto-io/logto 帮助您在几分钟内建立登录、身份验证和用户身份。我们为 Web 和本机应用程序提供基于 OIDC 的身份服务和用户名、电话号码、电子邮件和社交登录的最终用户体验。

  • halo-dev/halo 强大易用的开源建站工具。

  • vercel/micro 异步 HTTP 微服务.具有异步方法的简约微服务框架。

  • fuzhengwei/itstack-demo-design 《重学Java设计模式》是一本互联网真实案例实践书籍。以落地解决方案为核心,从实际业务中抽离出,交易、营销、秒杀、中间件、源码等22个真实场景,来学习设计模式的运用。

  • doocs/advanced-java 互联网 Java 工程师进阶知识完全扫盲:涵盖高并发、分布式、高可用、微服务、海量数据处理等领域知识

  • SocketCluster/socketcluster 高度可扩展的实时发布/订阅和 RPC 框架

  • moleculerjs/moleculer 快速,现代和强大的Node.js微服务框架。它可以帮助您构建高效,可靠和可扩展的服务。Moleculer 提供了许多用于构建和管理微服务的功能。

  • sfyc23/EverydayWechat 微信助手:1.每日定时给好友(女友)发送定制消息。2.机器人自动回复好友。3.群助手功能(例如:查询垃圾分类、天气、日历、电影实时票房、快递物流、PM2.5等)

  • tinode/chat 即时通讯平台。Go 中的后端。客户端:Swift iOS,Java Android,JS webapp,可编写脚本的命令行;聊天机器人

  • 42wim/matterbridge 一个简单的聊天桥 ,Mattermost,IRC,gitter,xmpp,Slack,Discord,Telegram,rocketchat,twitch,ssh-chat,zulip,WhatsApp,Keybase,matrix,Microsoft Teams,Nextcloud,Mumble,vk等与REST API之间的桥梁

  • Tencent/APIJSON 零代码、全功能、强安全 ORM 库 🚀 后端接口和文档零代码,前端(客户端) 定制返回 JSON 的数据和结构。

  • discordjs/discord.js 一个强大的JavaScript库,用于与Discord API交互

  • pedroslopez/whatsapp-web.js 一个用于 NodeJS 的 WhatsApp 客户端库,通过 WhatsApp Web 浏览器应用程序进行连接

  • yagop/node-telegram-bot-api Node.js与官方telegram电报机器人API交互的模块。

  • telegraf/telegraf 现代telegram电报机器人API框架 Node.js

  • typeorm/typeorm 用于TypeScript和JavaScript的ORM。支持MySQL,PostgreSQL,MariaDB,SQLite,MS SQL Server,Oracle,SAP Hana,WebSQL数据库。适用于NodeJS,Browser,Ionic,Cordova和Electron平台。

  • Unitech/pm2 Node.js具有内置负载均衡器的生产进程管理器。

  • facebook/hhvm 用于执行用Hack编写的程序的虚拟机。一个开源虚拟机,设计用于执行用Hack编写的程序。HHVM 使用实时 (JIT) 编译方法来实现卓越的性能,同时保持惊人的开发灵活性。HHVM应该与内置的Web服务器一起使用,易于部署的Proxygen,或者在nginx或Apache之上基于FastCGI的网络服务器。

网络与前后端开发_其他

  • shengqiangzhang/examples-of-web-crawlers python爬虫例子

  • Jack-Cherish/python-spider Python3网络爬虫实战:淘宝、京东、网易云、B站、12306、抖音、笔趣阁、漫画小说下载、音乐电影下载等

  • gocolly/colly 优雅的 Golang 爬虫框架

  • elebumm/RedditVideoMakerBot 爬取Reddit帖子并合成视频工具

  • facert/awesome-spider 收集各种爬虫

  • AJay13/ECommerceCrawlers 实战多种网站、电商数据爬虫。包含:淘宝商品、微信公众号、大众点评、招聘、闲鱼、阿里任务、scrapy博客园、微博、百度贴吧、豆瓣电影、包图网、全景网、豆瓣音乐、某省药监局、搜狐新闻、机器学习文本采集、fofa资产采集、汽车之家、国家统计局、百度关键词收录数、蜘蛛泛目录、今日头条、豆瓣影评️️️。微信爬虫展示项目

  • shengqiangzhang/examples-of-web-crawlers 有趣的python爬虫例子,对新手比较友好,主要爬取淘宝、天猫、微信、微信读书、豆瓣、QQ等网站。

  • wistbean/learn_python3_spider python爬虫教程系列、从0到1学习python爬虫,包括浏览器抓包,手机APP抓包,如 fiddler、mitmproxy,各种爬虫涉及的模块的使用,如:requests、beautifulSoup、selenium、appium、scrapy等,以及IP代理,验证码识别,Mysql,MongoDB数据库的python使用,多线程多进程爬虫的使用,css 爬虫加密逆向破解,JS爬虫逆向,分布式爬虫,爬虫项目实战实例等

  • dataabc/weiboSpider 新浪微博爬虫,用python爬取新浪微博数据

  • nwjs/nw.js 直接从 DOM/WebWorker 调用所有 Node.js 模块,并启用一种使用所有 Web 技术编写应用程序的新方法。

  • gofiber/fiber 用 Go 编写的受 Express 启发的 Web 框架

  • revel/revel 用于 Go 语言的高生产力、全栈 Web 框架。

  • digitalocean/nginxconfig.io 配置NGINX服务器所需的唯一工具。

  • hoppscotch/hoppscotch 开源 API 开发生态系统。轻量级:采用简约的 UI 设计精心打造。快速:实时发送请求和获取/复制响应。

  • yhirose/cpp-httplib 仅C++标头的 HTTP/HTTPS 服务器和客户端库

  • phanan/htaccess 有用的 .htaccess 代码段的集合。

  • mfornos/awesome-microservices 微服务架构相关原则和技术的精选列表。

  • simplex-chat/simplex-chat 第一个没有任何类型的用户标识符的消息传递平台 - 设计100%私有!iOS和安卓应用程序发布

  • papercups-io/papercups 开源实时客户聊天。用Elixir编写的开源实时客户支持工具Web应用程序。

  • RocketChat/Rocket.Chat 将数据保护放在首位的通信平台。开源的完全可定制的通信平台,用JavaScript开发,适用于具有高标准数据保护的组织。

  • Wechat-Group/WxJava 微信开发 Java SDK ,支持包括微信支付,开放平台,小程序,企业微信,公众号等的后端开发

  • wechaty/wechaty 面向微信聊天机器人制造商的RPA(机器人流程自动化)SDK,可以帮助您在JavaScript,Python,Go和Java的6行中创建机器人,并提供跨平台支持,包括Linux,Windows,MacOS和Docker。

  • JackJiang2011/MobileIMSDK 原创多端IM通信层框架,轻量级、高度提炼,历经8年、久经考验。可能是市面上唯一同时支持UDP + TCP + WebSocket三种协议的同类开源框架,支持 iOS、Android、Java、H5、小程序、Uniapp,服务端基于Netty。

  • cluic/wxauto Windows版本微信客户端(非网页版)自动化,可实现简单的发送、接收微信消息

  • OpenIMSDK/Open-IM-Server 由前微信技术专家打造的基于 Go 实现的即时通讯(IM)项目,从服务端到客户端SDK开源即时通讯(IM)整体解决方案,可以轻松替代第三方IM云服务,打造具备聊天、社交功能的app。

  • hoochanlon/NeiJuan ChatGPT、Google产品等各类镜像与SS/V2/Clash/QuanX网络链,行业研究报告的知识储备库

  • supabase/supabase 开源Firebase替代品。Firebase 是一家实时后端数据库创业公司,它能帮助开发者很快的写出 Web 端和移动端的应用。于 2014 年 Google 收购了 Firebase,之后把 Firebase 结合到 Google 云服务中。

  • rustdesk/rustdesk 远程桌面软件,开箱即用,无需任何配置。您完全掌控数据,不用担心安全问题。

  • vasanthk/how-web-works 网络如何运作 当我们在浏览器中输入 google.com 时,幕后会发生什么?

  • signalwire/freeswitch 一种软件定义的电信堆栈,可实现从专有电信交换机到可在任何商用硬件上运行的多功能软件实施的数字化转型。可以释放任何设备的电信潜力。

  • ionsoul2014/ip2region 离线IP地址定位库和IP定位数据管理框架,10微秒级别查询效率,提供众多主流编程语言的 xdb 数据生成和查询客户端实现。

  • sogou/workflow C++ 并行计算和异步网络引擎

  • soimort/you-get youtube下载

  • XIU2/TrackersListCollection 全网热门 BT Tracker 列表

  • itgoyo/Aria2 突破百度云限速合集

  • PanDownloadServer/Server 百度云PanDownload的个人维护版本

  • liupan1890/aliyunpan 阿里云盘小白羊版 阿里云盘PC版 aliyundriver

  • yuesong-feng/30dayMakeCppServer 30天自制C++服务器,教程和源代码

  • mastodon/mastodon 基于 ActivityPub 的免费开源社交网络服务器,用户可以在其中关注并发现新朋友。 在 Mastodon 上,用户可以发布他们想要的任何东西:链接、图片、文本、视频。 所有服务器都可以作为联合网络进行互操作(一台服务器上的用户可以与另一台的用户无缝通信,包括实现 ActivityPub 的非 Mastodon 软件)

  • nostr-protocol/nostr 真正抗审查的 Twitter 替代品。最简单的开放协议,一劳永逸地创建抗审查的全球“社交”网络。 不依赖于任何受信任的中央服务器,因此具有弹性; 基于加密密钥和签名,防篡改; 它不依赖于 P2P 技术,因此可以正常工作。

  • aljazceru/awesome-nostr 用于抗审查全球网络的开放协议nostr的项目和资源的精选列表,包括:协议、中继、客户端、程序库、网桥和网关、工具、NIP-05身份服务、浏览器扩展、社区、教程

  • irislib/iris-messenger 更好的社交网络Nostr的客户端。

  • damus-io/damus 类似twitter的nostr客户端,适用于iPhone、iPad和MacOS。

  • jeffthibault/python-nostr 用于创建Nostr客户端的Python库

  • vooidzero/B23Downloader Qt C++开发的B站视频、直播、漫画下载器。

  • pavlobu/deskreen 将带有网络浏览器的设备变成您计算机的辅助屏幕

  • BiglySoftware/BiglyBT 基于Azureus的功能丰富的 Bittorrent 客户端

  • zonemeen/musicn 下载高品质音乐的命令行工具

  • foamzou/melody 帮助你更好地管理音乐。帮助你将喜欢的歌曲或者音频上传到音乐平台的云盘。支持在各大音乐和视频网站检索歌曲。支持一键下载到本地,一键上传到云盘。一键“解锁”无法播放的歌曲。

  • v2rayA/v2rayA Web GUI,支持 V2Ray、Xray、SS、SSR、Trojan 和 Pingtunnel

  • curl/curl 用URL语法传输数据的命令行工具和库,支持DICT, FILE, FTP, FTPS, GOPHER, GOPHERS, HTTP, HTTPS, IMAP, IMAPS, LDAP, LDAPS, MQTT, POP3, POP3S, RTMP, RTMPS, RTSP, SCP、SFTP、SMB、SMBS、SMTP、SMTPS、TELNET、TFTP、WS 和 WSS。提供了无数强大的功能

  • Privoce/vocechat-web VoceChat 的 Web 客户端

  • Privoce/vocechat-server-rust 超轻量级的rust编写的社交服务器。轻松集成到您的网站/应用程序。

  • snail007/goproxy golang实现的高性能http,https,websocket,tcp,socks5代理服务器,支持内网穿透,链式代理,通讯加密,智能HTTP,SOCKS5代理,黑白名单,限速,限流量,限连接数,跨平台,KCP支持,认证API。

  • mailpile/Mailpile 一个免费开放的现代,快速的电子邮件客户端,具有用户友好的加密和隐私功能

  • makeplane/plane 开源自托管项目规划工具,可帮助您以最简单的方式跟踪问题、历史和产品路线图。

  • dastergon/awesome-sre 站点可靠性和生产工程资源的精选列表。站点可靠性工程(SRE)是 IT 运维的软件工程方案。

  • openedx/edx-platform 一个面向服务的平台,用于创作和提供任何规模的在线学习。该平台是用Python和JavaScript编写的,并广泛使用Django框架。在最高级别,该平台由一个整体、一些可独立部署的应用程序(IDA)和基于ReactJS的微前端(MFE)组成。

  • lionsoul2014/ip2region 一个离线IP地址管理器框架和定位器,支持数十亿个数据段,十微秒搜索性能。适用于多种编程语言的 XDB 引擎实现

  • localForage/localForage 改进了离线存储。使用简单但功能强大的API包装IndexedDB,WebSQL或localStorage。

  • 521xueweihan/git-tips Git的奇技淫巧。Git 是分布式版本管理工具,版本管理工具能记录每次的修改,只要提交到版本仓库,就可以找到之前任何时刻的状态(文本状态)。

  • dotnetcore/FastGithub github加速神器,解决github打不开、用户头像无法加载、releases无法上传下载、git-clone、git-pull、git-push失败等问题

  • soimort/you-get 很小的命令行实用程序,用于从 Web 下载媒体内容(视频、音频、图像),以防没有其他方便的方法可以做到这一点。

  • freefq/free 翻墙、免费翻墙、免费科学上网、免费节点、免费梯子、免费ss/v2ray/trojan节点、蓝灯、谷歌商店、翻墙梯子

  • Dreamacro/clash Go 中基于规则的隧道。入站:HTTP,HTTPS,SOCKS5服务器,TUN设备。出站: Shadowsocks(R), VMess, Trojan, Snell, SOCKS5, HTTP(S), Wireguard。基于规则的路由:动态脚本、域、IP 地址、进程名称等。假 IP DNS:最大限度地减少对 DNS 污染的影响并提高网络性能。透明代理:通过自动路由表/规则管理重定向 TCP 和 TProxy TCP/UDP。代理组:自动回退、负载平衡或延迟测试。远程提供程序:动态加载远程代理列表。RESTful API:通过全面的 API 就地更新配置。

  • tsenart/vegeta HTTP 负载测试工具和库。超过9000!

  • zxlie/FeHelper Web前端助手,包括各种前端开发工具

  • node-red/node-red 事件驱动应用程序的低代码编程

  • baidu/amis 前端低代码框架,通过 JSON 配置就能生成各种页面。

  • taowen/awesome-lowcode 国内低代码平台从业者交流

  • brick-design/brick-design 低代码框架,支持流式布局与自由布局拖拽编排,可视化拖拽、随意嵌套组合、实时渲染、实时辅助线展示、自由布局支持辅助对齐、支持自动吸附、实时组件间距展示、实时拖拽排序、状态域管理,可视化属性配置、可视化样式配置、多设备适配展示,支持逻辑渲染、模板字符变量、表达式、自定义方法、自定义状态

  • appsmithorg/appsmith 用于构建、部署和维护内部应用程序的开源平台。您可以构建任何东西,从简单的 CRUD 应用程序、管理面板、仪表板到自定义业务应用程序和复杂的多步骤工作流。

  • alibaba/lowcode-engine 一套面向扩展设计的企业级低代码技术体系

  • jeecgboot/jeecg-boo 「企业级低代码平台」前后端分离架构SpringBoot,SpringCloud,Ant Design&Vue,Mybatis,Shiro,JWT。强大的代码生成器让前后端代码一键生成,无需写任何代码。

  • apitable/apitable 面向 API 的低代码平台,用于构建协作应用程序,比所有其他 Airtable 开源替代品都要好。

  • refinedev/refine 不受限制地构建基于 React 的 CRUD 应用程序。

  • GrapesJS/grapesjs 无需编码即可构建模板的下一代Web 构建器框架。

  • baidu/amis 前端低代码框架,通过 JSON 配置就能生成各种页面。

  • directus/directus 即时 REST+GraphQL API 和直观的无代码数据协作应用程序,适用于任何 SQL 数据库。

  • YaoApp/yao 高性能低代码应用引擎,可在数分钟内创建Web服务和应用,适用于AI、IoT、工业互联网、车联网、DevOps、能源、金融和许多其他用例。

  • illacloud/illa-builder 健壮的开源低代码平台,开发人员可以使用它来构建内部工具。通过使用ILLA的组件和动作库,开发人员可以保存大量构建工具的时间。

  • lowdefy/lowdefy 开源、自托管、低代码的框架,用于使用YAML或JSON构建内部工具、Web应用、管理面板、BI仪表板、工作流和CRUD应用。

  • openblocks-dev/openblocks 开源低代码替代方案

  • Budibase/budibase 用于在几分钟内创建内部工具、工作流和管理面板的低代码平台。支持 PostgreSQL、MySQL、MSSQL、MongoDB、Rest API、Docker、K8s 等

  • n8n-io/n8n 免费和源代码可用的公平代码许可的工作流自动化工具。跨不同服务轻松自动执行任务。

  • BuilderIO/mitosis 一次编写组件,到处运行。编译为 React、Vue、Qwik、Solid、Angular、Svelte 等

  • laravel/laravel PHP Web应用程序框架,具有富有表现力,优雅的语法。我们已经为您的下一个大创意奠定了基础——让您自由地进行创作,而不会为小事出汗。

  • laravel/framework 包含PHP Laravel框架的核心代码。

  • ziadoz/awesome-php 一个精选的列表,包含令人赞叹的 PHP 库、资源和东西。

  • top-think/think ThinkPHP Framework ——十年匠心的高性能PHP框架

  • tymondesigns/jwt-auth 适用于PHP Laravel&Lumen的JSON 网络令牌认证

  • jasontaylordev/CleanArchitecture 利用干净体系结构和 ASP.NET 核心的强大功能,为企业应用程序开发提供一种简单有效的方法。使用此模板,您可以毫不费力地创建具有 ASP.NET Core和Angular或React的单页应用程序(SPA),同时遵守清洁架构的原则。入门很简单 - 只需安装 .NET 模板。

  • httpie/cli 适用于 API 时代的现代、用户友好的命令行 HTTP 客户端。JSON支持,颜色,会话,下载,插件等。

  • nswbmw/N-blog 一起学 Node.js,使用 Express + MongoDB 搭建多人博客

  • ripienaar/free-for-dev SaaS、PaaS 和 IaaS 产品列表,这些产品对 DevOps 和 infradev 部分免费。现在有许多服务提供免费套餐,但找到它们都需要时间来做出明智的决定。

  • olistic/warriorjs 令人兴奋的编程和人工智能游戏,在 WarriorJS 中,你是一名爬上高塔到达顶层 JavaScript 剑的战士。传说持剑者在 JavaScript 语言中变得开悟,但请注意:旅程并不容易。在每一层楼,你需要编写JavaScript来指导战士与敌人作战,营救俘虏,并活着到达楼梯......

  • coreybutler/nvm-windows 适用于 Windows 的node.js版本管理实用程序。具有讽刺意味的是,用GO写的。

  • apache/brpc 使用C++语言的工业级RPC框架,通常用于高性能系统,如搜索,存储,机器学习,广告,推荐等。

  • typicode/json-server 在不到 30 秒的时间内获得零编码的完整伪造 REST API

  • ruanyf/jstraining 全栈工程师培训材料,帮助学习者掌握 JavaScript 全栈开发的基本知识,承担简单 Web 应用的前后端开发。

区块链

推荐系统

推荐系统算法库与列表

  • shenweichen/DeepCTR 易于使用、模块化和可扩展的基于深度学习的 CTR 模型包,用于搜索和推荐。

  • hongleizhang/RSPapers 推荐系统必读论文精选列表。

  • YuyangZhangFTD/awesome-RecSys-papers 推荐系统中的经典论文

  • ChenglongChen/tensorflow-DeepFM

  • twitter/the-algorithm Twitter 的推荐算法是一组服务和作业,负责在所有 Twitter 产品表面(例如,为你时间线、搜索、探索)提供推文和其他内容的提要。有关算法工作原理的介绍,请参阅我们的工程博客。

  • alibaba/DeepRec 基于 TensorFlow 的推荐引擎。具有超大规模分布式训练能力,支持万亿样本的模型训练和千亿的Embedding Processing。针对稀疏模型场景,在CPU和GPU平台上进行了深度的性能优化。

  • cheungdaven/DeepRec 基于 TensorFlow 的深度学习推荐的开源工具包。

  • lyst/lightfm LightFM 的 Python 实现,一种混合推荐算法。

  • tensorflow/recommenders 使用 TensorFlow 构建推荐系统模型的库。

  • RUCAIBox/RecBole 统一,全面,高效的推荐库,包括:

    • AFM,AutoInt,DCN,DeepFM,DSSM,FFM,FM,FNN,FwFM,LR,NFM,PNN,WideDeep,xDeepFM,BPR,ConvNCF,DGCF,DMF,FISM,GCMC,ItemKNN,LightGCN,NAIS,NeuMF,NGCF,Pop,SpectralCF,CFKG,
    • CKE(Collaborative Knowledge base Embedding 发自16年KDD,将KG与CF融合做联合训练)
    • KGAT Knowledge Graph Attention Network for Recommendation 用KG做增强,捕捉这种高阶交互式特征,做推荐预测。
    • KGCN,KGNNLS,
    • KTUP Unifying Knowledge Graph Learning and Recommendation:Towards a Better Understanding of User Preferences 一方面利用KG可以帮助更好的理解用户偏好。另一方面,用户-物品的交互可以补全KG,增强KG中缺少的事实。最终使两个部分都得到加强。
    • MKR(Multi-task Learning for KG enhanced Recommendation 融合KG和RC) 左边是推荐任务。用户和物品的特征表示作为输入,预测点击率y 右边是知识图谱任务。三元组的头结点h和关系r表示作为输入,预测的尾节点t 两者的交互由一个cross-feature-sharing units完成。由于物品向量和实体向量实际上是对同一个对象的两种描述,他们之间的信息交叉共享可以让两者都获得来自对方的额外信息,从而弥补了自身的信息稀疏性的不足。
    • ippleNet,BERT4Rec,Caser,DIN,FDSA,FPMC,GCSAN,GRU4Rec,GRU4RecF,GRU4RecKG,KSR,NARM,NextItNet,S3Rec,SASRec,SASRecF,SRGNN,STAMP,TransRec
  • Coder-Yu/QRec QRec:快速实现推荐系统的 Python 框架(基于 TensorFlow)

  • Transformers4Rec Transformers4Rec 是一个灵活且高效的库,用于顺序和基于会话的推荐,可用于 PyTorch 和 Tensorflow。

  • datawhalechina/torch-rechub 用于推荐模型的轻量级Pytorch 框架,易于使用且易于扩展。scikit-learn风格易用的API。模型训练与模型定义解耦,易拓展,可针对不同类型的模型设置不同的训练机制。接受pandas的DataFrame、Dict数据输入,上手成本低。高度模块化,容易调用组装成新模型 LR、MLP、FM、FFM、CIN、target-attention、self-attention、transformer。支持常见排序模型 WideDeep、DeepFM、DIN、DCN、xDeepFM等。支持常见召回模型 DSSM、YoutubeDNN、YoutubeDSSM、FacebookEBR、MIND等。多任务学习支持SharedBottom、ESMM、MMOE、PLE、AITM等模型。 GradNorm、UWL、MetaBanlance等动态loss加权机制。

  • shenweichen/DeepMatch 用于推荐和广告的深度匹配模型库。训练模型和导出用户和项目的表示向量非常容易,可用于ANN搜索。

  • PaddlePaddle/PaddleRec 大规模推荐算法库,包含推荐系统经典及最新算法LR、Wide&Deep、DSSM、TDM、MIND、Word2Vec、Bert4Rec、DeepWalk、SSR、AITM,DSIN,SIGN,IPREC、GRU4Rec、Youtube_dnn、NCF、GNN、FM、FFM、DeepFM、DCN、DIN、DIEN、DLRM、MMOE、PLE、ESMM、ESCMM, MAML、xDeepFM、DeepFEFM、NFM、AFM、RALM、DMR、GateNet、NAML、DIFM、Deep Crossing、PNN、BST、AutoInt、FGCNN、FLEN、Fibinet、ListWise、DeepRec、ENSFM,TiSAS,AutoFIS等,包含经典推荐系统数据集criteo 、movielens等

  • wangshusen/RecommenderSystem 结合小红书的业务场景和内部实践,讲解主流的工业界推荐系统技术。

  • ZiyaoGeng/Recommender-System-with-TF2.0 CTR预言论文进行复现,包括传统模型(MF,FM,FFM等),神经网络(WDL,DCN等)以及序列模型(DIN)。

  • THUwangcy/ReChorus 用于Top-K推荐的通用PyTorch框架,具有隐式反馈,尤其是用于研究目的。BPR NCF Tensor GRU4Rec NARM SASRec TiSASRec CFKG SLRC Chorus

  • NVIDIA/NVTabular 为特征工程、前处理提供了更快的迭代速度,同时利用异步批量加载的方法有效提高了GPU的利用率,提供更快的加载速率。Merlin推荐系统框架的模块。

  • NVIDIA/HugeCTR a high efficiency GPU framework designed for Click-Through-Rate (CTR) estimating training ,在Embedding lookup上做了很多优化,可以轻易的通过数据和模型并行的方式将模型扩展到TB级别,在大规模参数的背景下,这给挖掘模型能力提供了更多的想象力。同时更快的训练速度也让算法工程师能够尝试更多的网络结构,挖掘最适合所研究问题的模型。

  • microsoft/recommenders 推荐系统上的最佳实践。包括多个模型:ALS A2SVD BPR Caser DKN xDeepFM FAST LightFM/Hybrid Matrix Factorization LightGBM/Gradient Boosting Tree* LightGCN GeoIMC GRU4Rec Multinomial VAE LSTUR NAML NCF NPA NRMS NextItNet RBM RLRMC SAR SLi-Rec SUM Standard VAE SVD TF-IDF Vowpal Wabbit (VW)* Wide and Deep FM&FFM

  • AmazingDD/daisyRec 在 pytorch 中开发的推荐系统。算法:KNN、LFM、SLIM、NeuMF、FM、DeepFM、VAE 等,旨在公平比较推荐系统基准

  • wubinzzu/NeuRec 全面且灵活的 Python 库,用于推荐系统,其中包括大量最先进的神经推荐模型。该库旨在解决一般、社交和顺序(下一项)推荐任务,使用Tensorflow库提供 33 个开箱即用的模型。

  • guoguibing/librec 一个用于推荐系统的 Java 库(需要 Java 版本 1.7 或更高版本)。它实现了一套最先进的推荐算法,旨在解决两个经典的推荐任务:评分预测项目排名

  • facebookresearch/torchrec 推荐系统的 Pytorch库,旨在提供大型推荐系统 (RecSys) 所需的通用稀疏性和并行性原语。它允许作者使用跨多个 GPU 分片的大型嵌入表来训练模型。

  • huawei-noah/FuxiCTR FuxiCTR 为 CTR 预测提供了一个开源库,在可配置性、可调整性和可重复性方面具有惊人的功能。模型包括:LR FM CCPM FFM YoutubeDNN Wide&Deep IPNN DeepCross HOFM DeepFM NFM AFM DCN FwFM xDeepFM DIN FiGNN AutoInt/AutoInt+ FiBiNET FGCNN HFM/HFM+ ONN AFN/AFN+ LorentzFM FLEN FmFM

  • openbenchmark/BARS 迈向推荐系统的开放基准测试。 BARS 基准目前涵盖以下两项任务:点击率预测\候选项目匹配

  • PersiaML/PERSIA 基于 PyTorch 训练深度学习推荐模型的高性能分布式框架。它能够训练具有多达 100 万亿个参数的推荐模型。对公共数据集的实证研究表明,PERSIA 在推荐方面优于其他系统。它的效率和稳健性也得到了快手1亿级DAU的多个应用程序的验证。

  • alibaba/EasyRec 大规模推荐算法的框架。实现了用于常见推荐任务的最先进的深度学习模型:候选生成(匹配)、评分(排名)和多任务学习。它通过简单的配置和超参数调整(HPO)提高了生成高性能模型的效率。

  • pytorch/torchrec 推荐系统的 Pytorch 域库

  • PKU-DAIR/GNN-in-RS 推荐系统中的 GNN(ACM 计算调查 2022)

  • NicolasHug/Surprise 用于构建和分析推荐系统的 Python scikit

  • caserec/CaseRecommender 案例推荐器:用于推荐系统的灵活且可扩展的 Py框架

  • grahamjenson/list_of_recommender_systems 推荐系统和资源列表

  • mengfeizhang820/Paperlist-for-Recommender-Systems 推荐系统论文列表

  • caserec/CaseRecommender 案例推荐器:用于推荐系统的灵活且可扩展的 Python 框架

其他_推荐系统

  • imsheridan/DeepRec 推荐、广告工业界经典以及最前沿的论文、资料集合

  • laekov/fastmoe 一个易用且高效的基于 PyTorch 的 MoE 模型训练系统.

  • oywtece/dstn

  • shenweichen/DSIN

  • facebookresearch/dlrm 深度学习推荐模型(DLRM)的实现

  • vze92/DMR Deep Match to Rank Model for Personalized Click-Through Rate Prediction DMR:Matching和Ranking相结合的点击率预估模型

  • kang205/SASRec 源于Transformer的基于自注意力的序列推荐模型

  • shichence/AutoInt 使用Multi-Head self-Attention进行自动的特征提取

  • xiangwang1223/neural_graph_collaborative_filtering 神经图协同过滤

  • UIC-Paper/MIMN 点击率预测的长序列用户行为建模的实践

  • motefly/DeepGBM 结合了GBDT 和神经网络的优点,在有效保留在线更新能力的同时,还能充分利用类别特征和数值特征。由两大块组成,CatNN 主要侧重于利用 Embedding 技术将高维稀疏特征转为低维稠密特征,而 GBDT2NN 则利用树模型筛选出的特征作为神经网络的输入,并通过逼近树结构来进行知识蒸馏。

  • LeeeeoLiu/ESRM-KG 关键词生成的基于电商会话的推荐模型

  • zhuchenxv/AutoFIS 自动特征交互选择的点击率预测模型

  • pangolulu/exact-k-recommendation 解决推荐中带约束的Top-K优化问题

  • Scagin/NeuralLogicReasoning 神经协同推理,提出了一种新的神经逻辑推荐(NLR)框架,能够将逻辑结构和神经网络相结合,将推荐任务转化为一个逻辑推理任务。

  • allenjack/HGN 用矩阵分解的形式捕捉用户的长期兴趣,同时将短期兴趣进行拆分,分为group-level以及instance-level的,通过Hierarchical Gating来处理group-level的信息,item-item的乘积来捕捉商品之间的关系。

  • RUCAIBox/CIKM2020-S3Rec 自我推荐学习,用于具有互信息最大化的顺序推荐

  • chenchongthu/SAMN 社交注意力记忆网络在推荐系统中的应用

  • Lancelot39/KGSF 基于知识图谱语义融合改进会话推荐系统 Improving Conversational Recommender Systems via Knowledge Graph based Semantic Fusion

  • DeepGraphLearning/RecommenderSystems 顺序推荐 基于维度的推荐 社交推荐

  • FeiSun/BERT4Rec 基于BERT的顺序推荐

  • ChuanyuXue/CIKM-2019-AnalytiCup 2019-CIKM挑战赛,超大规模推荐之用户兴趣高效检索赛道 冠军解决方案 ,召回阶段基于 Item CF 相似性做召回( item-item 相似性),排序阶段,最终使用了 Catboost 和 Lightgbm 建模。

  • zyli93/InterHAt 通过分层注意力预测可解释的点击率。

  • SSE-PT/SSE-PT 基于Transformer的模型,但是和SASRec类似, 效果不错,但是缺少个性化,而且没有加入基于个性化的用户embedding。为了克服这种问题,本文提出来一种个性化的Transformer(SSE-PT),该方法相较于之前的方案提升了5%。

  • triton-inference-server/server 面向高吞吐低延时的生产环境的框架,通过Triton做线上推理,将TensorRT作为执行后端,能够有效降低Latency,并最大化地利用GPU资源。相比于一个纯CPU的方案,两者的结合使用能够使Latency达到原先的1/18,数据吞吐量达到原先的17.6倍。

  • lqfarmer/GraphTR 采用了GraphSAGE+FM+Transformer多种手段,粒度上从粗到细,交叉、聚合来自不同领域的异构消息,相比于mean/max pooling、浅层FC等传统聚合方式,极大提升了模型的表达能力

  • guyulongcs/CIKM2020_DMT 将兴趣建模、多任务学习、偏置学习等几部分进行融合,提出了DMT模型(Deep Multifaceted Transformers)

  • hwwang55/DKN 将知识图表示融入到新闻推荐中。DKN是一种基于内容的用于点击率预估的深度推荐框架。DKN的主要部分是一个多通道、单词实体对齐的知识感知卷积神经网络,KCNN,其中融入了新闻在语意层面和知识层面的表示。KCNN将单词和实体作为多通道,在卷积过程中明确保留他们之间的对齐关系。

  • yusanshi/NewsRecommendation NRMS NAML LSTUR DKN Hi-Fi Ark TANR

  • johnny12150/GCE-GNN 提出了一种全局上下文增强(global-context enhanced)的GNN网络,称为GCE-GNN。能够从两种层次来学习物品的表征,包括global-level:从所有session构成的图上进行全局的表征;以及session-level:从单个session局部item转移图上进行局部的表征;最后融合二者,并通过注意力机制形成最终的序列表征,用于序列推荐任务。

  • BinbinJin/SD-GAR 第一篇将生成式对抗网络(GAN)框架应用于信息检索(包括推荐系统)的研究工作。在该工作中,IRGAN 训练了一个生成器和一个判别器,其中生成器用来自适应地生成合适的负样本以帮助判别器训练;而判别器则是用来判断样本是来自用户真实的反馈还是生成器生成的样本。通过两者交替式对抗性地训练达到互相提升效果的目的。

  • twchen/lessr 将会话记录构建成图来建模商品之间的跳转关系的图神经网络

  • NLPWM-WHU/AGNN 区分了推荐系统中的一般冷启动和严格冷启动,并提出了属性图神经网络方法有效应对严格冷启动的场景。

  • CRIPAC-DIG/SR-GNN 会话序列推荐的图应用 直接将会话序列建模为图结构数据,并使用图神经网络捕获复杂的项目物品item间转换,每一个会话利用注意力机制将整体偏好与当前偏好结合进行表示。同时这种方式也就不依赖用户的表示了,完全只基于会话内部的潜在向量获得Embedding,然后预测下一个点击。

  • uctoronto/SHAN Sequential Recommender System based on Hierarchical Attention Network 分层注意力网络SHAN用于序列推荐 。提出新颖的两层分层注意力网络,将上述特性考虑进来,用于推荐可能感兴趣的下一个商品。第一层注意力网络基于用户的历史购买商品的表示来学习用户的长期偏好,第二层通过将用户的长期和短期偏好结合起来,输出最终的用户表示。

  • chenghuige/mind MIND新闻推荐冠军分享细节揭秘

  • WayneDW/DeepLight_Deep-Lightweight-Feature-Interactions 轻量级特征交互算法deeplight 大幅加速ctr预估在线服务。 一,通过在浅层结构中精确搜索信息量更大的特征交互来加速模型推理,二,在深层结构中,从层内和层间对冗余的层和冗余的参数进行剪枝,三,促使embedding层的稀疏性,进而保持最有判别性的信息。为了解决预测延迟问题,我们通过结构修剪来加速预测,最终以46倍的速度提高而不会牺牲Criteo数据集上的最新性能。

  • JiachengLi1995/TiSASRec Time Interval Aware Self-Attention for Sequential Recommendation 时间间隔自注意力模型用于序列推荐。 基于序列模型框架对行为的时间戳进行建模,在下一个商品预测中探索不同时间间隔的影响。

  • wuch15/IJCAI2019-NAML 多视图学习新闻推荐系统Neural News Recommendation with Attentive Multi-View Learning 可以通过利用不同种类的新闻信息来学习用户和新闻的特征表示。

  • guoday/Tencent2020_Rank1st 广告受众基础属性预估 2020 Tencent College Algorithm Contest, and the online result ranks 1st.

  • yuduo93/THIGE 基于时序异质交互图表示学习的商品推荐 将复杂异质的动态交互行为构建为时序异质交互图(Temporal Heterogeneous Interaction Graph, 简称为THIG)进而同时学习用户兴趣和商品表示用于商品推荐。本文提出了一种时序异质图上的表示学习方法,称之为THIGE,充分建模交互行为的异质性,刻画不同类型的兴趣偏好,并融合长、短期兴趣构建用户、商品表示。最后,在3个真实数据集上验证模型的有效性。

  • guyulongcs/CIKM2020_DMT 大型电子商务推荐系统中多目标排名的深层多面Transformers模型

  • weiyinwei/MMGCN 多模态图神经网络解决短视频推荐难题

  • wujcan/SGL 基于图自监督学习的推荐系统。应用于「用户-物品二分图推荐系统」的「图自监督学习」框架。

  • wangjiachun0426/StackRec 通过迭代堆叠实现推荐系统的高效训练。采用对一个浅层序列推荐模型进行多次层堆叠(Layer Stacking),从而得到一个深层序列推荐模型。具体来说,训练过程包含以下步骤:1)预训练一个浅层序列推荐模型;2)对该模型进行层堆叠,得到一个两倍深度的模型;3)微调这个深层模型;4)将深层模型作为一个新的浅层模型,重复1)至3)直到满足业务需求。

  • xiangwang1223/neural_graph_collaborative_filtering 神经图协同过滤(NGCF)是一种基于图神经网络的新推荐框架,通过执行嵌入传播,在用户项二部图中以高阶连通性的形式对协同信号进行显式编码。

  • johnnyjana730/MVIN 提出multi-view item network (MVIN) ,从user和item来学习多个视角下的商品表示,进而进行商品推荐。在实体视图中,项目表示由KG中连接到它的实体来定义的。

  • weberrr/CKAN Collaborative Knowledge-aware Attentive Network for Recommender Systems 协作知识感知的注意力网络推荐系统

  • danyang-liu/KRED KRED:基于知识感知的文档表示应用于新闻推荐。首先是用KGAT来表示每个实体,然后使用用实体的位置 实体出现频率 实体的类别等信息。再用Transformer来优化表征。最后做多任务:包括个性化推荐,项目到项目推荐、新闻流行预测、新类别预测和本地新闻检测等等。

  • CRIPAC-DIG/DGCF 动态图协同过滤算法,利用动态图来同时捕捉用户和商品之间的协同和序列关系的框架。提出三种更新机制: 零阶继承,一阶传播,二阶聚合,来表示新的交互发生时,该交互对用户或者商品的影响。基于这三种机制,交互发生时同时更新用户和商品的embedding,并且利用最新的embedding来给出推荐。

  • QYQ-bot/CLEA 运用对比学习解决购物篮推荐场景。(下一个购物篮推荐,也就是根据用户的历史购物篮序列,来推荐用户在下一次可能购买的商品集合。)

  • huangtinglin/MixGCF 基于多层嵌入合成负例用于推荐,相对NGCF 提高 26%, LightGCN 提高 22%

  • DyGRec/ASReP 反向预训练Transformer 增广序列推荐系统.解决序列推荐系统中的冷启动(cold-start)问题。为了解决该问题,我们提出需要对冷启动对应的短序列(short sequence)进行增广(Augmentation),从而能够补全信息而避免冷启动的问题。

  • NLPWM-WHU/EDUA 多样性推荐的 EDUA 模型。其采用双边分支网络作为双目标优化的主要架构,该架构既保持传统学习分支的准确性,又提高自适应学习分支的多样性。

  • gluver/KG4Rec_Paperlist 这是关于基于知识图谱的推荐的顶级论文列表。

  • xidongbo/AITM 自适应信息传输多任务 (AITM) 框架的 TensorFlow 实现。 提交给 KDD21 的论文代码:使用多任务学习为客户获取建模受众多步转换之间的顺序依赖性。应用场景:联名卡获客,从曝光(Impression)、点击(Click)、申请(Application)、核卡(Approval)、激活(Activation)。另外,使用公开的Ali-CCP阿里巴巴点击和转化预测数据集pytorch实现

  • newlei/LR-GCCF 重温基于图的协同过滤:一种线性残差图卷积网络方法,AAAI2020 本文提出了一种使用非线性特征传播和残差结构的GCN网络LR-GCCF用于基于CF的推荐系统,在模型表型上和时间效率上有了一定的提高。

  • wangzhegeek/EGES 阿里巴巴论文的实施:阿里巴巴电子商务推荐的十亿级商品嵌入

  • YushanZhu/K3M 电子商务中的知识感知多模态预训练

  • tsinghua-fib-lab/GNN-Recommender-Systems 基于图神经网络的推荐算法索引。

  • oywtece/deepmcp 点击率 (CTR) 预测模型。大多数现有方法主要对特征-CTR 关系进行建模,并且存在数据稀疏问题。相比之下,DeepMCP 对其他类型的关系进行建模,以学习更多信息和统计上可靠的特征表示,从而提高 CTR 预测的性能。DeepMCP 包含三部分:匹配子网、关联子网和预测子网。这些子网分别为用户-广告、广告-广告和功能-点击率关系建模。当这些子网在目标标签的监督下联合优化时,学习到的特征表示既具有良好的预测能力,又具有良好的表示能力。

  • rener1199/deep_memory 用户记忆网络的点击率预测

  • xiaxin1998/DHCN 用于基于会话的推荐的自超图卷积网络

  • maenzhier/GRecX 基于 GNN 的推荐的高效统一基准。

  • RUCAIBox/Awesome-Privacy-Preserving-RS-Paper 本知识库收集了 2018 年后隐私保护推荐系统的最新研究进展。

  • github.com/THUDM/ComiRec KDD 2020 论文《Controllable Multi-Interest Framework for Recommendation》的源代码和数据集 可控的多兴趣推荐框架

  • microsoft/tutel Tutel MoE:优化的专家组合实施

  • Jhy1993/Awesome-GNN-Recommendation GNN-推荐相关资源

  • sisinflab/elliot 用于可重现推荐系统评估的全面而严谨的框架

  • sumitsidana/recsys_challenge_2020 此存储库包含 2020 年 RecSys 挑战赛方法的第四名解决方案的代码。该挑战侧重于在动态环境中进行推文参与度预测的现实任务。目标是根据异构输入数据预测目标用户对一组推文的不同类型参与(点赞、回复、转推和转推)的概率。

  • ystdo/Codes-for-WSDM-CUP-Music-Rec-1st-place-solution WSDM CUP 2018 音乐推荐挑战赛第一名解决方案的对应代码。预测 3 月订阅到期的用户中,哪些会流失。为解决该题,阿里巴巴使用了两层 Stacking Model,第一层采用逻辑回归、随机森林、XGBoost 算法,第二层又采用 XGBoost 算法把第一层的结果融合。流失用户预测,对有会员体系的业务场景都可以使用,其中会员付费为主要收入的业务就更为关键,比如像 Apple Music、虾米音乐。多层 Stacking Model 由 AliOS 神灯研发,极大提升了分类预测的准确率,已广泛应用于 AliOS 多项业务中。

  • DiligentPanda/Tencent_Ads_Algo_2018 该仓库维护2018年腾讯广告算法大赛的代码。我们的代码在决赛中排名第三。基于 FFM 的注意力神经网络的平均值。在最终提交中,我们使用了 13 个这样的网络。但是这些网络只是在它们的随机种子上有所不同。 5 个这样的网络将给出几乎相同的结果。Lookalike 相似人群拓展

  • ttvand/Santander-Product-Recommendation Kaggle 竞赛第二名解决方案 - Santander 产品推荐

  • Travisgogogo/BAAI-ZHIHU-2019 Top3 高效地将用户新提出的问题邀请其他用户进行解答,以及挖掘用户有能力且感兴趣的问题进行邀请下发,优化邀请回答的准确率,提高问题解答率以及回答生产数。

  • LogicJake/tuling-video-click-top3 图灵联邦视频点击预测大赛线上第三

  • PPshrimpGo/BDCI2018-ChinauUicom-1st-solution CCF BDCI 2018的面向电信领域的个性化套餐匹配第一名解决方案

  • hydantess/TianChi_zhilianzhaopin: 智联招聘人岗智能匹配 根据智联招聘抽样的经过脱敏的求职者标签数据、职位信息、及部分求职者行为信息、用人单位反馈信息,训练排序模型,对求职者的职位候选集进行排序,尽可能使得双端都满意的职位(求职者满意以及用人单位满意)优先推荐。

  • RainFung/Tianchi-AntaiCup-International-E-commerce-Artificial-Intelligence-Challenge 天池-安泰杯跨境电商智能算法大赛 冠军。 通过海量数据挖掘用户下一个可能交互商品,选手们可以提交预测的TOP30商品列表,排序越靠前命中得分越高。

  • fuxiAIlab/RL4RS 基于强化学习的推荐系统的真实世界基准

  • NVIDIA-Merlin/competitions 推荐系统竞赛的解决方案 RecSys2019_Challenge, RecSys2020_Challenge,RecSys2021_Challenge,SIGIR_eCommerce_Challenge_2021,WSDM_WebTour2021_Challenge

  • rosetta-ai/rosetta_recsys2019 RosettaAI 团队在 2019 年 ACM Recsys 挑战赛中获得第四名的解决方案

  • kupuSs/CIKM-CUP-2019-track2-rank10 CIKM 2019 E-Commerce AI Challenge - 超大规模推荐之用户兴趣高效检索

  • miziha-zp/KDD2020_mutilmodalities top8 KDD Cup 2020 Challenges for Modern E-Commerce Platform: Multimodalities Recall

  • steven95421/KDD_WinnieTheBest KDD Cup 2020 现代电商平台挑战:Multi-modalities Recall 第一名。数据来自移动电商平台的真实场景多模态数据。数据集由搜索查询和产品图像特征组成,是一个基于查询的多模式检索任务。实现了根据候选产品的图像特征对它们的集合进行排名。这些查询中的大多数是搜索具有特定特征的产品的名词短语。候选商品图片由卖家提供的照片,通过黑盒功能转化为2048维特征。与查询最相关的候选产品被视为查询的基本事实。

  • aister2020/KDDCUP_2020_Debiasing_1st_Place 去偏Debiasing中获得第一名。侧重于暴露的复杂性,即如何推荐过去很少暴露的项目,以对抗推荐系统中经常遇到的马太效应。特别是,在对点击数据进行训练时减少偏差对于此任务的成功至关重要。就像现代推荐系统中记录的点击数据和实际在线环境之间存在差距一样,训练数据和测试数据之间也会存在差距,主要是在趋势和项目的流行度方面。

  • RUCAIBox/FMLP-Rec 堆叠多个过滤器增强块以生成用于推荐的顺序用户偏好的表示。我们的方法与 SASRec 的主要区别在于用一种新颖的过滤器结构(傅里叶变换MLP)替换了 Transformer 中的多头自注意力结构。

  • RUCAIBox/NCL 通过邻域丰富的对比学习改进图协同过滤。

  • alibaba/HybridBackend 用于在异构集群上训练广泛和深度推荐系统的高性能框架

  • CAN-Paper/Co-Action-Network CAN的实现:重新审视点击率预测的特征协同作用

  • tsinghua-fib-lab/CLSR 解开推荐的长期和短期利益

  • easezyc/Multitask-Recommendation-Library 提供了多任务推荐模型和通用数据集的 PyTorch 实现。

  • awarebayes/RecNN 围绕 pytorch构建的强化学习推荐工具包

  • Tencent/embedx 基于 c++ 开发的、完全自研的分布式 embedding 训练和推理框架。它目前支持 图模型、深度排序、召回模型和图与排序、图与召回的联合训练模型等

  • bytedance/LargeBatchCTR 基于 DeepCTR 和 CowClip 的 CTR 模型的大批量训练。

  • xiangwang1223/disentangled_graph_collaborative_filtering 解缠结图协同过滤 一个可解释的推荐框架,它配备了 (1) 胶囊网络的动态路由机制,以细化意图感知图中用户-项目交互的强度,(2) 图的嵌入传播机制神经网络,从高阶连通性中提取相关信息,以及(3)独立建模的距离相关性,以确保意图之间的独立性。因此,我们明确地解开了用户在表示学习中的隐藏意图。

  • gusye1234/LightGCN-PyTorch 旨在简化 GCN 的设计,使其更简洁,更适合推荐。提出了名为 LightGCN 的新模型,仅包含 GCN 中最重要的组件—邻域聚合—用于协同过滤

  • muhanzhang/IGMC 基于图神经网络的归纳矩阵补全模型,不使用任何边信息。 传统的矩阵分解方法将(评级)矩阵分解为行(用户)和列(项目)的低维潜在嵌入的乘积,这是转导的,因为学习的嵌入不能推广到看不见的新矩阵。为了使矩阵完成归纳,必须事先使用内容(辅助信息),如年龄或电影的类型。然而,高质量内容并不总是可用,而且很难提取。IGMC 通过训练一个GNN来实现,该网络完全基于从评分矩阵形成的二分图中提取的(用户、项目)对周围的局部子图,并将子图映射到其相应的评分。它不依赖于特定评分矩阵或任务的任何全局信息,也不学习特定于观察到的用户/项目的嵌入。因此,它是一个完全归纳模型,它可泛化到训练时看不见的用户/项目(假设交互存在),甚至可以迁移到新任务,从 MovieLens训练出来的模型可以直接用于预测豆瓣电影评分,并且效果出奇的好。

  • jennyzhang0215/STAR-GCN 用于推荐系统的堆叠和重构图卷积网络

  • wenqifan03/GraphRec-WWW19 用于社交推荐的图神经网络

  • PeiJieSun/diffnet 基于图神经网络的社交推荐模型。SIGIR2019。

  • hwwang55/KGCN 用于推荐系统的知识图卷积网络,它使用图卷积网络(GCN)技术来处理知识图谱以达到推荐的目的。

  • huangtinglin/Knowledge_Graph_based_Intent_Network 与推荐知识图交互背后的学习意图,WWW2021

  • amzn/pecos 巨大和相关空间的预测 。用于对具有大输出空间的问题进行快速学习和推理,例如极端多标签排序 (XMR) 和大规模检索。

  • summmeer/session-based-news-recommendation 通过利用不同类型的隐式反馈,我们减轻了精度和多样性与冷启动问题之间的权衡,这对于实际应用是有效的。命名为 TCAR(时间和内容感知推荐系统)

  • ahmedrashed-ml/CARCA 通过交叉注意的上下文和属性感知顺序推荐,RecSys 2022

  • Coder-Yu/SELFRec 一个用于自我监督推荐 (SSR) 的 Python 框架,它集成了常用的数据集和指标,并实现了许多最先进的 SSR 模型。 SELFRec 具有轻量级架构并提供用户友好的界面。 它可以促进模型的实施和评估。

  • caserec/Datasets-for-Recommender-Systems 一个以主题为中心的高质量推荐系统(RS)公共数据集。

机器视觉

人像\姿势\3D人脸

  • deepinsight/insightface 最先进的2D和3D人脸分析项目 人脸识别\检测\对齐

  • yoyo-nb/Thin-Plate-Spline-Motion-Model 用于图像动画的薄板样条运动模型 人脸、人物动作姿势模拟

  • AliaksandrSiarohin/first-order-model 图像动画的一阶运动模型,实现静态图像到动态图像的转换.人脸、人物动作姿势模拟

  • minivision-ai/photo2cartoon 人像卡通化探索项目

  • davidsandberg/facenet 使用 TensorFlow 进行人脸识别

  • serengil/deepface 轻量级人脸识别和人脸属性分析(年龄、性别、情感和种族)库

  • exadel-inc/CompreFace 领先的免费开源人脸识别系统

  • tencent-ailab/hifi3dfaceRGB-D 的高保真3D 数字人类创建

  • iPERDance/iPERCore 处理人体图像合成任务。其中包括人体运动模仿、外观转换和新视角合成等。并且,该项目的代码、数据集已开源。

  • anandpawara/Real_Time_Image_Animation 实时图像动画,使原图的人像与新图上的人脸动作一致。

  • GuyTevet/motion-diffusion-model 人体运动扩散模型的PyTorch官方实现

  • FACEGOOD-Audio2Face 将音频转换为混合形状权重,并在UE中驱动数字人小美。

  • facebookresearch/pifuhd 使用AI从2D图像生成人的3D高分辨率重建

  • open-mmlab/mmskeleton 用于人体姿势估计,基于骨骼的动作识别和动作合成。

  • thepowerfuldeez/facemesh.pytorch 单目实时人脸表面3D点云提取

  • anibali/margipose 基于2D边缘热图的3D人体姿态估计

  • wmcnally/evopose2d 神经架构搜索推动2D姿态识别边界

  • hellojialee/OffsetGuided Bottom-up人体姿态估计最优网络,多人关键点坐标的编解码方法.

  • ziwei-zh/CorrPM 关联人体边缘,人体姿态解析.研究了人的语义边界和关键点位置如何共同改善人的部件解析性能。

  • SangbumChoi/MobileHumanPose 在移动设备中实现实时 3D 人体姿态估计,PyTorch。

  • jby1993/SelfReconCode 从单目视频自我重建你的数字化身

  • ibaiGorordo/ONNX-Mobile-Human-Pose-3D 使用 ONNX 中的移动人体姿势模型执行 3D 人体姿势估计的 Python 脚本。

  • CMU-Perceptual-Computing-Lab/openpose 用于身体、面部、手和脚估计的实时多人关键点检测库。

  • wzmsltw/PaintTransformer Paint Transformer:具有笔画预测的前馈神经绘画网络。预测图片如何用画笔画出。

  • cleardusk/3DDFA_V2 Towards Fast 的官方 PyTorch 实现,准确稳定的3D密集人脸对齐,ECCV 2020。预测出图片人脸的3D结构。

  • PeterL1n/RobustVideoMatting 可在任意视频上做实时高清人物抠像.

  • changgyhub/deepsketch2face 用于 3D 面部和漫画建模的基于深度学习的草图系统。

  • YadiraF/DECA 详细的表情捕捉和动画(SIGGRAPH 2021).从单个输入图像重建具有详细面部几何形状的 3D 头部模型。生成的 3D 头部模型可以轻松制作动画。

  • sicxu/Deep3DFaceRecon_pytorch 具有弱监督学习的准确 3D 人脸重建:从单张图像到图像集 (CVPRW 2019)。PyTorch 实现。

  • xierc/Semi_Human_Pose 半监督二维人体姿态估计中折叠问题的实证研究。

  • DrMahdiRezaei/DeepSOCIAL DeepSOCIAL:COVID-19 大流行中的社会人物距离监测和感染风险评估。

  • shliang0603/Yolov4_DeepSocial DeepSOCIAL:COVID-19 大流行中的社会人物距离监测和感染风险评估。

  • Mukosame/Anime2Sketch 动画/插图的草图提取器。

  • google/mediapipe 适用于直播和流媒体的跨平台、可定制的 ML 解决方案。包括:人脸检测、面网、虹膜手、姿势、整体姿势、人脸检测、头发分割、物体检测、箱子追踪、即时运动追踪、日常物体的实时 3D 物体检测、关键点神经不变特征变换。

  • minivision-ai/photo2cartoon 人像卡通化探索项目

  • MobileStyleGAN.pytorch 用于高保真图像合成的轻量级卷积神经网络

  • TencentARC/GFPGAN GFPGAN 旨在开发用于真实世界面部恢复的实用算法。

  • 人脸识别常用开源数据集大全 哥伦比亚大学公众人物脸部数据、CelebA、美国国防部、MTFL、BioID、PersonID人脸识别数据集、CMU PIE人脸库、Youtube视频人脸、CASIA 人脸图像、Caltech人脸数据库

  • sallymmx/ActionCLIP 视频动作识别的新范式

  • IGLICT/DeepFaceDrawing-Jittor 从草图中深度生成人脸图像

  • RameenAbdal/StyleFlow 使用条件连续归一化流对 StyleGAN 生成的面部图像进行属性条件探索

  • kennymckormick/pyskl 用于基于骨架的动作识别的工具箱。

  • nenadmarkus/pico 对标准 Viola-Jones 方法的修改。基本思想是在所有合理的位置和尺度上用级联的二元分类器扫描图像。如果图像区域成功通过级联的所有成员,则将其分类为感兴趣对象。每个二元分类器由一组决策树组成,其中像素强度比较作为其内部节点中的二元测试。这使检测器能够以非常高的速度处理图像区域。

  • YuliangXiu/ICON 从图片法线获得的隐式穿衣人类的3D姿态(CVPR 2022)

  • DirtyHarryLYL/Activity2Vec 基于HAKE数据的通用人类活动特征提取器和人体PaSta(部分状态)检测器。它的工作原理类似于 ImageNet/COCO 预训练的主干,旨在为下游任务(如 VQA、字幕、聚类等)提取多模态活动表示。

  • fengq1a0/FOF 学习傅里叶占有场(Fourier Occupancy Fields)用于单目实时人体重建

  • damo/cv_mobilenet_face-2d-keypoints_alignment 106点人脸关键点检测模型,该模型主要用于人脸关键点检测和对齐任务,从包含人脸的图片中检测出人脸框、人脸关键点坐标和人脸姿态角。主要借鉴MobileNetV1和MobileNetV2的思路(如下图),MobileNetV1速度快,放在浅层用于提取特征图,MobileNetV2速度相对慢但是信息保存好,用于提取深层语义信息,模型参数量少速度快,能良好应用在移动端实时人脸关键点检测场景。

图像恢复

  • microsoft/Bringing-Old-Photos-Back-to-Life 旧照片修复

  • Sanster/lama-cleaner 由 SOTA AI 模型提供支持的图像修复工具。 从你的照片中删除任何不需要的物体、缺陷、人物或擦除和替换(由稳定扩散驱动)你照片上的任何东西。

  • TaoWangzj/Awesome-Face-Restoration 深层面部修复资源的完整列表 去噪、超分辨率、去模糊和去除伪影

  • xinntao/Real-ESRGAN 旨在开发通用图像恢复的实用算法。

  • zhangmozhe/Deep-Exemplar-based-Video-Colorization 基于深层范例的视频着色,着色时间的连贯性与稳定性

  • JingyunLiang/SwinIR 使用 Swin Transformer 的图像恢复,图像SR\图像去噪\伪影减少

  • yangxy/GPEN 用于脸部高清增强,还能将黑白人物照转成彩色照片。GPEN模型明显优于其他的修复人脸的GAN模型。

  • bilibili/ailab 使用百万级动漫数据进行训练的,结构与Waifu2x兼容的通用动漫图像超分辨率模型。它支持2x\3x\4x倍超分辨率,其中2倍模型支持4种降噪强度与保守修复,3倍/4倍模型支持2种降噪强度与保守修复。

  • nagadomi/waifu2x 动漫风格艺术的图像超分辨率

  • andreas128/RePaint 官方 PyTorch 代码和“重绘:使用去噪扩散概率模型进行修复”模型,CVPR 2022

光学字符识别OCR

  • ouyanghuiyu/chineseocr_lite 超轻量级中文ocr

  • JiaquanYe/TableMASTER-mmocr 将表格内容识别任务分为四个子任务:表格结构识别、文本行检测、文本行识别和框分配。 基于 MASTER,我们提出了一种新颖的表结构识别架构,我们称之为 TableMASTER。

  • breezedeus/cnocr cnocr

  • JiaquanYe/MASTER-mmocr 本项目是 MMOCR 对 MASTER: Multi-Aspect Non-local Network for Scene Text Recognition (场景文本识别)的重新实现。

  • PaddlePaddle/PaddleOCR 很棒的基于PaddlePaddle的多语言OCR工具包(实用的超轻量级OCR系统,支持80+语言识别,提供数据标注和合成工具,支持服务器、移动、嵌入式和物联网设备之间的训练和部署)

  • FudanVI/benchmarking-chinese-text-recognition 该存储库包含用于对中文文本识别进行基准测试的数据集和基线。收集公开可用的场景数据集,包括RCTWReCTSLSVTArTCTW ,得到 636,455 个样本,这些样本被随机打乱,然后按 8:1:1 的比例划分,以构建训练、验证和测试数据集。六种具有代表性的方法作为基线:

  • CRNN是典型的基于 CTC 的方法,在学术界和工业界得到广泛应用。它首先将文本图像发送到 CNN 以提取图像特征,然后采用两层 LSTM 对序列特征进行编码。最后,LSTM 的输出被馈送到 CTC解码器,以最大化所有路径通往基本事实的概率。

  • ASTER 是典型的基于校正的方法,旨在处理不规则的文本图像。引入了空间变换器网络 (STN),将给定的文本图像纠正为易于识别的外观。然后将校正后的文本图像发送到 CNN 和两层 LSTM 提取特征。ASTER 利用注意力机制来预测最终的文本序列。

  • MORAN 是基于整流的方法。它首先采用多对象校正网络(MORN)以弱监督方式预测校正后的像素偏移(与利用 STN 的 ASTER 不同)。输出像素偏移进一步用于生成校正后的图像,该图像进一步发送到基于注意力的解码器(ASRN)进行文本识别。

  • SAR 利用二维特征图进行更稳健的解码。特别是,它主要是针对不规则文本提出的。一方面,SAR 在 CNN 编码器中采用更强大的残差块来学习更强的图像表示。另一方面,与 CRNN、ASTER 和 MORAN 将给定图像压缩成一维特征图不同,SAR 对特征图的空间维度采用二维注意力进行解码,从而在弯曲和斜体文字。

  • SEED是基于语义的方法。它引入了一个语义模块来提取全局语义嵌入并利用它来初始化解码器的第一个隐藏状态。SEED的解码器在继承ASTER结构的同时,吸收语义嵌入为识别过程提供先验,从而在识别低质量文本图像方面表现出优越性。

  • TransOCR 是基于 Transformer 的方法之一。它最初旨在为超分辨率任务提供文本先验。它使用 ResNet-34 作为编码器,使用自注意力模块作为解码器。与基于 RNN 的解码器不同,自注意力模块更有效地捕获给定文本图像的语义特征。

  • adeline-cs/GTR 场景文字识别 现有的场景文本识别(STR)方法通常使用语言模型来优化视觉识别(VR)模型预测的一维字符序列的联合概率,忽略字符实例内部和之间的视觉语义的二维空间上下文,使它们不能很好地推广到任意形状的场景文本。为了解决这个问题,本文中首次尝试基于视觉语义进行文本推理。给定 VR 模型预测的字符分割图,为每个实例构建子图,节点表示其中的像素,根据它们的空间相似性在节点之间添加边。然后,子图通过根节点顺序连接成一个完整的图。

  • lukas-blecher/LaTeX-OCR pix2tex:使用ViT将方程式图像转换为LaTeX代码。目标是创建一个基于学习的系统,该系统获取数学公式的图像并返回相应的LaTeX代码。

  • Layout-Parser/layout-parser 基于深度学习的文档图像分析的统一工具包,旨在简化文档图像分析 (DIA) 任务。

  • phamquiluan/PubLayNet PubLayNet数据集上的MaskRCNN。段落检测、表格检测、图形检测... 个大型文档图像数据集,其布局使用边界框和多边形分割进行标注。

  • JaidedAI/EasyOCR 即用型 OCR,支持 80 多种语言和所有流行的书写脚本,包括拉丁文、中文、阿拉伯文、天城文、西里尔文等。

  • ocrmypdf/OCRmyPDF 为扫描的 PDF 文件添加OCR 文本图层,允许对其进行搜索

视频补帧、摘要

  • hzwer/arXiv2020-RIFE 视频帧插值的实时中级流量估计.旷视和北大提出的一种实时中间流估计算法。用于视频帧插值,能够改善伪影、让视频更丝滑。

  • Justin62628/Squirrel-RIFE 基于RIFE算法的中文补帧软件.

  • baowenbo/DAIN DAIN(深度感知视频帧插值)可以把30fps的进一步插帧到480fps。

  • nihui/dain-ncnn-vulkan DAIN 的 ncnn 实现,深度感知视频帧插值。dain-ncnn-vulkan 使用 ncnn 项目作为通用神经网络推理框架。

  • nihui/rife-ncnn-vulkan RIFE,视频帧插值的实时中级流量估计与 ncnn 库一起实现

  • myungsub/CAIN 视频帧插值只需要频道注意力

  • nihui/cain-ncnn-vulkan CAIN,使用 ncnn 库实现的视频帧插值只需要频道注意力

  • damo/cv_googlenet_pgl-video-summarization 输入一段长视频,算法对视频进行镜头切割得到视频片段,评估视频帧的重要性,输出重要视频帧的帧号,根据帧号可以合成一段短视频(摘要视频)。采用local和global的多头注意力构成的transformer模型

  • RayVentura/ShortGPT 用于自动创建短视频内容的实验性 AI 框架。它简化了视频创建、素材获取、画外音合成和编辑任务。自动编辑框架:使用面向LLM的视频编辑语言简化视频创建过程。脚本和提示:为各种LLM自动编辑过程提供即用型脚本和提示。画外音/内容创作:支持多种语言。字幕生成:自动生成视频字幕。资产来源:从互联网上获取图像和视频片段,并根据需要与网络和 Pexels API 连接。内存和持久性:使用 TinyDB 确保自动编辑变量的长期持久性。

对象检测、分割

  • facebookresearch/segment-anything Segment Anything Model从输入提示(如点或框)生成高质量的对象遮罩,并且可用于为图像中的所有对象生成遮罩。它已经在1100万张图像和11亿个掩码的数据集上进行了训练,并且在各种分割任务上具有强大的零样本性能。

  • open-mmlab/mmdetection OpenMMLab基于PyTorch的开源对象检测工具箱

  • microsoft/Swin-Transformer 基于Masked Image Modeling的预训练方法,适用于 Swin 和 SwinV2(也适用于 ViT 和 ResNet)。它可以作为计算机视觉的通用主干。它基本上是一个分层变换器,其表示是用移位窗口计算的。移位窗口方案通过将 self-attention 计算限制在不重叠的本地窗口上,同时还允许跨窗口连接,从而带来更高的效率。将 CLIP 预训练的 ViT-L 提高了 +1.6%,以达到ImageNet-1K 图像分类,这是最准确的 ViT-L 模型。在 COCO 对象检测(58.7 box AP和51.1 mask APtest-dev)和 ADE20K 语义分割(53.5 mIoU在 val)上实现了强大的性能,大大超过了以前的模型。

  • PaddlePaddle/PaddleSeg 易于使用的图像分割库,具有出色的预训练模型库,支持语义分割、交互式分割、全景分割、图像叠加、3D 分割等广泛的实际任务。

  • open-mmlab/mmsegmentation OpenMMLab语义分割工具箱和基准测试。

  • google-research/kubric 一个数据生成管道,用于创建具有丰富注释的半真实合成多对象视频,例如实例分割掩码、深度图和光流。

  • megvii-model/YOLOF 一个没有FPN的简单、快速、高效的目标检测器。

  • JosephKJ/OWOD (CVPR 2021 Oral) 开放世界目标检测.引入了强大的评估协议并提供了一种新颖的解决方案,我们称之为 ORE:开放世界对象检测器,基于对比聚类和基于能量的未知识别。

  • RangiLyu/nanodet 超快速和轻量级的无锚物体检测模型。 仅 980 KB(int8) / 1.8MB (fp16) 并在手机上运行 97FPS.

  • jizhishutong/YOLOU 收集更多关于YOLO系列的算法,让小伙伴们更好的学习物体检测的知识。同时,为了更好的应用AI技术,YOLOU也将加入相应的Deploy技术,加速我们所学算法的落地,实现价值。

  • ultralytics/yolov5 在 COCO 数据集上预训练的对象检测模型,代表 Ultralytics 对未来视觉 AI 方法的开源研究,结合了数千小时的研究和经验教训和最佳实践。

  • meituan/YOLOv6 专用于工业应用的单阶段目标检测框架。

  • xuebinqin/U-2-Net 我们在 Pattern Recognition 2020 上新接受的论文的代码:“U^2-Net:使用嵌套 U 结构进行突出对象检测的深入发展”。

  • iscyy/yoloair 基于PyTorch的YOLO算法库。统一模型代码框架、统一应用、统一改进、易于模块组合、构建更强大的网络模型。

  • PaddlePaddle/PaddleClas 飞桨图像识别套件 PaddleClas 是飞桨为工业界和学院所准备的一个图像任务的工具集,桌面和用户训练出更好的图像分类和应用落地。PaddleClas 前沿分类、识别相关支持算法,发布行业级特色骨算法PP-HGNet、PP-LCNetv2、PP-LCNet和SSLD 半监督干式网络知识模型等模型,在此基础上打造PULC 超轻量级分类分类方案和PP-ShiTu图像识别系统。

  • Hawkeye-FineGrained/Hawkeye 基于开源深度学习的细粒度图像识别工具箱构建于PyTorch。基于深度滤波器:S3N (ICCV 2019) Interp-Parts (CVPR 2020) ProtoTree (CVPR 2021)。基于注意力机制:OSME+MAMC (ECCV 2018) MGE-CNN (ICCV 2019) APCNN (IEEE TIP 2021) 。基于高阶特征交互: BCNN (ICCV 2015) CBCNN (CVPR 2016) Fast MPN-COV (CVPR 2018) 。基于特殊损失函数: Pairwise Confusion (ECCV 2018) API-Net (AAAI 2020) CIN (AAAI 2020) 。基于网络数据: Peer-Learning (ICCV 2021) 其他方法 NTS-Net (ECCV 2018) CrossX (ICCV 2019) DCL (CVPR 2019)。

  • lucidrains/vit-pytorch 在 Pytorch 中实现 Vision Transformer,一种仅使用单个 Transformer 编码器即可在视觉分类中实现 SOTA 的简单方法

  • alibaba/EasyCV 基于Pytorch的计算机视觉工具,聚焦自监督学习和视觉transformer关键技术,覆盖主流的视觉建模任务例如图像分类,度量学习,目标检测,关键点检测等。

  • ibm-aur-nlp/PubLayNet 大型文档图像数据集,其布局用边界框和多边形分割进行了注释。 文件来源是 PubMed Central Open Access Subset(商业用途合集)。 注释是通过匹配 PubMed Central Open Access 子集中文章的 PDF 格式和 XML 格式自动生成的。

  • zongdai/AutoShape ICCV2021 论文:AutoShape:实时形状感知单目 3D 对象检测

  • facebookresearch/detectron2 用于对象检测、分割和其他视觉识别任务的下一代平台。

  • cfzd/Ultra-Fast-Lane-Detection 论文“超快速结构感知深度车道检测”的实现

  • RangiLyu/nanodet NanoDet 轻量级1.8MB、超快(移动端97fps)目标检测项目

  • Megvii-BaseDetection/YOLOX 高性能目标检测器YOLOX。并将YOLO检测器切换到anchor-free的方式,并结合其他先进的检测技术,如decouple head和标签分配策略SimOTA,实现了当前目标检测最优性能。

  • yuantn/MI-AOD 用于目标检测的多示例主动学习方法, 提出多示例主动目标检测MI-AOD,通过观察示例级的不确定性来选择信息量最大的图像用于检测器的训练。

  • microsoft/SoftTeacher ICCV2021 使用软教师进行端到端的半监督目标检测

  • raoyongming/DenseCLIP DenseCLIP:具有上下文感知提示的语言引导密集预测

  • dddzg/up-detr 使用 Transformers 进行目标检测的无监督预训练

  • Megvii-BaseDetection/DeFCN 全卷积网络的端到端目标检测

  • HRNet/HRFormer 高分辨率变换器(HRFormer),它学习用于密集预测任务的高分辨率表示,而原始的视觉变换器产生低分辨率表示并且具有高内存和计算成本。

  • Sense-X/UniFormer 统一卷积和自注意的视觉识别统一变压器,实现高效的时空表示学习 可用于: 图像分类、 视频分类、 物体检测、 语义分割、 姿势估计

  • bytedance/ibot 自我监督预训练框架,通过自蒸馏执行蒙版图像建模。iBOT 显示了局部语义特征,有助于模型在全局范围和局部范围内很好地转移到下游任务。iBOT在 COCO 对象检测和 ADE20K 语义分割上实现了强大的性能。

  • hkchengrex/XMem [ECCV 2022]使用 Atkinson-Shiffrin 进行长期视频对象分割

  • ytongbai/ViTs-vs-CNNs 变形金刚比 CNN 更强大吗 在测量对抗鲁棒性时,Transformers 胜过 CNN。CNN 在防御对抗性攻击方面很容易像 Transformers 一样强大,如果它们正确采用 Transformers 的训练方法的话。虽然关于分布外样本的泛化,我们表明在(外部)大规模数据集上进行预训练并不是使 Transformer 能够获得比 CNN 更好的性能的基本要求。此外,我们的消融表明,这种更强的泛化在很大程度上得益于 Transformer 本身的类似自我注意的架构,而不是其他训练设置。希望这项工作可帮助社区更好地理解和衡量 Transformer 和 CNN 的鲁棒性。

  • open-mmlab/mmrotate 基于 PyTorch 的旋转框检测的开源工具箱

  • MediaBrain-SJTU/RegAD 基于注册的少样本异常检测”(RegAD) 的官方实现

  • NVlabs/MinVIS 无需基于视频的培训的最小视频实例分割框架

  • AlexeyAB/darknet 用于对象检测的神经网络 YOLOv4 / Scaled-YOLOv4 / YOLO

  • ttengwang/Caption-Anything 一款结合了图像分割、视觉字幕和 ChatGPT 的多功能工具,可根据用户偏好生成具有不同控件的定制字幕。

  • WZMIAOMIAO/deep-learning-for-image-processing 用于图像处理的深度学习,包括分类和对象检测等。

  • satellite-image-deep-learning/techniques 用于分析卫星和航空图像的各种深度学习技术,包括用于分类、分割和对象检测等任务的架构、模型和算法。对于研究人员、从业者和任何对深度学习的最新进展及其对计算机视觉和遥感的影响感兴趣的人来说,它都是宝贵的资源。

图像风格

  • mchong6/GANsNRoses 多样化的 im2im 和 vid2vid 自拍到动漫转换。从人脸面部图像映射动漫风格图像。

  • williamyang1991/VToonify SIGGRAPH Asia 2022 可控高分辨率人像视频风格迁移

  • mchong6/JoJoGAN JoJoGAN 的官方 PyTorch 存储库:One Shot Face Stylization 人脸风格化

  • orpatashnik/StyleCLIP 文本驱动的StyleGAN风格生成图像处理

  • syz825211943/Multi-Style-Photo-Cartoonization 多风格照片卡通化

  • bryandlee/animegan2-pytorch AnimeGANv2 的 PyTorch 实现 基于 CartoonGAN 的改进,并提出了一个更加轻量级的动漫风格效果生成器架构.

  • TachibanaYoshino/AnimeGANv2 AnimeGAN的改进版本。风景照片/视频到动漫风格

  • PaddlePaddle/PaddleGAN 飞桨生成对抗网络开发套件--PaddleGAN,为开发者提供经典及前沿的生成对抗网络高性能实现,并支撑开发者快速构建、训练及部署生成对抗网络,以供学术、娱乐及产业应用。包括:人脸属性编辑之年龄变换 一键实现变老变年轻;视频超分SOTA算法PP-MSVSR;StyleGAN V2人脸属性编辑之性别转换;LapStyle风格迁移;人脸融合能力,结合新版Frirst Order Motion,实现人脸完美融合并带有丰富表情;真实照片转油画风格;人脸融合、风格迁移、老视频修复、人脸动作迁移、超分辨率、妆容迁移、人脸动漫化、写实人像卡通化、照片动漫化、唇形同步

  • SHI-Labs/Versatile-Diffusion 多功能扩散:文本、图像和变体合二为一的扩散模型,可以原生支持图像到文本、图像变体、文本到图像和文本变体,并且可以进一步扩展到其他应用,例如语义式解缠、图像-文本双引导生成、潜在图像到文本到图像编辑等。

  • FrozenBurning/Text2Light 零样本的文本驱动的HDR全景图生成

其他_机器视觉

  • taichi-dev/taichi 高效且可移植的 Python 高性能编程。该语言具有广泛的应用,包括实时物理模拟、数字计算、增强现实、人工智能、视觉和机器人技术、电影和游戏中的视觉效果、通用计算等等。

  • open-mmlab/mmcv MMCV 是计算机视觉研究的基础库,它提供以下功能:通用 IO API、图像/视频处理、图像和注释可视化、有用的实用程序(进度条,计时器,...)、具有挂钩机制的 PyTorch runner、各种CNN架构、CPU 和 CUDA 操作的高质量实现。

  • ArduPilot/ardupilot 最先进、功能最全、最可靠的开源自动驾驶软件。自 2010 年以来,它一直由专业工程师、计算机科学家和社区贡献者组成的多元化团队开发。我们的自动驾驶软件能够控制几乎任何可以想象的车辆系统,从传统飞机、四架飞机、多旋翼和直升机到漫游车、船只、平衡机器人,甚至潜艇。它正在不断扩展,为新的车辆类型提供支持。

  • Stability-AI/stablediffusion 具有潜在扩散模型的高分辨率图像合成

  • YangLing0818/Diffusion-Models-Papers-Survey-Taxonomy 扩散模型论文、调查和分类法

  • diff-usion/Awesome-Diffusion-Models 关于扩散模型的资源和论文集

  • TheRamU/Fay Fay是一个完整的开源项目,包含Fay控制器及数字人模型,可灵活组合出不同的应用场景:虚拟主播、现场推销货、商品导购、语音助理、远程语音助理、数字人互动、数字人面试官及心理测评、贾维斯、Her。

  • borisdayma/dalle-mini DALL·E Mini - 从文本提示生成图像

  • ashawkey/stable-dreamfusion 文本到3D和图像到3D和网格导出与NeRF +扩散。

  • OpenAI/CLIP 对比语言图像预训练

  • yangjianxin1/CLIP-Chinese 中文多模态对比学习预训练模型 ,可获取140w中文图文对预训练数据,以及中文CLIP预训练权重。下游任务:图文相似度计算、文本相似度计算、图片相似度计算

  • lllyasviel/ControlNet 让我们控制扩散模型!ControlNet 是一种神经网络结构,通过添加额外条件来控制扩散模型。

  • jexom/sd-webui-depth-lib 深度图库,用于 Automatic1111/stable-diffusion-webui 的控制网扩展

  • Nutlope/roomGPT 上传您的房间照片,使用 AI 生成您的梦想房间。使用称为ControlNet的ML模型来生成房间的变化。此应用程序使您能够上传任何房间的照片,该照片将使用 Next.js API 路由通过此 ML 模型发送照片,并返回生成的房间。

  • OFA-Sys/OFA 统一的序列到序列预训练模型(支持英文和中文),它统一了模态(即跨模态、视觉、语言)和任务(支持微调和提示调优):图像字幕(MSCOCO 排行榜第一) ), VQA (链接),视觉基础,文本到图像生成,文本分类,文本生成,图像分类等。

  • openai/consistency_models 一致性模型的官方存储库。Diffusion Models 在生成一张图片时需要多次进行模型推理,对于实时性较强的应用,就很难让人满意了。这篇文章所claim的一步采样即能达到较好的效果。

  • open-mmlab/mmagic OpenMMLab 多模态高级、生成和智能创建工具箱。解锁魔法:生成AI(AIGC),易于使用的API,awsome模型库,扩散模型,用于文本到图像生成,图像/视频恢复/增强等。

  • alicevision/meshroom 3D 重建软件,一款基于 AliceVision 摄影测量计算机视觉框架的免费开源 3D 重建软件。

  • google-research/magvit 官方 JAX 实现:掩码生成视频转换器 .引入 MAGVIT 以使用单一模型处理各种视频合成任务,并展示了其质量、效率和灵活性。

  • silverriver/MMChat 大规模的对话数据集,其中包含以图像为基础的中文对话。 MMChat 中的每个对话都与一个或多个图像相关联(每个对话最多 9 张图像)。 我们设计了各种策略来确保 MMChat 中对话的质量。 数据集中的图像托管在微博的静态图像服务器上。

  • KaiyangZhou/CoOp 通过快速学习将CLIP等视觉语言模型适应下游数据集

  • j-min/VL-T5 通过文本生成统一视觉和语言任务

  • cloneofsimo/lora 用于快速文本到图像扩散微调的低秩适配。

  • OFA-Sys/OFA 统一的序列到序列预训练模型(支持英文和中文),它统一了模态(即跨模态、视觉、语言)和任务(支持微调和提示调优):图像字幕(MSCOCO第一)、VQA链接、视觉基础、文本图像生成、文本分类生成、图像分类等。

  • HuiGuanLab/ms-sl 基于传统的跨模态文本-视频检索(Video-to-Text Retrieval, T2VR)任务,提出了部分相关的视频检索(Partially Relevant Video Retrieval, PRVR)。PRVR 旨在从大量未剪辑的长视频中检索出与查询文本部分相关的对应视频。作者设计了多尺度多示例模型,该模型分别对视频进行片段尺度和帧尺度的特征表示,并引入了以关键片段为向导的注意力聚合方法,模型整体以从粗到细的方式学习文本-视频间的相似度关系。该模型也可用于提高视频库片段检索(Video Corpus Moment Retrieval,VCMR)模型的性能。

  • facebookresearch/AugLy 用于音频、图像、文本和视频的数据增强库。

  • xxxnell/how-do-vits-work “视觉转换器如何工作?(ICLR 2022 )”的 PyTorch 实现。CV的多头自注意力 (MSA) 的成功并不在于弱归纳偏差以及捕获远程依赖项。 MSA 不仅是广义的 Convs,而是补充 Convs 的广义空间平滑。特别是,MSA 通过拉平损失情况来改进 NN。一个关键特征是它的数据特异性(数据依赖性),而不是远程依赖性。另一方面,ViTs 遭受非凸损失。MSA 和 Convs 表现出相反的行为,MSA 是低通滤波器,而 Convs 是高通滤波器。MSA 是形状偏向的,而 Convs 是纹理偏向的。因此,MSAs 和 Convs 是互补的。阶段末尾的 MSA(不是模型)显着提高了准确性。我们通过用 MSA 替换阶段结束时的 Convs 来引入 AlterNet。 AlterNet 在大小数据领域都优于 CNN。

  • salesforce/LAVIS 用于语言和视觉智能研究和应用的 Python 深度学习库。 该库旨在为工程师和研究人员提供一站式解决方案,以针对其特定的多模式场景快速开发模型,并跨标准和定制数据集对它们进行基准测试。 它具有统一的界面设计以访问:10 多个任务(检索、字幕、视觉问答、多模态分类等);20 多个数据集(COCO、Flickr、Nocaps、Conceptual Commons、SBU 等);30 多个最先进的基础语言视觉模型的预训练权重及其特定于任务的改编,包括 ALBEF、BLIP、ALPRO、CLIP。

  • willard-yuan/awesome-cbir-papers 经典图像检索论文合集

  • pliang279/awesome-multimodal-ml 多模态机器学习研究课题阅读清单

  • lucidrains/imagen-pytorch 在 Pytorch 中实现谷歌的文本到图像神经网络 Imagen ,谷歌的文本到图像神经网络,击败了 DALL-E2。 它是文本到图像合成的新 SOTA。在架构上上比 DALL-E2 简单得多。 它由一个级联 DDPM 组成,该 DDPM 以来自大型预训练 T5 模型(注意网络)的文本嵌入为条件。 它还包含用于改进分类器自由引导、噪声级调节和内存高效 unet 设计的动态裁剪。

  • divamgupta/stable-diffusion-tensorflow Stable Diffusion 稳定扩散的 Keras Tensorflow 实现。

  • LuChengTHU/dpm-solver 用于扩散概率模型采样的快速 ODE 求解器。DPM-Solver 适用于离散时间和连续时间扩散模型,无需任何进一步训练。 实验结果表明,仅需对各种数据集进行 10 到 20 次函数评估即可生成高质量样本。

  • jina-ai/clip-as-service 一种用于嵌入图像和文本的低延迟、高可伸缩性的服务。它可以作为一个微服务轻松集成到神经搜索解决方案中。有四种基本的视觉推理技能:对象识别、对象计数、颜色识别和空间关系理解。文本到图像跨模态搜索。

  • hua1995116/awesome-ai-painting AI绘画资料合集(包含国内外可使用平台、使用教程、参数教程、部署教程、业界新闻等等)

  • lllyasviel/style2paints 草图 + 风格 = 绘画

  • realtime-semantic-segmentation 用TF.js实施RefineNet以在浏览器中执行实时实例分割

  • extreme-assistant/CVPR2021-Paper-Code-Interpretation cvpr2021 cvpr2020 cvpr2019 cvpr2018 cvpr2017 论文/代码/解读/直播合集,极市团队整理

  • LeonLok/Multi-Camera-Live-Object-Tracking 多摄像头实时目标跟踪和计数,使用YOLOv4,Deep SORT和Flask

  • kornia/kornia 基于 PyTorch 的可微分(differentiable)的计算机视觉开源库, 实现了:可微的基础计算机视觉算子、可微的数据增广。OpenCV 和 PIL 都是不可微的,所以这些处理都只可以作为图像的预处理而无法通过观察梯度的变化来对这些算子进行优化 (gradient-based optimization),因此Kornia 便应运而生。

  • architras/Advanced_Lane_Lines 基于阈值的车道标记

  • facebookresearch/pytorch3d 基于PyTorch将深度学习与3D进行结合的研究框架。

  • facebookresearch/pytorchvideo 为视频理解研究打造的深度学习库。

  • rwightman/pytorch-image-models PyTorch图像类模型库,包括:ResNet, ResNeXT, EfficientNet, EfficientNetV2, NFNet, Vision Transformer, MixNet, MobileNet-V3/V2, RegNet, DPN, CSPNet

  • Thinklab-SJTU/ThinkMatch 深度图匹配算法 图形匹配(GM)是计算机视觉,模式识别和数据挖掘中一个基本但具有挑战性的问题。GM旨在通过解决称为二次分配问题(QAP)的NP硬组合问题来找到多个图之间的节点到节点对应关系。应用:桥接电影和简介、图像对应、分子匹配

  • google-research/vision_transformer 视觉Transformer和 MLP-混合器架构,Transformer应用于视觉,纯多层感知机视觉架构。

https://github.com/China-UK-ZSL/ZS-F-VQA 一种适用于零样本视觉问答(ZS-VQA)的基于知识图谱的掩码机制,更好结合外部知识的同时,缓解了误差传播对于模型性能的影响。

  • luost26/diffusion-point-cloud 基于非平衡态热力学的全新三维点云生成模型

  • PeterWang512/GANSketching 绘制您自己的 GAN:用手绘草图自定义 GAN 模型。

  • microsoft/AutoML/iRPE 视觉位置编码,在ImageNet和COCO上,与原始版相比,分别获得了1.5%(top-1 Acc)和1.3%(mAP)的性能提升(无需任何调参)。

  • shahroudy/NTURGB-D “NTU RGB+D”动作识别数据集、“NTU RGB+D 120”动作识别数据集、“NTU RGB+D”是用于人类动作识别的大规模数据集。“NTU RGB+D 120”是“NTU RGB+D”数据集的扩展版本。

  • yuhuan-wu/P2T 基于金字塔池化的视觉Transformer,可用于各类下游场景理解任务。

  • jantic/DeOldify 基于NoGAN技术,保证视频着色的稳定性,例如,视频中的同一件衣服,不至于转换成多种颜色。

  • junyanz/pytorch-CycleGAN-and-pix2pix 图像到图像的转换

  • joelibaceta/video-to-ascii 可以使用字符作为像素在终端中播放视频

  • bytedance/OMGD 用于 GAN 压缩的在线多粒度蒸馏 (ICCV2021)

  • TorchSSL/TorchSSL 基于 PyTorch 的半监督学习库 (NeurIPS'21)

  • google-research/mixmatch 集成了自洽正则化的超强半监督学习 MixMatch

  • google-research/remixmatch 改进了最近提出的MixMatch半监督学习算法,引入了两种新技术:分布对齐和增强锚定。分布对齐鼓励未标记数据预测的分布接近标签的分布。增强锚定为模型提供多个强增强版本的输入,并鼓励每个输出接近同一输入的弱增强版本的预测。

  • NVlabs/stylegan3 更适合视频和动画的生成模型。

  • isl-org/DPT 用于密集预测的Transformers,图像语义分割的目标是将图像的每个像素所属类别进行标注。因为是预测图像中的每个像素,这个任务通常被称为密集预测(dense prediction)。

  • google-research/mint 多模式内容创建模型训练基础设施,包括 FACT 模型(AI Choreographer)实现。带有 AIST++ 的音乐条件 3D 舞蹈生成。

  • yihongXU/TransCenterTransCenter:用于多对象跟踪的密集查询转换器

  • ashkamath/mdetr 用于端到端多模态理解的调制检测。输入描述文本及图片,识别出文字描述的对应物体。

  • erikalu/omnimatte 提取视频中的前、背景。精确蒙版(matte)操作,分离前景背景。

  • microsoft/SimMIM 用作掩码图像建模的简单框架。通过系统研究,我们发现每个组件的简单设计都显示出非常强的表示学习性能:1)用中等大小的掩码补丁大小(例如,32)对输入图像进行随机掩码,这是一个强大的前置任务;2) 通过直接回归预测 RGB 值的原始像素的性能并不比设计复杂的补丁分类方法差;3)预测头可以像线性层一样轻,性能不比较重的层差。

  • microsoft/Oscar 跨模态预训练方法Oscar(Object-Semantics Aligned Pre-training)。它利用在图像中检测到的对象标签作为锚点来显着简化图像-文本对齐的学习。在 650 万个文本图像对的公共语料库上对 Oscar 进行预训练,并在下游任务上对其进行微调,在六项成熟的视觉语言理解和生成任务上创造新的最新技术。

  • xyzforever/BEVT 视频转换器的BERT预训练。BEVT首先对图像数据进行蒙版图像建模,然后对视频数据进行蒙版图像建模和蒙版视频建模。

  • fengpanhe/MT-ORLPyTorch 实现论文“MT-ORL:多任务遮挡关系学习”(ICCV 2021)

  • snap-research/CAT 用于压缩"图像到图像模型"CycleGAN Pix2pix的压缩和教学框架.

  • nikheelpandey/TAUP-PyTorch 任务不可知的无监督预训练。simCLR 论文的粗略实现。 如论文中所述,在对比损失函数上使用 LARS 优化器来训练对比模型。 将此模型用作编码器并添加全连接层以创建分类器。

  • HobbitLong/SupContrast “监督对比学习”的 PyTorch 实现(顺便提一下 SimCLR)

  • hustvl/QueryInst Instances as Queries是一种简单有效的基于查询的实例分割方法,由动态掩码头的并行监督驱动,在准确性和速度方面均优于以前的技术。

  • isl-org/MiDaS 单目深度估计的成功依赖于大量且多样化的数据集。但是由于深度的真实值在不同的环境尺度下获取的,大量数据具有不同的特征和偏差。本文提出了一种对于深度的范围和尺度具有不变性的训练方法,从而可以在训练期间混合多个数据集。因此,本文利用3D电影构建了一个数据集并进行训练,然后在训练期间未见过的数据集上进行评测。实验证明,混合训练来自不同的数据集可以改善深度估计的效果,特别是针对训练时未见过的数据集(zero-shot dataset)。

  • google-research/deeplab2 用于深度标记的 TensorFlow 库,旨在为密集像素标记任务提供统一且最先进的 TensorFlow 代码库。旨在为密集像素标注任务提供统一的、最先进的 TensorFlow 代码库,包括但不限于语义分割、实例分割、全景分割、深度估计,甚至 视频全景分割。深度标记是指通过深度神经网络为图像中的每个像素分配预测值来解决计算机视觉问题。

  • YifanXu74/Evo-ViT 腾讯优图提出高性能Transformer加速方法.Evo-ViT: Slow-Fast Token Evolution for Dynamic Vision Transformer,能在保证分类准确率损失较小的情况下,大幅提升推理速度,如在ImageNet 1K数据集下,可提升DeiT-S 60%推理速度的同时仅损失0.4%的精度。

  • researchmm/CKDN 用于退化参考图像质量评估的学习条件知识提炼

  • phecy/SSL-FEW-SHOT 小样本图像分类的自监督学习

  • yangle15/RANet-pytorch 提出的分辨率自适应网络 (RANet) 通过利用spatial redundancy输入图像的分辨率来进行自适应推理。我们的动机是低分辨率表示足以对包含具有原型特征的大对象的简单样本进行分类,只有一些困难样本需要空间详细信息。

  • microsoft/NUWA 一个统一的多模态预训练模型,可以为8个视觉合成任务(文本转图像、模板转图像、图像补全、图像操纵、文本转视频、模板转视频、视频帧预测、视频操纵) 生成新的或操纵现有的视觉数据(即图像和视频)。待开放源码。

  • lucidrains/nuwa-pytorch 用于文本到视频合成的最先进的注意力网络

  • yuxie11/R2D2 大规模中文跨模式基准和视觉语言框架

  • google-research-datasets/conceptual-captions 包含(图像URL、字幕)对的数据集,用于机器学习图像字幕系统的训练和评估。数据集有约330万张图像(CC3M)和1200万张图像(CC12M)两个版本,并通过一个简单的过滤程序从网络自动收集弱相关描述。

  • ShannonAI/OpenViDial 一个大规模多模态对话数据集.当人类交谈时,说话者接下来会说什么很大程度上取决于他所看到的。OpenViDial 是用于此目的的大型多模块对话数据集。这些对话回合和视觉上下文是从电影和电视剧中提取的,其中每个对话回合都与它发生的相应视觉上下文配对。对于OpenViDial 1.0,共包含 110 万个对话轮次,因此图像中存储了 110 万个视觉上下文。对于OpenViDial 2.0,包含 560 万个对话轮次以及 560 万个存储在图像中的视觉上下文。基于OpenViDial,同时提出了三个模型,以不同的粒度融合视觉信息,预测下一句的对话内容。

  • Alibaba-MIIL/STAM 受NLP中Transformer成功的启发,我们尝试将一个标准Transformer直接应用到图像上,尽可能少的修改。为此,我们将图像分割成小块,并将这些块转化为线性嵌入序列,作为Transformer的输入。图像块(image patches)就相当于NLP任务中的单词(token)来做处理。并以有监督的方式训练图像分类模型。大规模的训练可以克服归纳偏置(inductive biases)。当ViT在足够规模上进行预先训练,并迁移到较少数据量的任务时,可以获得出色结果。

  • openai/glide-text2im 基于扩散的文本条件图像合成模型。以文本提示为条件的图像;填充图像的蒙版区域,以文本提示为条件;使用 GLIDE(过滤)+ 过滤噪声感知 CLIP 模型来生成以文本提示为条件的图像。

  • SysCV/pcan 用于多对象跟踪和分割的原型交叉注意网络

  • google-research/scenic Scenic:用于计算机视觉研究及其他领域的 Jax 库

  • CryhanFang/CLIP2Video 基于CLIP (ViT-B/32)的视频文本检索模型,将图像语言预训练模型以端到端的方式转换为视频文本检索。模型包括一个时间差异块来捕捉精细时间视频帧的运动,以及时间对齐块来重新对齐视频剪辑和短语的标记并增强多模态相关性。在主要的文本到视频和视频到文本检索基准上取得了最先进的性能,包括 MSR-VTT、MSVD 和 VATEX 检索准确性的新记录。

  • ArrowLuo/CLIP4Clip CLIP4Clip 是基于CLIP (ViT-B)的视频文本检索模型。在这项工作中,我们研究了三种相似度计算方法:无参数类型、顺序类型和紧密类型。该模型在 MSR-VTT、MSVC、LSMDC、ActivityNet 和 DiDeMo 上实现了 SOTA 结果。

  • sail-sg/poolformer PoolFormer:MetaFormer 实际上是您的视觉所需要的。transformer/MLP-like 模型的能力主要源于通用架构 MetaFormer,而不是配备的特定令牌混合器。作者独树一帜提出视觉Transformer及其变种的成功原因主要是架构的设计,并且将token mixer换为了简单的池化获得了相当好的效果。

  • jonhare/DifferentiableSketching 微分绘图和素描

  • thuiar/Self-MM 多模态情感分析的自监督多任务学习学习模态特定表示中的代码

  • nuno-faria/tiler Tiler 是一种使用各种其他较小图像(图块)创建图像的工具。它不同于其他马赛克工具,因为它可以适应多种形状和大小的瓷砖(即不限于正方形)。图像可以由圆圈、线条、波浪、十字绣、乐高积木、我的世界积木、回形针、字母等组成…

  • leandromoreira/ffmpeg-libav-tutorial FFmpeg libav 教程 - 了解媒体如何从基础到转换、转码等工作

  • Tencent/libpag 动画文件的渲染 SDK,降低或消除动画研发相关的成本,打通设计师创作到素材交付上线的极简流程,不断输出运行时可编辑的高质量动画内容。

  • salesforce/BLIP 用于 BLIP 的 PyTorch 代码:用于统一视觉语言理解和生成的引导语言图像预训练

  • VALUE-Leaderboard/StarterCode VALUE 基准测试的入门代码 。用于训练、评估和分析系统以理解视频和字幕的资源集合。

  • starmemda/CAMoE 通过多流语料库对齐和双 Softmax 损失改进视频文本检索

  • facebookresearch/SLIP SLIP 自监督代码发布符合语言-图像预训练

  • OFA-Sys/Chinese-CLIP 中文版CLIP,实现中文跨模态检索和表示生成。使用大规模中文数据进行训练(~2亿图文对),旨在帮助用户快速实现中文领域的图文特征&相似度计算、跨模态检索、零样本图片分类等任务。

  • yuewang-cuhk/awesome-vision-language-pretraining-papers 视觉和语言预训练模型 (VL-PTM) 的最新进展

  • zengyan-97/X-VLM 多粒度视觉语言预训练 将文本与视觉概念对齐。

  • facebookresearch/vilbert-multi-task 12 合 1:多任务视觉和语言表征学习

  • airsplay/lxmert 从 Transformers 学习跨模态编码器表示

  • uclanlp/visualbert 视觉和语言的简单且高效的基线 arxiv.org/abs/1908.03557 预训练一个 Transformer,用于处理图像字幕数据的视觉和语言 (V&L) 任务。 无监督 VisualBERT,预训练了没有对齐的图像字幕对的 V&L 转换器。

  • jackroos/VL-BERT 用于视觉语言任务的简单而强大的可预训练通用表示。它在大规模字幕数据集和纯文本语料库上进行了预训练,可以针对各种下游视觉语言任务进行微调,例如视觉常识推理、视觉问答和参考表达理解。

  • ChenRocks/UNITER 支持在 NLVR2VQA、[VCR](https://visualcommon

About

精选了千余项目,包括机器学习、深度学习、NLP、GNN、推荐系统、生物医药、机器视觉、前后端开发等内容。

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published