GitHub - yuanzhongqiao/transformers.js: 最先进的网络机器学习。直接在浏览器中运行 🤗 Transformers，无需服务器！

transformers.js javascript 库徽标

最先进的网络机器学习。直接在浏览器中运行 🤗 Transformers，无需服务器！

Transformers.js 的设计功能与 Hugging Face 的transformers python 库相同，这意味着您可以使用非常相似的 API 运行相同的预训练模型。这些模型支持不同模式下的常见任务，例如：

📝自然语言处理：文本分类、命名实体识别、问答、语言建模、摘要、翻译、多项选择和文本生成。
🖼️计算机视觉：图像分类、物体检测和分割。
🗣️音频：自动语音识别和音频分类。
🐙多模态：零样本图像分类。

Transformers.js 使用ONNX Runtime在浏览器中运行模型。最棒的是，您可以使用🤗 Optimum轻松将预训练的 PyTorch、TensorFlow 或 JAX 模型转换为 ONNX 。

欲了解更多信息，请查看完整文档。

快速浏览

从现有代码进行转换非常简单！就像 Python 库一样，我们支持 API pipeline。管道将预训练模型与输入的预处理和输出的后处理组合在一起，使其成为使用该库运行模型的最简单方法。

Python（原始）

Javascript（我们的）

from transformers import pipeline
# Allocate a pipeline for sentiment-analysis
pipe = pipeline('sentiment-analysis')
out = pipe('I love transformers!')
# [{'label': 'POSITIVE', 'score': 0.999806941}]

import { pipeline } from '@xenova/transformers';
// Allocate a pipeline for sentiment-analysis
let pipe = await pipeline('sentiment-analysis');
let out = await pipe('I love transformers!');
// [{'label': 'POSITIVE', 'score': 0.999817686}]

您还可以通过将模型 ID 或路径指定为函数的第二个参数来使用不同的模型pipeline。例如：

// Use a different model for sentiment-analysis
let pipe = await pipeline('sentiment-analysis', 'Xenova/bert-base-multilingual-uncased-sentiment');

安装

要通过NPM安装，请运行：

npm i @xenova/transformers

或者，你也可以使用 CDN 或静态托管，在 vanilla JS 中使用它，无需任何打包器。例如，使用ES 模块，你可以使用以下命令导入库：

<script type="module">
    import { pipeline } from 'https://cdn.jsdelivr.net/npm/@xenova/transformers@2.17.2';
</script>

例子

想要直接开始吗？从我们的一个示例应用程序/模板开始：

姓名	描述	链接
私语网	带 Whisper 的语音识别	代码,演示
涂鸦冲刺	实时草图识别游戏	博客，代码，演示
代码游乐场	浏览器内代码完成网站	代码,演示
语义图像搜索（客户端）	搜索带文字的图片	代码,演示
语义图像搜索（服务器端）	搜索带有文本的图像（Supabase）	代码,演示
原始 JavaScript	浏览器内对象检测	视频、代码、演示
反应	多语言翻译网站	代码,演示
文本转语音（客户端）	浏览器内语音合成	代码,演示
浏览器扩展	文本分类扩展	代码
电子	文本分类应用	代码
Next.js (客户端)	情感分析（浏览器内推理）	代码,演示
Next.js（服务器端）	情感分析（Node.js 推理）	代码,演示
Node.js	情绪分析 API	代码
演示站点	演示集锦	代码,演示

查看 Hugging Face 上的 Transformers.js模板，一键开始！

自定义用法

默认情况下，Transformers.js 使用托管的预训练模型和预编译的 WASM 二进制文件，它们应该可以开箱即用。您可以按如下方式自定义它：

设置

import { env } from '@xenova/transformers';
// Specify a custom location for models (defaults to '/models/').
env.localModelPath = '/path/to/models/';
// Disable the loading of remote models from the Hugging Face Hub:
env.allowRemoteModels = false;
// Set location of .wasm files. Defaults to use a CDN.
env.backends.onnx.wasm.wasmPaths = '/path/to/files/';

有关可用设置的完整列表，请查看API 参考。

将您的模型转换为 ONNX

我们建议使用我们的转换脚本，通过单个命令将您的 PyTorch、TensorFlow 或 JAX 模型转换为 ONNX。在后台，它使用🤗 Optimum对您的模型进行转换和量化。

python -m scripts.convert --quantize --model_id <model_name_or_path>

例如，使用以下命令转换和量化bert-base-uncased：

python -m scripts.convert --quantize --model_id bert-base-uncased

这会将以下文件保存至./models/：

bert-base-uncased/
├── config.json
├── tokenizer.json
├── tokenizer_config.json
└── onnx/
    ├── model.onnx
    └── model_quantized.onnx

有关受支持的架构的完整列表，请参阅Optimum 文档。

支持的任务/模型

以下是 Transformers.js 目前支持的所有任务和架构的列表。如果您没有在此处看到您的任务/模型，或者它尚不受支持，请随时在此处打开功能请求。

要在 Hub 上查找兼容的模型，请在过滤器菜单中选择“transformers.js”库标签（或访问此链接）。您可以通过选择您感兴趣的任务（例如，文本分类）来优化搜索。

任务

自然语言处理

任务	ID	描述	支持的？
填充蒙版	`fill-mask`	掩盖句子中的某些单词并预测哪些单词应该替换这些掩盖的单词。	✅ (文档) (模型)
问答	`question-answering`	从给定的文本中检索问题的答案。	✅ (文档) (模型)
句子相似度	`sentence-similarity`	确定两段文本的相似程度。	✅ (文档) (模型)
总结	`summarization`	制作文档的较短版本同时保留其重要信息。	✅ (文档) (模型)
表格问答	`table-question-answering`	回答有关给定表中的信息的问题。	❌
文本分类	`text-classification`或者`sentiment-analysis`	为给定的文本分配标签或类别。	✅ (文档) (模型)
文本生成	`text-generation`	通过预测序列中的下一个单词来生成新文本。	✅ (文档) (模型)
文本到文本生成	`text2text-generation`	将一个文本序列转换为另一个文本序列。	✅ (文档) (模型)
代币分类	`token-classification`或者`ner`	为文本中的每个标记分配一个标签。	✅ (文档) (模型)
翻译	`translation`	将文本从一种语言转换为另一种语言。	✅ (文档) (模型)
零样本分类	`zero-shot-classification`	将文本分类为训练期间未见过的类别。	✅ (文档) (模型)
特征提取	`feature-extraction`	将原始数据转换为可处理的数字特征，同时保留原始数据集中的信息。	✅ (文档) (模型)

想象

任务	ID	描述	支持的？
深度估计	`depth-estimation`	预测图像中物体的深度。	✅ (文档) (模型)
图像分类	`image-classification`	为整个图像分配标签或类别。	✅ (文档) (模型)
图像分割	`image-segmentation`	将图像划分为多个片段，每个像素映射到一个对象。此任务有多种变体，例如实例分割、全景分割和语义分割。	✅ (文档) (模型)
图像到图像	`image-to-image`	转换源图像以匹配目标图像或目标图像域的特征。	✅ (文档) (模型)
掩码生成	`mask-generation`	为图像中的对象生成蒙版。	❌
物体检测	`object-detection`	识别图像中某些已定义类别的对象。	✅ (文档) (模型)
视频分类	无	为整个视频分配标签或类别。	❌
无条件图像生成	无	在任何上下文中（例如提示文本或其他图像）生成无条件的图像。	❌
图像特征提取	`image-feature-extraction`	将原始数据转换为可处理的数字特征，同时保留原始图像中的信息。	✅ (文档) (模型)

声音的

任务	ID	描述	支持的？
音频分类	`audio-classification`	为给定的音频分配标签或类别。	✅ (文档) (模型)
音频到音频	无	从输入音频源生成音频。	❌
自动语音识别	`automatic-speech-recognition`	将给定的音频转录为文本。	✅ (文档) (模型)
文字转语音	`text-to-speech`或者`text-to-audio`	根据文本输入生成听起来自然的语音。	✅ (文档) (模型)

表格

任务	ID	描述	支持的？
表格分类	无	根据一组属性对目标类别（一个组）进行分类。	❌
表格回归	无	根据一组属性预测一个数值。	❌

多式联运

任务	ID	描述	支持的？
文档问答	`document-question-answering`	回答有关文档图像的问题。	✅ (文档) (模型)
图像转文本	`image-to-text`	从给定图像输出文本。	✅ (文档) (模型)
文本转图像	`text-to-image`	从输入文本生成图像。	❌
视觉问答	`visual-question-answering`	根据图像回答开放式问题。	❌
零样本音频分类	`zero-shot-audio-classification`	将音频分类为训练期间未见过的类别。	✅ (文档) (模型)
零样本图像分类	`zero-shot-image-classification`	将图像分类为训练期间未见过的类别。	✅ (文档) (模型)
零样本物体检测	`zero-shot-object-detection`	识别训练期间未见过的类别的对象。	✅ (文档) (模型)

强化学习

任务	ID	描述	支持的？
强化学习	无	通过反复试验与环境互动并从动作中学习并获得奖励（负面或正面）作为反馈。	✅

楷模

ALBERT（由谷歌研究院和芝加哥丰田技术学院共同研发）发布了论文《ALBERT：用于语言表征自监督学习的精简版 BERT》，作者为 Zhenzhong Lan、Mingda Chen、Sebastian Goodman、Kevin Gimpel、Piyush Sharma 和 Radu Soricut。
音频频谱图变换器（来自麻省理工学院）与袁恭、Yu-An Chung 和 James Glass 撰写的论文AST：音频频谱图变换器一起发布。
BART（来自 Facebook）发布了论文《BART：用于自然语言生成、翻译和理解的去噪序列到序列预训练》，作者是 Mike Lewis、Yinhan Liu、Naman Goyal、Marjan Ghazvininejad、Abdelrahman Mohamed、Omer Levy、Ves Stoyanov 和 Luke Zettlemoyer。
微软的BEiT发布了由鲍航波、董立、魏福如撰写的论文《BEiT：图像变换器的 BERT 预训练》。
BERT（来自谷歌）与论文《BERT：用于语言理解的深度双向变压器的预训练》一起发布，论文作者是 Jacob Devlin、Ming-Wei Chang、Kenton Lee 和 Kristina Toutanova。
Blenderbot（来自 Facebook）发布了由 Stephen Roller、Emily Dinan、Naman Goyal、Da Ju、Mary Williamson、Yinhan Liu、Jing Xu、Myle Ott、Kurt Shuster、Eric M. Smith、Y-Lan Boureau 和 Jason Weston 撰写的论文《构建开放域聊天机器人的秘诀》。
BlenderbotSmall（来自 Facebook）发布了由 Stephen Roller、Emily Dinan、Naman Goyal、Da Ju、Mary Williamson、Yinhan Liu、Jing Xu、Myle Ott、Kurt Shuster、Eric M. Smith、Y-Lan Boureau 和 Jason Weston 撰写的论文《构建开放域聊天机器人的秘诀》。
BLOOM（来自BigScience workshop）由BigScience Workshop发布。
CamemBERT（来自 Inria/Facebook/Sorbonne）与论文《CamemBERT：美味的法语语言模型》一起发布，作者：Louis Martin*、Benjamin Muller*、Pedro Javier Ortiz Suárez*、Yoann Dupont、Laurent Romary、Éric Villemonte de la Clergerie、Djamé Seddah 和伯努瓦·萨戈特。
Chinese-CLIP（来自 OFA-Sys）与论文《Chinese CLIP：中文对比视觉语言预训练》一起发布，论文作者为 An Yang、Junshu Pan、Junyang Lin、Rui Men、Yichang Zhang、Jingren Zhou、Chang Zhou。
CLAP（来自 LAION-AI）与论文《大规模对比语言音频预训练与特征融合和关键词到字幕增强》一起发布，论文作者为 Yusong Wu、Ke Chen、Tianyu Zhang、Yuchen Hui、Taylor Berg-Kirkpatrick 和 Shlomo Dubnov。
CLIP（来自 OpenAI）与论文《从自然语言监督中学习可转移视觉模型》一起发布，论文作者是 Alec Radford、Jong Wook Kim、Chris Hallacy、Aditya Ramesh、Gabriel Goh、Sandhini Agarwal、Girish Sastry、Amanda Askell、Pamela Mishkin、Jack Clark、Gretchen Krueger 和 Ilya Sutskever。
CLIPSeg （来自哥廷根大学）发布了由 Timo Lüddecke 和 Alexander Ecker 撰写的《使用文本和图像提示进行图像分割》论文
CodeGen （来自 Salesforce）与Erik Nijkamp、Bo Pang、Hiroaki Hayashi、Lifu Tu、Huan Wang、Yingbo Zhou、Silvio Savarese 和 Caiming Xiong 撰写的论文《程序合成的对话范式》一起发布。
CodeLlama（来自 MetaAI）与论文《Code Llama：Open Foundation Models for Code》一起发布，作者：Baptiste Rozière、Jonas Gehring、Fabian Gloeckle、Sten Sootla、Itai Gat、Xiaoqing Ellen Tan、Yossi Adi、Jingyu Liu、Tal Remez、Jérémy Rapin、Artyomy Kozhevnikov、Ivan Evtimov、Joanna Bitton、Manish Bhatt、Cristian Canton Ferrer、Aaron Grattafiori、Wenhan Xiong、Alexandre Défossez、Jade Copet、Faisal Azhar、Hugo Touvron、Louis Martin、Nicolas Usunier、Thomas Scialom、Gabriel Synnaeve。
ConvBERT（来自依图科技）发布了论文《ConvBERT：通过基于 Span 的动态卷积改进 BERT》，作者为蒋子航、余伟浩、周大全、陈云鹏、冯嘉诗、闫水成。
ConvNeXT （来自 Facebook AI）与刘庄、毛涵子、吴朝元、Christoph Feichtenhofer、Trevor Darrell 和谢赛宁撰写的论文《面向 2020 年代的 ConvNet》一起发布。
ConvNeXTV2（来自 Facebook AI）与论文ConvNeXt V2：使用 Masked Autoencoders 共同设计和扩展 ConvNets（作者：Sanghyun Woo、Shoubhik Debnath、Ronghang Hu、Xinlei Chen、Zhuang Liu、In So Kweon 和 Saining Xie）一同发布。
DeBERTa （来自微软）发布了由何鹏程、刘晓东、高建峰、陈伟柱撰写的论文《 DeBERTa：基于解缠注意力机制的增强型 BERT 解码》。
DeBERTa-v2（来自微软）与论文《DeBERTa：具有解缠注意力机制的增强型 BERT 解码》一起发布，论文作者是何鹏程、刘晓东、高建峰、陈伟柱。
Decision Transformer（来自伯克利/Facebook/Google）与论文《决策变压器：通过序列建模进行强化学习》一起发布，论文作者是 Lili Chen、Kevin Lu、Aravind Rajeswaran、Kimin Lee、Aditya Grover、Michael Laskin、Pieter Abbeel、Aravind Srinivas 和 Igor Mordatch。
DeiT （来自 Facebook）发布了由 Hugo Touvron、Matthieu Cord、Matthijs Douze、Francisco Massa、Alexandre Sablayrolles 和 Hervé Jégou 撰写的论文《通过注意力训练数据高效的图像变换器和提炼》。
Depth Anything（由香港大学和 TikTok 共同发起）与论文《 Depth Anything：释放大规模未标记数据的力量》一同发布，论文作者是杨立和、康秉义、黄子龙、徐晓刚、冯嘉诗、赵恒爽。
DETR （来自 Facebook）发布了由 Nicolas Carion、Francisco Massa、Gabriel Synnaeve、Nicolas Usunier、Alexander Kirillov 和 Sergey Zagoruyko 撰写的论文《使用 Transformers 进行端到端对象检测》。
DINOv2（来自 Meta AI）与论文《DINOv2：无需监督学习稳健的视觉特征》一起发布，作者包括 Maxime Oquab、Timothée Darcet、Théo Moutakanni、Huy Vo、Marc Szafraniec、Vasil Khalidov、Pierre Fernandez、Daniel Haziza、Francisco Massa、Alaaeldin El-Nouby、Mahmoud Assran、Nicolas Ballas、Wojciech Galuba、Russell Howes、Po-Yao Huang、Shang-Wen Li、Ishan Misra、Michael Rabbat、Vasu Sharma、Gabriel Synnaeve、Hu Xu、Hervé Jegou、Julien Mairal、Patrick Labatut、Armand Joulin 和 Piotr Bojanowski。
DistilBERT（来自 HuggingFace），与论文DistilBERT 一起发布，这是 BERT 的精简版：更小、更快、更便宜、更轻量，由 Victor Sanh、Lysandre Debut 和 Thomas Wolf 撰写。同样的方法已被用于将 GPT2 压缩为DistilGPT2，将 RoBERTa 压缩为DistilRoBERTa，将 Multilingual BERT 压缩为DistilmBERT以及 DistilBERT 的德语版本。
DiT（来自微软研究院）发布了论文《DiT：文档图像转换器的自监督预训练》，作者为 Junlong Li、Yiheng Xu、Tengcha Lv、Lei Cui、Cha Zhang 和 Furu Wei。
Donut（来自 NAVER），与Geewook Kim、Teakgyu Hong、Moonbin Yim、Jeongyeon Nam、Jinyoung Park、Jinyeong Yim、Wonseok Hwang、Sangdoo Yun、Dongyoon Han 和 Seunghyun Park 的论文《无 OCR 文档理解转换器》一起发布。
DPT （来自英特尔实验室）发布了由 René Ranftl、Alexey Bochkovskiy 和 Vladlen Koltun 撰写的论文《 Vision Transformers for Dense Prediction》。
EfficientNet （来自 Google Brain）与Mingxing Tan、Quoc V. Le 的论文《EfficientNet：重新思考卷积神经网络的模型缩放》一起发布。
ELECTRA（来自谷歌研究院/斯坦福大学）发布了论文《ELECTRA：预训练文本编码器作为鉴别器而非生成器》，作者为 Kevin Clark、Minh-Thang Luong、Quoc V. Le、Christopher D. Manning。
ESM（来自 Meta AI）是转换蛋白质语言模型。ESM -1b与论文《生物结构和功能从无监督学习扩展到 2.5 亿个蛋白质序列中浮现》一起发布，论文作者是 Alexander Rives、Joshua Meier、Tom Sercu、Siddharth Goyal、Zeming Lin、Jason Liu、Demi Guo、Myle Ott、C. Lawrence Zitnick、Jerry Ma 和 Rob Fergus。ESM -1v与论文《语言模型能够实现突变对蛋白质功能影响的零样本预测》一起发布，论文作者是 Joshua Meier、Roshan Rao、Robert Verkuil、Jason Liu、Tom Sercu 和 Alexander Rives。ESM -2 和 ESMFold与论文《进化规模的蛋白质序列语言模型能够实现准确的结构预测》一起发布，论文作者是 Zeming Lin、Halil Akin、Roshan Rao、Brian Hie、Zhongkai Zhu、Wenting Lu、Allan dos Santos Costa、Maryam Fazel-Zarandi、Tom Sercu、Sal Candido 和 Alexander Rives。
Falcon（来自技术创新研究所），作者：Almazrouei、Ebtesam 和 Alobeidli、Hamza 和 Alshamsi、Abdulaziz 和 Cappelli、Alessandro 和 Cojocaru、Ruxandra 和 Debbah、Merouane 和 Goffinet、Etienne 和 Heslow、Daniel 和 Launay、Julien 和 Malartic、Quentin 和 Noune、Badreddine 和 Pannier、Baptiste 以及 Penedo、Guilherme。
FastViT（来自 Apple）发布了论文《FastViT：一种使用结构重参数化的快速混合视觉变换器》，作者是 Pavan Kumar Anasosalu Vasu、James Gabriel、Jeff Zhu、Oncel Tuzel 和 Anurag Ranjan。
FLAN-T5（来自 Google AI）由 Hyung Won Chung、Le Hou、Shayne Longpre、Barret Zoph、Yi Tay、William Fedus、Eric Li、Xuezhi Wang、Mostafa Dehghani、Siddhartha Brahma、Albert Webson、Shixiang Shane Gu、Zhuyun Dai、Mirac Suzgun、Xinyun Chen、Aakanksha Chowdhery、Sharan Narang、Gaurav Mishra、Adams Yu、Vincent Zhao、Yanping Huang、Andrew Dai、Hongkun Yu、Slav Petrov、Ed H. Chi、Jeff Dean、Jacob Devlin、Adam Roberts、Denny Zhou、Quoc V. Le 和 Jason Wei 在存储库 google-research/t5x 中发布
GLPN （来自 KAIST）发布了由 Doyeon Kim、Woonghyun Ga、Pyungwhan Ahn、Donggyu Joo、Sehwan Chun 和 Junmo Kim 撰写的论文《使用垂直切割深度进行单目深度估计的全局局部路径网络》。
GPT Neo （来自 EleutherAI）由 Sid Black、Stella Biderman、Leo Gao、Phil Wang 和 Connor Leahy在存储库EleutherAI/gpt-neo中发布。
GPT NeoX（来自 EleutherAI）与论文《GPT-NeoX-20B：一种开源自回归语言模型》一同发布，论文作者为 Sid Black、Stella Biderman、Eric Hallahan、Quentin Anthony、Leo Gao、Laurence Golding、Horace He、Connor Leahy、Kyle McDonell、Jason Phang、Michael Pieler、USVSN Sai Prashanth、Shivanshu Purohit、Laria Reynolds、Jonathan Tow、Ben Wang 和 Samuel Weinbach
GPT-2（来自 OpenAI）与论文《语言模型是无监督的多任务学习者》一起发布，论文作者是 Alec Radford*、Jeffrey Wu*、Rewon Child、David Luan、Dario Amodei** 和 Ilya Sutskever**。
GPT-J （来自 EleutherAI）由 Ben Wang 和 Aran Komatsuzaki在存储库kingoflolz/mesh-transformer-jax中发布。
GPTBigCode（来自BigCode）随论文《SantaCoder：不要伸手去抓星星！》发布作者：Loubna Ben Allal、Raymond Li、Denis Kocetkov、Chenghao Mou、Christopher Akiki、Carlos Munoz Ferrandis、Niklas Muennighoff、Mayank Mishra、Alex Gu、Manan Dey、Logesh Kumar Umapathi、Carolyn Jane Anderson、Yangtian Zi、Joel Lamy Poirier、Hailey Schoelkopf、Sergey Troshin、Dmitry Abulkhanov、Manuel Romero、Michael Lappert、Francesco De Toni、Bernardo García del Río、Qian Liu、Shamik Bose、Urvashi Bhattacharyya、Terry Yue Zhuo、Ian Yu、Paulo Villegas、Marco Zocca、Sourab Mangrulkar、David Lansky、Huu Nguyen、Danish Contractor、Luis Villa、Jia Li、Dzmitry Bahdanau、Yacine Jernite、Sean Hughes、Daniel Fried、Arjun Guha、Harm de弗里斯，莱安德罗·冯·维拉。
HerBERT（来自 AGH 科技大学 Allegro.pl）与Piotr Rybak、Robert Mroczkowski、Janusz Tracz、Ireneusz Gawlik 的论文KLEJ：波兰语语言理解综合基准一起发布。
Hubert（来自 Facebook）发布了论文《HuBERT：通过隐藏单元的蒙版预测进行自监督语音表征学习》，作者为 Wei-Ning Hsu、Benjamin Bolte、Yao-Hung Hubert Tsai、Kushal Lakhotia、Ruslan Salakhutdinov 和 Abdelrahman Mohamed。
LongT5（来自 Google AI）与论文《 LongT5：用于长序列的高效文本到文本转换器》一起发布，论文作者为 Mandy Guo、Joshua Ainslie、David Uthus、Santiago Ontanon、Jianmo Ni、Yun-Hsuan Sung、Yinfei Yang。
LLaMA（来自 Meta AI 的 FAIR 团队）发布了论文《LLaMA：开放高效的基础语言模型》，作者包括 Hugo Touvron、Thibaut Lavril、Gautier Izacard、Xavier Martinet、Marie-Anne Lachaux、Timothée Lacroix、Baptiste Rozière、Naman Goyal、Eric Hambro、Faisal Azhar、Aurelien Rodriguez、Armand Joulin、Edouard Grave 和 Guillaume Lample。
Llama2（来自 Meta AI 的 FAIR 团队）发布了论文《Llama2：开放基础和微调聊天模型》，作者包括 Hugo Touvron、Louis Martin、Kevin Stone、Peter Albert、Amjad Almahairi、Yasmine Babaei、Nikolay Bashlykov、Soumya Batra、Prajjwal Bhargava、Shruti Bhosale、Dan Bikel、Lukas Blecher、Cristian Canton Ferrer、Moya Chen、Guillem Cucurull、David Esiobu、Jude Fernandes、Jeremy Fu、Wenyin Fu、Brian Fuller、Cynthia Gao、Vedanuj Goswami、Naman Goyal、Anthony Hartshorn、Saghar Hosseini、Rui Hou、Hakan Inan、Marcin Kardas、Viktor Kerkez Madian Khabsa、Isabel Kloumann、Artem Korenev、Punit Singh Koura、Marie-Anne Lachaux， Thibaut Lavril、Jenya Lee、Diana Liskovich、Yinghai Lu、Yuning Mao、Xavier Martinet、Todor Mihaylov、Pushka rMishra、Igor Molybog、Yixin Nie、Andrew Poulton、Jeremy Reizenstein、Rashi Rungta、Kalyan Saladi、Alan Schelten、Ruan Silva、Eric Michael Smith、Ranjan Subramanian、Xiaoqing EllenTan、Binh Tang、Ross Taylor、Adina Williams、Jian Xiang Kuan、Puxin Xu、Zheng Yan、Iliyan Zarov、Yuchen Zhang、Angela Fan、Melanie Kambadur、Sharan Narang、Aurelien Rodriguez、Robert Stojnic、Sergey Edunov、Thomas Scialom。
M2M100（来自 Facebook）发布了论文《超越以英语为中心的多语言机器翻译》，作者是 Angela Fan、Shruti Bhosale、Holger Schwenk、Zhiyi Ma、Ahmed El-Kishky、Siddharth Goyal、Mandeep Baines、Onur Celebi、Guillaume Wenzek、Vishrav Chaudhary、Naman Goyal、Tom Birch、Vitaliy Liptchinsky、Sergey Edunov、Edouard Grave、Michael Auli 和 Armand Joulin。
MarianMT机器翻译模型由 Jörg Tiedemann使用OPUS数据进行训练。Marian 框架由 Microsoft Translator 团队开发。
mBART （来自 Facebook）发布了由 Yinhan Liu、Jiatao Gu、Naman Goyal、Xian Li、Sergey Edunov、Marjan Ghazvininejad、Mike Lewis 和 Luke Zettlemoyer 撰写的论文《神经机器翻译的多语言去噪预训练》。
mBART-50（来自 Facebook）与 Yuqing Tang、Chau Tran、Xian Li、Peng-Jen Chen、Naman Goyal、Vishrav Chaudhary、Jiatao Gu 和 Angela Fan 撰写的论文《具有可扩展多语言预训练和微调的多语言翻译》一起发布。
Mistral（来自 Mistral AI），作者： Mistral AI团队：Albert Jiang、Alexandre Sablayrolles、Arthur Mensch、Chris Bamford、Devendra Singh Chaplot、Diego de las Casas、Florian Bressand、Gianna Lengyel、Guillaume Lample、Lélio Renard Lavaud、Lucile Saulnier、Marie -Anne Lachaux、Pierre Stock、Teven Le Scao、Thibaut Lavril、Thomas Wang、Timothée Lacroix、William El Sayed。
MMS（来自 Facebook）发布了论文《将语音技术扩展到 1,000 多种语言》，作者包括 Vineel Pratap、Andros Tjandra、Bowen Shi、Paden Tomasello、Arun Babu、Sayani Kundu、Ali Elkahky、Zhaoheng Ni、Apoorv Vyas、Maryam Fazel-Zarandi、Alexei Baevski、Yossi Adi、Xiaohui Zhang、Wei-Ning Hsu、Alexis Conneau 和 Michael Auli。
MobileBERT（来自 CMU/Google Brain）与论文《 MobileBERT：适用于资源受限设备的紧凑型任务无关 BERT》一起发布，论文作者为孙志清、余宏坤、宋晓丹、刘仁杰、杨一鸣和周丹尼。
MobileViT （来自 Apple）发布了由 Sachin Mehta 和 Mohammad Rastegari 撰写的论文《MobileViT：轻量级、通用且适合移动设备的视觉转换器》。
MobileViTV2 （来自 Apple）与Sachin Mehta 和 Mohammad Rastegari 的论文《移动视觉变换器的可分离自注意力》一起发布。
MPNet（来自微软研究院）发布了论文《MPNet：用于语言理解的掩码和排列预训练》，作者为宋凯涛、谭旭、秦涛、陆建峰、刘铁岩。
MPT （来自 MosaiML）由 MosaicML NLP 团队与存储库llm-foundry一起发布。
MT5（来自 Google AI）与论文《 mT5：一种大规模多语言预训练文本到文本转换器》一同发布，该论文由 Linting Xue、Noah Constant、Adam Roberts、Mihir Kale、Rami Al-Rfou、Aditya Siddhant、Aditya Barua 和 Colin Raffel 撰写。
NLLB （来自 Meta）与NLLB 团队的论文《不让任何语言掉队：扩展以人为本的机器翻译》一起发布。
Nougat（来自 Meta AI）与论文《Nougat：学术文献的神经光学理解》一起发布，论文作者是 Lukas Blecher、Guillem Cucurull、Thomas Scialom 和 Robert Stojnic。
OPT（来自 Meta AI）与论文由 Susan Zhang、Stephen Roller、Naman Goyal、Mikel Artetxe、Moya Chen、Shuohui Chen 等人撰写的开放预训练 Transformer 语言模型一起发布。
OWL-ViT（来自 Google AI）发布了论文《使用 Vision Transformers 的简单开放词汇对象检测》，作者包括 Matthias Minderer、Alexey Gritsenko、Austin Stone、Maxim Neumann、Dirk Weissenborn、Alexey Dosovitskiy、Aravindh Mahendran、Anurag Arnab、Mostafa Dehghani、Zhuoran Shen、Xiao Wang、Xiaohua Zhai、Thomas Kipf 和 Neil Houlsby。
OWLv2 （来自 Google AI）与Matthias Minderer、Alexey Gritsenko 和 Neil Houlsby 的论文《 Scaling Open-Vocabulary Object Detection》一起发布。
Phi（来自微软）与论文一起发布 -教科书就是你所需要的，作者：Suriya Gunasekar、Yi Zhang、Jyoti Aneja、Caio César Teodoro Mendes、Allie Del Giorno、Sivakanth Gopi、Mojan Javaheripi、Piero Kauffmann、Gustavo de Rosa、Olli Saarikivi、 Adil Salim、Shital Shah、Harkirat Singh Behl、Xin Wang、Sébastien Bubeck、Ronen Eldan、Adam Tauman Kalai、Yin Tat Lee 和 Yuanzhi Li，教科书就是您所需要的 II：phi-1.5 技术报告，作者：Yuanzhi Li、Sébastien Bubeck、Ronen埃尔丹、艾莉·德尔乔诺、苏里亚·古纳塞卡和尹达·李。
Qwen2 (from the Qwen team, Alibaba Group) released with the paper Qwen Technical Report by Jinze Bai, Shuai Bai, Yunfei Chu, Zeyu Cui, Kai Dang, Xiaodong Deng, Yang Fan, Wenbin Ge, Yu Han, Fei Huang, Binyuan Hui, Luo Ji, Mei Li, Junyang Lin, Runji Lin, Dayiheng Liu, Gao Liu, Chengqiang Lu, Keming Lu, Jianxin Ma, Rui Men, Xingzhang Ren, Xuancheng Ren, Chuanqi Tan, Sinan Tan, Jianhong Tu, Peng Wang, Shijie Wang, Wei Wang, Shengguang Wu, Benfeng Xu, Jin Xu, An Yang, Hao Yang, Jian Yang, Shusheng Yang, Yang Yao, Bowen Yu, Hongyi Yuan, Zheng Yuan, Jianwei Zhang, Xingxuan Zhang, Yichang Zhang, Zhenru Zhang, Chang Zhou, Jingren Zhou, Xiaohuan Zhou and Tianhang Zhu.
ResNet （来自微软研究院）与何凯明、张翔宇、任少卿、孙健的论文《用于图像识别的深度残差学习》一起发布。
RoBERTa（来自 Facebook），与 Yinhan Liu、Myle Ott、Naman Goyal、Jingfei Du、Mandar Joshi、Danqi Chen、Omer Levy、Mike Lewis、Luke Zettlemoyer 和 Veselin Stoyanov 的论文《 RoBERTa：一种稳健优化的 BERT 预训练方法》一起发布。
RoFormer （来自ZhuiyiTechnology），与Jianlin Su和Yu Lu以及Shengfeng Pan和Bo Wen和Yunfeng Liu的论文RoFormer: Enhanced Transformer with Rotary Position Embedding一起发布。
SegFormer（来自 NVIDIA）与论文《SegFormer：使用 Transformers 进行语义分割的简单高效设计》一起发布，论文作者为 Enze Xie、Wenhai Wang、Zhiding Yu、Anima Anandkumar、Jose M. Alvarez 和 Ping Luo。
Segment Anything（来自 Meta AI）与 Alexander Kirillov、Eric Mintun、Nikhila Ravi、Hanzi Mao、Chloe Rolland、Laura Gustafson、Tete Xiao、Spencer Whitehead、Alex Berg、Wan-Yen Lo、Piotr Dollar 和 Ross Girshick 撰写的论文Segment Anything一起发布。
SigLIP （来自 Google AI）与Xiaohua Zhai、Basil Mustafa、Alexander Kolesnikov 和 Lucas Beyer 的论文《用于语言图像预训练的 Sigmoid Loss》一起发布。
SpeechT5 (from Microsoft Research) released with the paper SpeechT5: Unified-Modal Encoder-Decoder Pre-Training for Spoken Language Processing by Junyi Ao, Rui Wang, Long Zhou, Chengyi Wang, Shuo Ren, Yu Wu, Shujie Liu, Tom Ko, Qing Li, Yu Zhang, Zhihua Wei, Yao Qian, Jinyu Li, Furu Wei.
SqueezeBERT（来自伯克利）发布了论文《SqueezeBERT：计算机视觉能教给 NLP 什么关于高效神经网络的知识？》，作者是 Forrest N. Iandola、Albert E. Shaw、Ravi Krishna 和 Kurt W. Keutzer。
StableLm（来自 Stability AI）与论文StableLM 3B 4E1T（技术报告）一起发布，论文作者是 Jonathan Tow、Marco Bellagente、Dakota Mahan、Carlos Riquelme Ruiz、Duy Phung、Maksym Zhuravinskyi、Nathan Cooper、Nikhil Pinnaparaju、Reshinth Adithyan 和 James Baicoianu。
Starcoder2（来自 BigCode 团队）与论文《StarCoder 2 和 The Stack v2：下一代》一起发布，作者有 Anton Lozhkov、Raymond Li、Loubna Ben Allal、Federico Cassano、Joel Lamy-Poirier、Nouamane Tazi、Ao Tang、Dmytro Pykhtar、Jiawei Liu、Yuxiang Wei、Tianyang Liu、Max Tian、Denis Kocetkov、Arthur Zucker、Younes Belkada、Zijian Wang、Qian Liu、Dmitry Abulkhanov、Indraneil Paul、Zhuang Li、Wen-Ding Li、Megan Risdal、Jia Li、Jian Zhu、Terry Yue Zhuo、Evgenii Zheltonozhskii、Nii Osae Osae Dade、Wenhao Yu、Lucas Krauß、Naman Jain、Yixuan Su、Xuanli He、Manan Dey、Edoardo Abati、Yekun Chai、Niklas Muennighoff、Xianru Tang， Muhtasham Oblokulov、Christopher Akiki、Marc Marone、Chenghao Mou、Mayank Mishra、Alex Gu、Binyuan Hui、Tri Dao、Armel Zebaze、Olivier Dehaene、Nicolas Patry、Canwen Xu、Julian McAuley、Han Hu、Torsten Scholak、Sebastien Paquet、Jennifer Robinson、Carolyn Jane Anderson、Nicolas Chapados、Mostofa Patwary、Nima Tajbakhsh、Yacine Jernite、Carlos Muñoz Ferrandis、Lingming Zhang、Sean Hughes、Thomas Wolf、Arjun Guha、Leandro von Werra 和 Harm de Vries。
Swin Transformer （来自微软）与Ze Liu、Yutong Lin、Yue Cao、Han Hu、Yixuan Wei、Zheng Zhang、Stephen Lin 和 Baining Guo 撰写的论文《Swin Transformer：使用移位窗口的分层视觉变换器》一起发布。
Swin2SR （来自维尔茨堡大学）发布了由 Marcos V. Conde、Ui-Jin Choi、Maxime Burchi 和 Radu Timofte 撰写的论文《 Swin2SR：用于压缩图像超分辨率和恢复的 SwinV2 Transformer》。
T5（来自 Google AI）发布了论文《使用统一文本到文本转换器探索迁移学习的极限》，该论文由 Colin Raffel 和 Noam Shazeer 和 Adam Roberts 和 Katherine Lee 和 Sharan Narang 和 Michael Matena 和 Yanqi Zhou 和 Wei Li 以及 Peter J. Liu 撰写。
T5v1.1（来自 Google AI）由 Colin Raffel 和 Noam Shazeer 和 Adam Roberts 和 Katherine Lee 和 Sharan Narang 和 Michael Matena 和 Yanqi Zhou 和 Wei Li 和 Peter J. Liu 在存储库google-research/text-to-text-transfer-transformer中发布。
Table Transformer（来自微软研究院）与Brandon Smock、Rohith Pesala 和 Robin Abraham 撰写的论文《PubTables-1M：从非结构化文档中进行全面表格提取》一起发布。
TrOCR （来自微软），与Minghao Li、Tengchao Lv、Lei Cui、Yijuan Lu、Dinei Florencio、Cha Zhang、Zhoujun Li 和 Furu Wei 撰写的论文《TrOCR：基于 Transformer 的预训练模型光学字符识别》一起发布。
UniSpeech（来自微软研究院）发布了论文《UniSpeech：使用标记和未标记数据的统一语音表示学习》，作者是王成义、吴宇、钱瑶、Kenichi Kumatani、刘淑杰、魏福如、曾迈克尔、黄学东。
UniSpeechSat (from Microsoft Research) released with the paper UNISPEECH-SAT: UNIVERSAL SPEECH REPRESENTATION LEARNING WITH SPEAKER AWARE PRE-TRAINING by Sanyuan Chen, Yu Wu, Chengyi Wang, Zhengyang Chen, Zhuo Chen, Shujie Liu, Jian Wu, Yao Qian, Furu Wei, Jinyu Li, Xiangzhan Yu.
Vision Transformer (ViT)（来自 Google AI）与论文《一张图像价值 16x16 个单词：用于大规模图像识别的 Transformers》一起发布，论文作者包括 Alexey Dosovitskiy、Lucas Beyer、Alexander Kolesnikov、Dirk Weissenborn、Xiaohua Zhai、Thomas Unterthiner、Mostafa Dehghani、Matthias Minderer、Georg Heigold、Sylvain Gelly、Jakob Uszkoreit 和 Neil Houlsby。
ViTMatte（来自 HUST-VL）与论文ViTMatte：使用预训练的平面视觉变换器增强图像抠图（作者：姚景峰、王兴刚、杨树胜、王宝元）一同发布。
VITS （来自 Kakao Enterprise）发布了由 Jaehyeon Kim、Jungil Kong 和 Juhee Son 撰写的论文《具有对抗性学习的条件变分自动编码器用于端到端文本到语音》。
Wav2Vec2（来自 Facebook AI）与论文wav2vec 2.0：语音表征自监督学习框架（作者：Alexei Baevski、Henry Zhou、Abdelrahman Mohamed 和 Michael Auli）一同发布。
Wav2Vec2-BERT （来自 Meta AI）与Seamless Communication 团队的论文《Seamless：多语言表达和流式语音翻译》一起发布。
WavLM (from Microsoft Research) released with the paper WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing by Sanyuan Chen, Chengyi Wang, Zhengyang Chen, Yu Wu, Shujie Liu, Zhuo Chen, Jinyu Li, Naoyuki Kanda, Takuya Yoshioka, Xiong Xiao, Jian Wu, Long Zhou, Shuo Ren, Yanmin Qian, Yao Qian, Jian Wu, Michael Zeng, Furu Wei.
Whisper （来自 OpenAI）与Alec Radford、Jong Wook Kim、Tao Xu、Greg Brockman、Christine McLeavey 和 Ilya Sutskever 撰写的论文《通过大规模弱监督进行稳健语音识别》一起发布。
XLM （来自 Facebook）与Guillaume Lample 和 Alexis Conneau 的论文《跨语言语言模型预训练》一起发布。
XLM-RoBERTa（来自 Facebook AI），与 Alexis Conneau*、Kartikay Khandelwal*、Naman Goyal、Vishrav Chaudhary、Guillaume Wenzek、Francisco Guzmán、Edouard Grave、Myle Ott、Luke Zettlemoyer 和 Veselin Stoyanov 的论文《大规模无监督跨语言表征学习》一起发布。
YOLOS（来自华中科技大学）发布了论文《你只需要看一个序列：通过物体检测重新思考 Transformer 在视觉中的应用》，作者是方宇欣、廖本成、王兴刚、方杰敏、齐继阳、吴睿、牛建伟、刘文宇。

Name		Name	Last commit message	Last commit date
Latest commit History 1,083 Commits
.github		.github
docs		docs
examples		examples
scripts		scripts
src		src
tests		tests
.gitattributes		.gitattributes
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
jest.config.mjs		jest.config.mjs
jsconfig.json		jsconfig.json
package-lock.json		package-lock.json
package.json		package.json
webpack.config.js		webpack.config.js

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

快速浏览

安装

例子

自定义用法

设置

将您的模型转换为 ONNX

支持的任务/模型

任务

自然语言处理

想象

声音的

表格

多式联运

强化学习

楷模

About

Releases

Packages

Languages

License

yuanzhongqiao/transformers.js

Folders and files

Latest commit

History

Repository files navigation

快速浏览

安装

例子

自定义用法

设置

将您的模型转换为 ONNX

支持的任务/模型

任务

自然语言处理

想象

声音的

表格

多式联运

强化学习

楷模

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages