pytorch
diff --git a/‎CMakeLists.txt
Lines changed: 11 additions & 2 deletions b/‎CMakeLists.txt
Lines changed: 11 additions & 2 deletions
diff --git a/‎README.rst
Lines changed: 4 additions & 0 deletions b/‎README.rst
Lines changed: 4 additions & 0 deletions
diff --git a/‎cmake/TorchVisionConfig.cmake.in
Lines changed: 4 additions & 2 deletions b/‎cmake/TorchVisionConfig.cmake.in
Lines changed: 4 additions & 2 deletions
diff --git a/‎docs/source/datasets.rst
Lines changed: 3 additions & 0 deletions b/‎docs/source/datasets.rst
Lines changed: 3 additions & 0 deletions
diff --git a/‎docs/source/models.rst
Lines changed: 28 additions & 0 deletions b/‎docs/source/models.rst
Lines changed: 28 additions & 0 deletions
diff --git a/‎examples/cpp/hello_world/CMakeLists.txt
Lines changed: 4 additions & 0 deletions b/‎examples/cpp/hello_world/CMakeLists.txt
Lines changed: 4 additions & 0 deletions
diff --git a/‎hubconf.py
Lines changed: 7 additions & 3 deletions b/‎hubconf.py
Lines changed: 7 additions & 3 deletions
diff --git a/‎setup.py
Lines changed: 4 additions & 1 deletion b/‎setup.py
Lines changed: 4 additions & 1 deletion
diff --git a/‎test/expect/ModelTester.test_regnet_y_128gf_expect.pkl
939 Bytes b/‎test/expect/ModelTester.test_regnet_y_128gf_expect.pkl
939 Bytes
diff --git a/‎test/test_datasets.py
Lines changed: 114 additions & 0 deletions b/‎test/test_datasets.py
Lines changed: 114 additions & 0 deletions
@@ -4,6 +4,7 @@ set(CMAKE_CXX_STANDARD 14)
 file(STRINGS version.txt TORCHVISION_VERSION)
 
 option(WITH_CUDA "Enable CUDA support" OFF)
+option(USE_PYTHON "Link to Python when building" OFF)
 
 if(WITH_CUDA)
   enable_language(CUDA)
@@ -17,7 +18,10 @@ if(WITH_CUDA)
   endif()
 endif()
 
-find_package(Python3 COMPONENTS Development)
+if (USE_PYTHON)
+  add_definitions(-DUSE_PYTHON)
+  find_package(Python3 REQUIRED COMPONENTS Development)
+endif()
 
 find_package(Torch REQUIRED)
 find_package(PNG REQUIRED)
@@ -76,7 +80,12 @@ FOREACH(DIR ${ALLOW_LISTED})
 ENDFOREACH()
 
 add_library(${PROJECT_NAME} SHARED ${ALL_SOURCES})
-target_link_libraries(${PROJECT_NAME} PRIVATE ${TORCH_LIBRARIES} ${PNG_LIBRARY} ${JPEG_LIBRARIES} Python3::Python)
+target_link_libraries(${PROJECT_NAME} PRIVATE ${TORCH_LIBRARIES} ${PNG_LIBRARY} ${JPEG_LIBRARIES})
+
+if (USE_PYTHON)
+  target_link_libraries(${PROJECT_NAME} PRIVATE Python3::Python)
+endif()
+
 set_target_properties(${PROJECT_NAME} PROPERTIES
   EXPORT_NAME TorchVision
   INSTALL_RPATH ${TORCH_INSTALL_PREFIX}/lib)
 
@@ -157,6 +157,10 @@ so make sure that it is also available to cmake via the ``CMAKE_PREFIX_PATH``.
 
 For an example setup, take a look at ``examples/cpp/hello_world``.
 
+Python linking is disabled by default when compiling TorchVision with CMake, this allows you to run models without any Python 
+dependency. In some special cases where TorchVision's operators are used from Python code, you may need to link to Python. This 
+can be done by passing ``-DUSE_PYTHON=on`` to CMake.
+
 TorchVision Operators
 ---------------------
 In order to get the torchvision operators registered with torch (eg. for the JIT), all you need to do is to ensure that you
 
@@ -28,8 +28,10 @@ include("${CMAKE_CURRENT_LIST_DIR}/${PN}Targets.cmake")
 if(NOT TARGET torch_library)
 find_package(Torch REQUIRED)
 endif()
-if(NOT TARGET Python3::Python)
-find_package(Python3 COMPONENTS Development)
+if (@USE_PYTHON@)
+  if(NOT TARGET Python3::Python)
+    find_package(Python3 COMPONENTS Development)
+  endif()
 endif()
 
 set_target_properties(TorchVision::TorchVision PROPERTIES INTERFACE_INCLUDE_DIRECTORIES "${${PN}_INCLUDE_DIR}" INTERFACE_LINK_LIBRARIES "torch;Python3::Python" )
 
@@ -38,16 +38,19 @@ You can also create your own datasets using the provided :ref:`base classes <bas
     Cityscapes
     CocoCaptions
     CocoDetection
+    Country211
     DTD
     EMNIST
     FakeData
     FashionMNIST
     FER2013
     Flickr8k
     Flickr30k
+    Flowers102
     FlyingChairs
     FlyingThings3D
     Food101
+    FGVCAircraft
     GTSRB
     HD1K
     HMDB51
 
@@ -40,6 +40,7 @@ architectures for image classification:
 -  `MNASNet`_
 -  `EfficientNet`_
 -  `RegNet`_
+-  `VisionTransformer`_
 
 You can construct a model with random weights by calling its constructor:
 
@@ -75,13 +76,18 @@ You can construct a model with random weights by calling its constructor:
     regnet_y_8gf = models.regnet_y_8gf()
     regnet_y_16gf = models.regnet_y_16gf()
     regnet_y_32gf = models.regnet_y_32gf()
+    regnet_y_128gf = models.regnet_y_128gf()
     regnet_x_400mf = models.regnet_x_400mf()
     regnet_x_800mf = models.regnet_x_800mf()
     regnet_x_1_6gf = models.regnet_x_1_6gf()
     regnet_x_3_2gf = models.regnet_x_3_2gf()
     regnet_x_8gf = models.regnet_x_8gf()
     regnet_x_16gf = models.regnet_x_16gf()
     regnet_x_32gf = models.regnet_x_32gf()
+    vit_b_16 = models.vit_b_16()
+    vit_b_32 = models.vit_b_32()
+    vit_l_16 = models.vit_l_16()
+    vit_l_32 = models.vit_l_32()
 
 We provide pre-trained models, using the PyTorch :mod:`torch.utils.model_zoo`.
 These can be constructed by passing ``pretrained=True``:
@@ -125,6 +131,10 @@ These can be constructed by passing ``pretrained=True``:
     regnet_x_8gf = models.regnet_x_8gf(pretrained=True)
     regnet_x_16gf = models.regnet_x_16gf(pretrainedTrue)
     regnet_x_32gf = models.regnet_x_32gf(pretrained=True)
+    vit_b_16 = models.vit_b_16(pretrained=True)
+    vit_b_32 = models.vit_b_32(pretrained=True)
+    vit_l_16 = models.vit_l_16(pretrained=True)
+    vit_l_32 = models.vit_l_32(pretrained=True)
 
 Instancing a pre-trained model will download its weights to a cache directory.
 This directory can be set using the `TORCH_HOME` environment variable. See
@@ -233,6 +243,10 @@ regnet_y_3_2gf                    78.948          94.576
 regnet_y_8gf                      80.032          95.048
 regnet_y_16gf                     80.424          95.240
 regnet_y_32gf                     80.878          95.340
+vit_b_16                          81.072          95.318
+vit_b_32                          75.912          92.466
+vit_l_16                          79.662          94.638
+vit_l_32                          76.972          93.070
 ================================  =============   =============
 
 
@@ -250,6 +264,7 @@ regnet_y_32gf                     80.878          95.340
 .. _MNASNet: https://arxiv.org/abs/1807.11626
 .. _EfficientNet: https://arxiv.org/abs/1905.11946
 .. _RegNet: https://arxiv.org/abs/2003.13678
+.. _VisionTransformer: https://arxiv.org/abs/2010.11929
 
 .. currentmodule:: torchvision.models
 
@@ -425,6 +440,7 @@ RegNet
     regnet_y_8gf
     regnet_y_16gf
     regnet_y_32gf
+    regnet_y_128gf
     regnet_x_400mf
     regnet_x_800mf
     regnet_x_1_6gf
@@ -433,6 +449,18 @@ RegNet
     regnet_x_16gf
     regnet_x_32gf
 
+VisionTransformer
+-----------------
+
+.. autosummary::
+    :toctree: generated/
+    :template: function.rst
+
+    vit_b_16
+    vit_b_32
+    vit_l_16
+    vit_l_32
+
 Quantized Models
 ----------------
 
 
@@ -6,6 +6,10 @@ project(hello-world)
 # so there is no need to also add `find_package(Torch)` here.
 find_package(TorchVision REQUIRED)
 
+# This due to LibTorch's version is the one included in the Python
+# package that links to Python.
+find_package(Python3 COMPONENTS Development)
+
 add_executable(hello-world main.cpp)
 
 # We now need to link the TorchVision library to our executable.
 
@@ -1,7 +1,6 @@
 # Optional list of dependencies required by the package
 dependencies = ["torch"]
 
-# classification
 from torchvision.models.alexnet import alexnet
 from torchvision.models.densenet import densenet121, densenet169, densenet201, densenet161
 from torchvision.models.efficientnet import (
@@ -28,6 +27,7 @@
     regnet_y_8gf,
     regnet_y_16gf,
     regnet_y_32gf,
+    regnet_y_128gf,
     regnet_x_400mf,
     regnet_x_800mf,
     regnet_x_1_6gf,
@@ -47,8 +47,6 @@
     wide_resnet50_2,
     wide_resnet101_2,
 )
-
-# segmentation
 from torchvision.models.segmentation import (
     fcn_resnet50,
     fcn_resnet101,
@@ -60,3 +58,9 @@
 from torchvision.models.shufflenetv2 import shufflenet_v2_x0_5, shufflenet_v2_x1_0
 from torchvision.models.squeezenet import squeezenet1_0, squeezenet1_1
 from torchvision.models.vgg import vgg11, vgg13, vgg16, vgg19, vgg11_bn, vgg13_bn, vgg16_bn, vgg19_bn
+from torchvision.models.vision_transformer import (
+    vit_b_16,
+    vit_b_32,
+    vit_l_16,
+    vit_l_32,
+)
@@ -201,7 +201,7 @@ def get_extensions():
 
     if sys.platform == "win32":
         define_macros += [("torchvision_EXPORTS", None)]
-
+        define_macros += [("USE_PYTHON", None)]
         extra_compile_args["cxx"].append("/MP")
 
     debug_mode = os.getenv("DEBUG", "0") == "1"
@@ -254,6 +254,9 @@ def get_extensions():
     image_library = []
     image_link_flags = []
 
+    if sys.platform == "win32":
+        image_macros += [("USE_PYTHON", None)]
+
     # Locating libPNG
     libpng = distutils.spawn.find_executable("libpng-config")
     pngfix = distutils.spawn.find_executable("pngfix")
 
@@ -2206,6 +2206,57 @@ def inject_fake_data(self, tmpdir: str, config):
         return len(sampled_classes * n_samples_per_class)
 
 
+class FGVCAircraftTestCase(datasets_utils.ImageDatasetTestCase):
+    DATASET_CLASS = datasets.FGVCAircraft
+    ADDITIONAL_CONFIGS = datasets_utils.combinations_grid(
+        split=("train", "val", "trainval", "test"), annotation_level=("variant", "family", "manufacturer")
+    )
+
+    def inject_fake_data(self, tmpdir: str, config):
+        split = config["split"]
+        annotation_level = config["annotation_level"]
+        annotation_level_to_file = {
+            "variant": "variants.txt",
+            "family": "families.txt",
+            "manufacturer": "manufacturers.txt",
+        }
+
+        root_folder = pathlib.Path(tmpdir) / "fgvc-aircraft-2013b"
+        data_folder = root_folder / "data"
+
+        classes = ["707-320", "Hawk T1", "Tornado"]
+        num_images_per_class = 5
+
+        datasets_utils.create_image_folder(
+            data_folder,
+            "images",
+            file_name_fn=lambda idx: f"{idx}.jpg",
+            num_examples=num_images_per_class * len(classes),
+        )
+
+        annotation_file = data_folder / annotation_level_to_file[annotation_level]
+        with open(annotation_file, "w") as file:
+            file.write("\n".join(classes))
+
+        num_samples_per_class = 4 if split == "trainval" else 2
+        images_classes = []
+        for i in range(len(classes)):
+            images_classes.extend(
+                [
+                    f"{idx} {classes[i]}"
+                    for idx in random.sample(
+                        range(i * num_images_per_class, (i + 1) * num_images_per_class), num_samples_per_class
+                    )
+                ]
+            )
+
+        images_annotation_file = data_folder / f"images_{annotation_level}_{split}.txt"
+        with open(images_annotation_file, "w") as file:
+            file.write("\n".join(images_classes))
+
+        return len(classes * num_samples_per_class)
+
+
 class SUN397TestCase(datasets_utils.ImageDatasetTestCase):
     DATASET_CLASS = datasets.SUN397
 
@@ -2517,5 +2568,68 @@ def _inject_fake_data(self, tmpdir, config):
         return num_examples
 
 
+class Country211TestCase(datasets_utils.ImageDatasetTestCase):
+    DATASET_CLASS = datasets.Country211
+
+    ADDITIONAL_CONFIGS = datasets_utils.combinations_grid(split=("train", "valid", "test"))
+
+    def inject_fake_data(self, tmpdir: str, config):
+        split_folder = pathlib.Path(tmpdir) / "country211" / config["split"]
+        split_folder.mkdir(parents=True, exist_ok=True)
+
+        num_examples = {
+            "train": 3,
+            "valid": 4,
+            "test": 5,
+        }[config["split"]]
+
+        classes = ("AD", "BS", "GR")
+        for cls in classes:
+            datasets_utils.create_image_folder(
+                split_folder,
+                name=cls,
+                file_name_fn=lambda idx: f"{idx}.jpg",
+                num_examples=num_examples,
+            )
+
+        return num_examples * len(classes)
+
+
+class Flowers102TestCase(datasets_utils.ImageDatasetTestCase):
+    DATASET_CLASS = datasets.Flowers102
+
+    ADDITIONAL_CONFIGS = datasets_utils.combinations_grid(split=("train", "val", "test"))
+    REQUIRED_PACKAGES = ("scipy",)
+
+    def inject_fake_data(self, tmpdir: str, config):
+        base_folder = pathlib.Path(tmpdir) / "flowers-102"
+
+        num_classes = 3
+        num_images_per_split = dict(train=5, val=4, test=3)
+        num_images_total = sum(num_images_per_split.values())
+        datasets_utils.create_image_folder(
+            base_folder,
+            "jpg",
+            file_name_fn=lambda idx: f"image_{idx + 1:05d}.jpg",
+            num_examples=num_images_total,
+        )
+
+        label_dict = dict(
+            labels=np.random.randint(1, num_classes + 1, size=(1, num_images_total), dtype=np.uint8),
+        )
+        datasets_utils.lazy_importer.scipy.io.savemat(str(base_folder / "imagelabels.mat"), label_dict)
+
+        setid_mat = np.arange(1, num_images_total + 1, dtype=np.uint16)
+        np.random.shuffle(setid_mat)
+        setid_dict = dict(
+            trnid=setid_mat[: num_images_per_split["train"]].reshape(1, -1),
+            valid=setid_mat[num_images_per_split["train"] : -num_images_per_split["test"]].reshape(1, -1),
+            tstid=setid_mat[-num_images_per_split["test"] :].reshape(1, -1),
+        )
+        datasets_utils.lazy_importer.scipy.io.savemat(str(base_folder / "setid.mat"), setid_dict)
+
+        return num_images_per_split[config["split"]]
+
+
 if __name__ == "__main__":
     unittest.main()