PaddlePaddle · wawltor · Dec 20, 2023 · Dec 20, 2023
diff --git a/applications/document_intelligence/doc_vqa/Rerank/src/finetune_args.py b/applications/document_intelligence/doc_vqa/Rerank/src/finetune_args.py
@@ -59,9 +59,9 @@
 data_g.add_arg("test_set", str, None, "Path to test data.")
 data_g.add_arg("dev_set", str, None, "Path to validation data.")
 data_g.add_arg("vocab_path", str, None, "Vocabulary path.")
-data_g.add_arg("max_seq_len", int, 512, "Number of words of the longest seqence.")
-data_g.add_arg("q_max_seq_len", int, 32, "Number of words of the longest seqence.")
-data_g.add_arg("p_max_seq_len", int, 256, "Number of words of the longest seqence.")
+data_g.add_arg("max_seq_len", int, 512, "Number of words of the longest sequence.")
+data_g.add_arg("q_max_seq_len", int, 32, "Number of words of the longest sequence.")
+data_g.add_arg("p_max_seq_len", int, 256, "Number of words of the longest sequence.")
 data_g.add_arg("train_data_size", int, 0, "Number of training data's total examples. Set for distribute.")
 data_g.add_arg("batch_size", int, 32, "Total examples' number in batch for training. see also --in_tokens.")
 data_g.add_arg("predict_batch_size", int, None, "Total examples' number in batch for predict. see also --in_tokens.")

diff --git a/applications/neural_search/recall/in_batch_negative/batch_negative/model.py b/applications/neural_search/recall/in_batch_negative/batch_negative/model.py
@@ -24,7 +24,7 @@ def __init__(self, pretrained_model, dropout=None, margin=0.3, scale=30, output_
 
         self.margin = margin
         # Used scaling cosine similarity to ease converge
-        self.sacle = scale
+        self.scale = scale
 
     def forward(
         self,
@@ -48,15 +48,15 @@ def forward(
 
         cosine_sim = paddle.matmul(query_cls_embedding, title_cls_embedding, transpose_y=True)
 
-        # Substract margin from all positive samples cosine_sim()
+        # Subtract margin from all positive samples cosine_sim()
         margin_diag = paddle.full(
             shape=[query_cls_embedding.shape[0]], fill_value=self.margin, dtype=paddle.get_default_dtype()
         )
 
         cosine_sim = cosine_sim - paddle.diag(margin_diag)
 
         # Scale cosine to ease training converge
-        cosine_sim *= self.sacle
+        cosine_sim *= self.scale
 
         labels = paddle.arange(0, query_cls_embedding.shape[0], dtype="int64")
         labels = paddle.reshape(labels, shape=[-1, 1])
@@ -71,7 +71,7 @@ def __init__(self, pretrained_model, dropout=None, margin=0.3, scale=30, output_
         super().__init__(pretrained_model, dropout, output_emb_size)
         self.margin = margin
         # Used scaling cosine similarity to ease converge
-        self.sacle = scale
+        self.scale = scale
 
     def forward(
         self,
@@ -95,13 +95,13 @@ def forward(
 
         cosine_sim = paddle.matmul(query_cls_embedding, title_cls_embedding, transpose_y=True)
 
-        # Substract margin from all positive samples cosine_sim()
+        # Subtract margin from all positive samples cosine_sim()
         margin_diag = paddle.full(shape=[query_cls_embedding.shape[0]], fill_value=self.margin, dtype=cosine_sim.dtype)
 
         cosine_sim = cosine_sim - paddle.diag(margin_diag)
 
         # Scale cosine to ease training converge
-        cosine_sim *= self.sacle
+        cosine_sim *= self.scale
 
         labels = paddle.arange(0, query_cls_embedding.shape[0], dtype="int64")
         labels = paddle.reshape(labels, shape=[-1, 1])

diff --git a/applications/neural_search/recall/in_batch_negative/deploy/python/predict.py b/applications/neural_search/recall/in_batch_negative/deploy/python/predict.py
@@ -252,7 +252,7 @@ def predict(self, data, tokenizer):
         args.enable_mkldnn,
     )
 
-    # ErnieTinyTokenizer is special for ernie-tiny pretained model.
+    # ErnieTinyTokenizer is special for ernie-tiny pretrained model.
     output_emb_size = 256
     tokenizer = AutoTokenizer.from_pretrained(args.model_name_or_path)
     id2corpus = {0: "国有企业引入非国有资本对创新绩效的影响——基于制造业国有上市公司的经验证据"}

diff --git a/applications/neural_search/recall/in_batch_negative/recall.py b/applications/neural_search/recall/in_batch_negative/recall.py
@@ -91,7 +91,7 @@
 
     id2corpus = gen_id2corpus(args.corpus_file)
 
-    # conver_example function's input must be dict
+    # convert_example function's input must be dict
     corpus_list = [{idx: text} for idx, text in id2corpus.items()]
     corpus_ds = MapDataset(corpus_list)
 

diff --git a/applications/neural_search/recall/simcse/export_model.py b/applications/neural_search/recall/simcse/export_model.py
@@ -29,7 +29,7 @@
 # yapf: enable
 
 if __name__ == "__main__":
-    # If you want to use ernie1.0 model, plesace uncomment the following code
+    # If you want to use ernie1.0 model, please uncomment the following code
     output_emb_size = 256
 
     pretrained_model = AutoModel.from_pretrained(args.model_name_or_path)

diff --git a/applications/neural_search/recall/simcse/inference.py b/applications/neural_search/recall/simcse/inference.py
@@ -86,7 +86,7 @@ def convert_example(example, tokenizer, max_seq_length=512, do_evalute=False):
     else:
         raise ValueError("Please set --params_path with correct pretrained model file")
 
-    # conver_example function's input must be dict
+    # convert_example function's input must be dict
     corpus_list = [{idx: text} for idx, text in id2corpus.items()]
     corpus_ds = MapDataset(corpus_list)
 

diff --git a/applications/neural_search/recall/simcse/model.py b/applications/neural_search/recall/simcse/model.py
@@ -38,7 +38,7 @@ def __init__(self, pretrained_model, dropout=None, margin=0.0, scale=20, output_
 
         self.margin = margin
         # Used scaling cosine similarity to ease converge
-        self.sacle = scale
+        self.scale = scale
 
     @paddle.jit.to_static(
         input_spec=[
@@ -130,7 +130,7 @@ def forward(
         cosine_sim = cosine_sim - paddle.diag(margin_diag)
 
         # scale cosine to ease training converge
-        cosine_sim *= self.sacle
+        cosine_sim *= self.scale
 
         labels = paddle.arange(0, query_cls_embedding.shape[0], dtype="int64")
         labels = paddle.reshape(labels, shape=[-1, 1])

diff --git a/applications/neural_search/recall/simcse/recall.py b/applications/neural_search/recall/simcse/recall.py
@@ -77,7 +77,7 @@
 
     id2corpus = gen_id2corpus(args.corpus_file)
 
-    # conver_example function's input must be dict
+    # convert_example function's input must be dict
     corpus_list = [{idx: text} for idx, text in id2corpus.items()]
     corpus_ds = MapDataset(corpus_list)
 

diff --git a/applications/question_answering/supervised_qa/faq_finance/model.py b/applications/question_answering/supervised_qa/faq_finance/model.py
@@ -38,7 +38,7 @@ def __init__(self, pretrained_model, dropout=None, margin=0.0, scale=20, output_
 
         self.margin = margin
         # Used scaling cosine similarity to ease converge
-        self.sacle = scale
+        self.scale = scale
         self.classifier = nn.Linear(output_emb_size, 2)
         self.rdrop_loss = paddlenlp.losses.RDropLoss()
 
@@ -133,7 +133,7 @@ def forward(
         cosine_sim = cosine_sim - paddle.diag(margin_diag)
 
         # scale cosine to ease training converge
-        cosine_sim *= self.sacle
+        cosine_sim *= self.scale
 
         labels = paddle.arange(0, query_cls_embedding.shape[0], dtype="int64")
         labels = paddle.reshape(labels, shape=[-1, 1])

diff --git a/applications/question_answering/supervised_qa/faq_finance/recall.py b/applications/question_answering/supervised_qa/faq_finance/recall.py
@@ -79,7 +79,7 @@ def batchify_fn(
 
     id2corpus = gen_id2corpus(args.corpus_file)
 
-    # conver_example function's input must be dict
+    # convert_example function's input must be dict
     corpus_list = [{idx: text} for idx, text in id2corpus.items()]
     corpus_ds = MapDataset(corpus_list)
 

diff --git a/applications/question_answering/supervised_qa/faq_system/export_model.py b/applications/question_answering/supervised_qa/faq_system/export_model.py
@@ -30,7 +30,7 @@
 # yapf: enable
 
 if __name__ == "__main__":
-    # If you want to use ernie1.0 model, plesace uncomment the following code
+    # If you want to use ernie1.0 model, please uncomment the following code
     output_emb_size = 256
 
     pretrained_model = AutoModel.from_pretrained("ernie-3.0-medium-zh")

diff --git a/applications/question_answering/supervised_qa/faq_system/model.py b/applications/question_answering/supervised_qa/faq_system/model.py
@@ -36,7 +36,7 @@ def __init__(self, pretrained_model, dropout=None, margin=0.0, scale=20, output_
 
         self.margin = margin
         # Used scaling cosine similarity to ease converge
-        self.sacle = scale
+        self.scale = scale
 
     @paddle.jit.to_static(
         input_spec=[
@@ -125,7 +125,7 @@ def forward(
         cosine_sim = cosine_sim - paddle.diag(margin_diag)
 
         # scale cosine to ease training converge
-        cosine_sim *= self.sacle
+        cosine_sim *= self.scale
 
         labels = paddle.arange(0, query_cls_embedding.shape[0], dtype="int64")
         labels = paddle.reshape(labels, shape=[-1, 1])

diff --git a/applications/question_answering/supervised_qa/faq_system/recall.py b/applications/question_answering/supervised_qa/faq_system/recall.py
@@ -80,7 +80,7 @@ def batchify_fn(
 
     id2corpus = gen_id2corpus(args.corpus_file)
 
-    # conver_example function's input must be dict
+    # convert_example function's input must be dict
     corpus_list = [{idx: text} for idx, text in id2corpus.items()]
     corpus_ds = MapDataset(corpus_list)
 

diff --git a/applications/text_classification/hierarchical/retrieval_based/export_model.py b/applications/text_classification/hierarchical/retrieval_based/export_model.py
@@ -30,7 +30,7 @@
 # fmt: on
 
 if __name__ == "__main__":
-    # If you want to use ernie1.0 model, plesace uncomment the following code
+    # If you want to use ernie1.0 model, please uncomment the following code
     pretrained_model = AutoModel.from_pretrained(args.model_name_or_path)
     tokenizer = AutoTokenizer.from_pretrained(args.model_name_or_path)
     model = SemanticIndexBaseStatic(pretrained_model, output_emb_size=args.output_emb_size)

diff --git a/applications/text_classification/hierarchical/retrieval_based/model.py b/applications/text_classification/hierarchical/retrieval_based/model.py
@@ -23,7 +23,7 @@ def __init__(self, pretrained_model, dropout=None, margin=0.3, scale=30, output_
 
         self.margin = margin
         # Used scaling cosine similarity to ease converge
-        self.sacle = scale
+        self.scale = scale
 
     def forward(
         self,
@@ -55,7 +55,7 @@ def forward(
         cosine_sim = cosine_sim - paddle.diag(margin_diag)
 
         # scale cosine to ease training converge
-        cosine_sim *= self.sacle
+        cosine_sim *= self.scale
 
         labels = paddle.arange(0, query_cls_embedding.shape[0], dtype="int64")
         labels = paddle.reshape(labels, shape=[-1, 1])

diff --git a/applications/text_classification/hierarchical/retrieval_based/recall.py b/applications/text_classification/hierarchical/retrieval_based/recall.py
@@ -69,7 +69,7 @@
     else:
         raise ValueError("Please set --params_path with correct pretrained model file")
     id2corpus = gen_id2corpus(args.corpus_file)
-    # conver_example function's input must be dict
+    # convert_example function's input must be dict
     corpus_list = [{idx: text} for idx, text in id2corpus.items()]
     corpus_ds = MapDataset(corpus_list)
     corpus_data_loader = create_dataloader(

diff --git a/applications/text_classification/hierarchical/retrieval_based/train.py b/applications/text_classification/hierarchical/retrieval_based/train.py
@@ -203,7 +203,7 @@ def do_train():
     if args.evaluate:
         eval_func = partial(convert_example, tokenizer=tokenizer, max_seq_length=args.max_seq_length)
         id2corpus = gen_id2corpus(args.corpus_file)
-        # conver_example function's input must be dict
+        # convert_example function's input must be dict
         corpus_list = [{idx: text} for idx, text in id2corpus.items()]
         corpus_ds = MapDataset(corpus_list)
         corpus_data_loader = create_dataloader(

diff --git a/applications/text_classification/multi_class/retrieval_based/model.py b/applications/text_classification/multi_class/retrieval_based/model.py
@@ -23,7 +23,7 @@ def __init__(self, pretrained_model, dropout=None, margin=0.3, scale=30, output_
 
         self.margin = margin
         # Used scaling cosine similarity to ease converge
-        self.sacle = scale
+        self.scale = scale
 
     def forward(
         self,
@@ -55,7 +55,7 @@ def forward(
         cosine_sim = cosine_sim - paddle.diag(margin_diag)
 
         # scale cosine to ease training converge
-        cosine_sim *= self.sacle
+        cosine_sim *= self.scale
 
         labels = paddle.arange(0, query_cls_embedding.shape[0], dtype="int64")
         labels = paddle.reshape(labels, shape=[-1, 1])

diff --git a/applications/text_classification/multi_class/retrieval_based/recall.py b/applications/text_classification/multi_class/retrieval_based/recall.py
@@ -74,7 +74,7 @@
     else:
         raise ValueError("Please set --params_path with correct pretrained model file")
     id2corpus = gen_id2corpus(args.corpus_file)
-    # conver_example function's input must be dict
+    # convert_example function's input must be dict
     corpus_list = [{idx: text} for idx, text in id2corpus.items()]
     corpus_ds = MapDataset(corpus_list)
     corpus_data_loader = create_dataloader(

diff --git a/applications/text_classification/multi_class/retrieval_based/train.py b/applications/text_classification/multi_class/retrieval_based/train.py
@@ -175,7 +175,7 @@ def do_train():
     if args.evaluate:
         eval_func = partial(convert_example, tokenizer=tokenizer, max_seq_length=args.max_seq_length)
         id2corpus = gen_id2corpus(args.corpus_file)
-        # conver_example function's input must be dict
+        # convert_example function's input must be dict
         corpus_list = [{idx: text} for idx, text in id2corpus.items()]
         corpus_ds = MapDataset(corpus_list)
         corpus_data_loader = create_dataloader(

diff --git a/applications/text_classification/multi_label/retrieval_based/model.py b/applications/text_classification/multi_label/retrieval_based/model.py
@@ -24,7 +24,7 @@ def __init__(self, pretrained_model, dropout=None, margin=0.3, scale=30, output_
 
         self.margin = margin
         # Used scaling cosine similarity to ease converge
-        self.sacle = scale
+        self.scale = scale
 
     def forward(
         self,
@@ -48,15 +48,15 @@ def forward(
 
         cosine_sim = paddle.matmul(query_cls_embedding, title_cls_embedding, transpose_y=True)
 
-        # Substract margin from all positive samples cosine_sim()
+        # Subtract margin from all positive samples cosine_sim()
         margin_diag = paddle.full(
             shape=[query_cls_embedding.shape[0]], fill_value=self.margin, dtype=paddle.get_default_dtype()
         )
 
         cosine_sim = cosine_sim - paddle.diag(margin_diag)
 
         # Scale cosine to ease training converge
-        cosine_sim *= self.sacle
+        cosine_sim *= self.scale
 
         labels = paddle.arange(0, query_cls_embedding.shape[0], dtype="int64")
         labels = paddle.reshape(labels, shape=[-1, 1])

diff --git a/applications/text_classification/multi_label/retrieval_based/recall.py b/applications/text_classification/multi_label/retrieval_based/recall.py
@@ -74,7 +74,7 @@
     else:
         raise ValueError("Please set --params_path with correct pretrained model file")
     id2corpus = gen_id2corpus(args.corpus_file)
-    # conver_example function's input must be dict
+    # convert_example function's input must be dict
     corpus_list = [{idx: text} for idx, text in id2corpus.items()]
     corpus_ds = MapDataset(corpus_list)
     corpus_data_loader = create_dataloader(

diff --git a/applications/text_classification/multi_label/retrieval_based/train.py b/applications/text_classification/multi_label/retrieval_based/train.py
@@ -166,7 +166,7 @@ def do_train():
         eval_func = partial(convert_example, tokenizer=tokenizer, max_seq_length=args.max_seq_length)
         id2corpus = gen_id2corpus(args.corpus_file)
         label2id = label2ids(args.corpus_file)
-        # conver_example function's input must be dict
+        # convert_example function's input must be dict
         corpus_list = [{idx: text} for idx, text in id2corpus.items()]
         corpus_ds = MapDataset(corpus_list)
         corpus_data_loader = create_dataloader(

diff --git a/examples/semantic_indexing/recall.py b/examples/semantic_indexing/recall.py
@@ -78,7 +78,7 @@
 
     id2corpus = gen_id2corpus(args.corpus_file)
 
-    # conver_example function's input must be dict
+    # convert_example function's input must be dict
     corpus_list = [{idx: text} for idx, text in id2corpus.items()]
     corpus_ds = MapDataset(corpus_list)
 

diff --git a/examples/semantic_indexing/run_ann_data_gen.py b/examples/semantic_indexing/run_ann_data_gen.py
@@ -114,7 +114,7 @@ def build_data_loader(args, tokenizer):
 
     id2corpus = gen_id2corpus(args.corpus_file)
 
-    # conver_example function's input must be dict
+    # convert_example function's input must be dict
     corpus_list = [{idx: text} for idx, text in id2corpus.items()]
     corpus_ds = MapDataset(corpus_list)